Chatbot looking out of a smartphone display. Text bubbles floating around. Pink background.

(SeaPRwire) –   在許多方面來說,2023年是人們開始了解AI真正意義的一年——以及它可以做什麼。這是聊天機器人首次真正流行的一年,也是政府開始認真考慮AI風險的一年。這些發展不太可能是新的創新,而更像是經過長期孕育後的技術和概念走到前台。

但也有很多新的創新。以下是過去一年三大重要的創新:

多模態

「多模態」聽起來可能像是專業術語,但理解它的意思很重要:它指AI系統能夠處理各種不同類型的數據——不僅僅是文字,也包括圖片、視頻、音頻等。

今年是公眾首次獲得使用強大多模態AI模型的機會。OpenAI的GPT-4就是第一個,允許用戶上傳圖片以及文字輸入。GPT-4可以「看見」圖片中的內容,這為例如根據冰箱內容照片問它應該做什麼晚餐等開啟了各種可能性。9月,OpenAI推出用戶可以通過語音以及文字與ChatGPT互動的功能。

谷歌DeepMind的最新模型Gemini,在12月公佈,也可以處理圖片和音頻。谷歌分享的一個推出視頻顯示,該模型可以根據貼紙上的線條圖識別鴨子。在同一視頻中,在向它展示粉紅色和藍色毛線圖片並問它可以用來創造什麼時,Gemini生成了一個粉紅色和藍色章魚布偶的圖片。(市場推廣視頻似乎顯示Gemini可以實時觀察移動圖像並響應語音命令,但在其網站文章中,谷歌表示視頻已經為簡潔而編輯——模型實際上是使用靜態圖像而不是視頻進行提示,使用文字提示而不是語音,儘管模型確實具有。)

「我認為人們會回頭看,並記住的下一個里程碑,是[AI系統]更全面地多模態,」10月谷歌DeepMind共同創始人Shane Legg在一次採訪中說。「這是這種轉型的早期,當系統開始真正消化大量視頻和其他東西時,這些系統將開始形成對世界的更深入理解。」11月,OpenAI執行長Sam Altman在接受時代雜誌採訪時表示,公司新模型在多模態方面的進展將是明年值得關注的重點之一。

多模態的承諾不僅是模型變得更有用。它也意味著模型可以在豐富的新數據集上進行訓練——圖片、視頻、音頻——這些數據包含的關於世界的信息比單獨文字更多。許多頂級AI公司內部的信念是,這些新訓練數據將轉化為模型能力的提升。這是朝著「人工通用智能」的一步,即能與人類智能匹配的系統,能夠做出新的科學發現並執行具有經濟價值的勞動。

憲法AI

AI如何與人類價值觀一致,是AI領域最大的未解決問題之一。如果這些系統變得比人類更聰明和強大,如果不以人類福祉為中心加以限制,它們可能會對我們物種造成無法估量的傷害——有人甚至說可能導致物種滅絕。

OpenAI用於使ChatGPT與(避免早期模型的)的過程效果很好——但它需要大量人力,通過一種名為「與人類反饋的強化學習」或RLHF的技術。人員評估者會評估AI的回應,如果回應有助於、無害並遵守OpenAI的內容規則,就會給予它計算等價的狗骨頭獎勵。通過獎勵AI表現良好並懲罰其表現不良,OpenAI開發出一個有效且相對無害的聊天機器人。

但是,由於RLHF過程很大程度上依賴人工勞動,它的可擴展性存在很大問題。它成本高。它受個別評估員的偏見或錯誤影響。隨著規則列表的複雜性增加,它變得更容易失敗。對於那些已經開始做出人類無法理解的事情的AI系統來說,它看起來不太可能奏效。

憲法AI——首次由頂級AI實驗室Anthropic在2022年12月發佈的研究中描述——試圖解決這些問題,利用AI系統現在能夠理解自然語言的事實。這個想法非常簡單。首先,你寫一份「憲法」概述你希望你的AI遵循的價值觀。然後訓練AI根據回應符合憲法的程度進行評分,並激勵模型輸出獲得更高分數的回應。不是從人類反饋中進行強化學習,而是從AI反饋中進行強化學習。「這些方法可以更精確地控制AI行為,並且需要遠少量的人類標籤,」Anthropic研究人員寫道。憲法AI被用於對齊Anthropic在2023年推出的答案ChatGPT。(Anthropic的投資者包括Salesforce,時代雜誌主席兼所有人馬克·貝尼奧夫擔任CEO。)

「通過憲法AI,你明確書寫模型應該如何面對世界的規範前提,」8月Anthropic政策負責人傑克·克拉克告訴時代雜誌。「然後模型在那個基礎上進行訓練。」雖然仍有問題,例如確保模型理解規則的精神和內容,(「你把賭注放在一個大而不透明的AI模型上,」克拉克說,)但這種技術是這個領域少有的新對齊策略之一。

當然,憲法AI並沒有解決AI應該與哪個人的價值觀一致這個問題。但Anthropic正在嘗試民主化這個問題。10月,該實驗室舉行了一項實驗,徵求1000名美國代表群體協助為聊天機器人選擇規則,發現雖然有一定的分歧,但仍然可以根據群體達成共識的聲明起草一份可行的憲法。這類實驗可能為未來打開大門,使普通人在如何管理AI方面有更大的發言權,相比今天只有少數幾家位於矽谷的公司制定規則。

文字到視頻

今年AI領域湧入的數十億美元資金,其中一個明顯結果就是文字到視頻工具的迅速興起。去年文字到圖片工具已經;現在有幾家公司提供將句子轉換為具有日益精細級別準確性的移動圖像的能力。

這些公司之一是位於布魯克林的AI視頻初創公司,它希望使影片製作能夠開放給任何人。其最新模型Gen-2不僅允許用戶從文字生成視頻,也允許根據文字提示改變現有視頻的風格(例如,將一張餐桌上的穀物盒照片轉換成夜景城市景觀),這一過程它稱為視頻到視頻。

「我們的使命是建立人類創造力的工具,」5月對時代雜誌表示。他承認這將影響創意行業的工作,AI工具正在快速使一些技術專業知識變得過時,但他認為值得承擔的後果世界。「我們的願景是人類創造力得到增強和提升,它不再是關於技術規格和知識的掌握,更關於你的想法。」(是的投資者包括Salesforce,時代雜誌主席兼所有人馬克·貝尼奧夫擔任CEO。)

文字到視頻領域的另一家初創公司是Pika AI,據報導每周生成數百萬個新視頻。由兩名史丹福大學輟學生創立的公司在4月推出,但已獲得估值在2至3億美元之間的融資,根據。面向普通用戶而非專業影片製作人的免費工具

本文由第三方內容提供商提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

領域: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供實時新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及90個國家350萬台財經用戶終端。SeaPRwire支持英語、韓語、日語、阿拉伯語、越南語、泰語、印度尼西亞語、馬來語、德語、俄語、法語、西班牙語、葡萄牙語、中文等多種語言的新聞稿發佈。部分中文媒體包括:BuzzHongKong, TIHongKong, TaiwanPR, TWZip, TaipeiCool, DotDebut, TWNut, BaseTopics, EastMud