上海人工智能實驗室主任周伯文:通專融合是通往的戰略路徑|
界面新聞記者|陳振芳
界面新聞編輯|文姝琪
AGI落地會有一個高價值區域,這要求模型兼備很強的泛化能力和足夠的專業性。區域離原點最近的位置,叫做通專融合的“價值引爆點”,處在這個點的大模型,在專業能力上應超過90%的專業人類,同時具備強泛化能力,即ABI(廣義人工智能)能力。
7月4日,2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC2024)在上海開幕。上海人工智能實驗室主任、首席科學家,清華大學惠妍講席教授,銜遠科技創始人周伯文在WAIC2024科學前沿主論壇上發表開場報告時,做出上述判斷。
對應AGI發展之路,周伯文創造了兩個詞:ANI(狹義人工智能)和ABI(廣義人工智能)。周伯文指出,通向AGI的必經之路是ABI,后者在學術上的嚴格定義為:自監督、端對端、從判別式走向生成式,“ChatGPT出現的時候,基本上實現了這三個要素,即2022年底已經進入ABI時代。”
圖源:上海人工智能實驗室
回看AI發展歷史,在2016、2017年以前,人工智能在專業能力上擁有非常迅猛的進展,但這些模型不具備泛化能力,只在專有任務上表現突出。
2017年Transformer提出后,大模型開始在泛化能力上的“狂飆”。但當時的大模型在專業能力的進展上極其緩慢,同時帶來巨大的能源消耗、數據消耗、資源消耗。
SamAltman曾提到,GPT-4的專業能力,大概相當于10%-15%的專業人士,即使到未來的GPT-5,預期將會提高四到五個點,即用指數級的能源消耗增長換來緩慢的專業能力提升。
“誰先進入高價值區域,意味著誰的能力更強,擁有更多的場景和數據飛輪,并因此更早擁有自我進化迭代的能力。”
周伯文認為,強泛化的專業能力是AI皇冠上的明珠,即通專融合新范式,應瞄準構建一個既具有泛化性又具備專業能力的AI系統,最終能夠更高效、更好地適應和解決現實世界中的復雜問題。
而實現上述目標需要一個完整的技術體系,有三大重點工作要完成。
第一,要在基礎模型層構建通用泛化能力,尤其是高階能力,如數理、因果推理等。通過高質量數據的清洗和合成,上海人工智能實驗室主任周伯文:通專融合是通往的戰略路徑|研發高性能訓練框架、高效的模型架構。
第二,要在融合協同層將泛化性和專業性有效地結合起來,采用多路線協同的算法和技術,構建比肩人類優秀水平的專業能力。這將使得AI能夠在復雜環境中做出決策,將復雜任務分解為更易管理的子任務,制定行動計劃,并有效協調多個智能體,以實現群體智能的涌現。
第三,在自主進化與交互層,AI能夠完成自主探索和反饋閉環。即AI系統需要在真實或仿真世界中自主地收集數據、學習并適應環境。
“在科學發現領域,通專融合也有著巨大的潛在價值。”周伯文表示。
2023年初,Nature曾發表過一篇對科研論文發展現狀持悲觀態度的封面文章,指出“科學進步正在降速”,引發巨大反響。
“大模型的不確定性和幻覺生成,并不總是缺陷,而是它的特點之一。”
周伯文認為,合理利用這種特點,通過人機協同有助于促進科研創新。大模型內部壓縮著世界知識,同時具備不確定性生成的特性,極有可能幫助人類打破不同學科領域知識繭房,進行創新式探索。
通專融合后,AI可以提出科學假設,掌握科學知識、分析實驗結果、預測科學現象。進而在反思的基礎上,提升AI提出科學假設的能力。
周伯文介紹稱,為了更高效地構建通用基礎模型,上海人工智能實驗室在并行訓練及軟硬適配協同、高效數據處理、新型架構及推理增強等方面進行了一系列探索。
舉例來說,上海人工智能實驗室分別在化學和育種兩個方向構建了首個開源大模型——書生·化學和書生·豐登。在分析實驗結果方面,實驗室研發的晶體結構解析算法AI4XRD具備專家級的準確率,并將解析時間從小時級降低到秒級。
而在預測科學現象方面,訓練并持續迭代了風烏氣象大模型,在全球中期氣象預報上具有領先的時間和空間分辨率。
周伯文指出,
具身自主探索是實現通專融合的有效手段,也是理解物理世界的AGI的必經之路。
但具身智能不僅僅是大模型加機器人的應用,而是物理世界的反饋需要及時進化大模型。
為幫助建立世界模型,上海人工智能實驗室構建了“軟硬虛實”一體的機器人訓練場——“浦源·桃源”,這是首個城市級的具身智能數字訓練場,構建了集場景數據、工具鏈、具身模型評測三位一體的開源具身智能研究平臺。作為大模型與機器人的連接層,其涵蓋89種場景、10萬 可交互數據,最終解決領域內數據匱乏、評測困難的問題。
“浦源·桃源”模型同時攻關具身智能的“大腦”與“小腦”。在大腦方面,通過具身智能體在自身狀態認知、復雜任務分解分配、底層技能協同控制的三方面創新,首次實現了大模型驅動的無人機、機械臂、機器狗三種異構智能體協同。
在小腦方面,通過GPU高性能并行仿真和強化學習,實現機器人在真實世界里快速學習,完成高難度動作,單卡1小時的訓練就能實現真實世界380天的訓練效果。
在基礎模型方面,上海人工智能實驗室旗下大語言模型書生·浦語2.5,實現了綜合性能比肩開源大模型參數的性能。多模態大模型書生·萬象,通過漸進式對齊、向量鏈接等創新技術,實現了用更少算力資源訓練高性能大模型的道路。該模型以260億參數,也能達到了在關鍵評測中比肩GPT-4的水平。
“對于可信AGI的未來,我們的態度是堅定而積極的:Wemustbethere.Wewillbethere,我們必須達成,我們終將抵達。”周伯文最后總結道。
1.本站遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.本站的原創文章,請轉載時務必注明文章作者和來源,不尊重原創的行為我們將追究責任;3.作者投稿可能會經我們編輯修改或補充。