DeepMind哈薩比斯最新認知都在這里了
不圓 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
Nano Banana如此火爆,讓谷歌DeepMind CEO哈薩比斯在最新訪談中又一次聊起了AGI。
如果我們在未來十年內(nèi)擁有完全的AGI,將開創(chuàng)一個科學(xué)的黃金時代,一種新的文藝復(fù)興。
Nano Banana當(dāng)然不是AGI,但它也體現(xiàn)了哈薩比斯認為AGI系統(tǒng)所需的一些關(guān)鍵能力和特征。
哈薩比斯曾經(jīng)預(yù)測過我們可能會在2030年左右實現(xiàn)AGI,但亟待突破的瓶頸在于:目前AI系統(tǒng)并非真正的“博士級智能”,因為它們僅僅是在某些領(lǐng)域表現(xiàn)出色,但在其他方面仍會犯簡單錯誤。
并且,今天的AI還沒有“真正的創(chuàng)造力”,不能提出新的猜想或者假設(shè)。
要構(gòu)建AGI,需要理解我們周圍的世界和物理世界,而不僅僅是語言或數(shù)學(xué)的抽象世界。
雖然面對著上述挑戰(zhàn),但哈薩比斯依然堅信AGI的到來將開啟一個“科學(xué)的黃金時代”,并在能源、健康等多個領(lǐng)域為人類帶來巨大益處。
網(wǎng)友表示:迄今為止,這是關(guān)于通往AGI之路的挑戰(zhàn)和機遇的最真實對話之一。
話不多說,量子位為大家翻譯整理了這次訪談,讓我們一起來看:
能生成逼真的物理交互場景,本身就是系統(tǒng)深度理解世界規(guī)律的證明。人形機器人對日常任務(wù)極具價值,但專用機器人形態(tài)同樣有其不可替代的應(yīng)用場景。AGI應(yīng)該具備原始的創(chuàng)造能力,而不僅僅是優(yōu)化現(xiàn)有體系。并非所有人都能獲得相同輸出質(zhì)量,因為其中還涉及使用技巧、審美視野和敘事能力等專業(yè)素養(yǎng)。我認為在未來10年內(nèi),藥物研發(fā)周期有望從數(shù)年甚至十年縮短到幾周甚至幾天。Nano Banana的強大之處不僅在于它是頂尖圖像生成器,更在于其驚人的一致性混合系統(tǒng)的終極目標(biāo)是將已驗證的解決方案上游化整合到學(xué)習(xí)組件中。
諾貝爾獎和谷歌DeepMind
主持人:首先,恭喜你獲得諾貝爾獎。感謝X,感謝AlphaFold取得的驚人突破。也許你之前講過,但我知道在座的各位都很想聽你講述一下,你獲得諾貝爾獎時身在何處、當(dāng)時的情景是怎樣的?
哈薩比斯:那是一個非常超現(xiàn)實的時刻(笑),這一切都太讓人難以置信了。他們會在一切上線前大約10分鐘通知你。當(dāng)你接到來自瑞典的電話時,你會如遭雷擊——這是每個科學(xué)家夢寐以求的電話。然后是幾場儀式,在瑞典與皇室成員一起度過了整整一周,太神奇了。
最神奇的是,他們會從保險箱的金庫中取出諾貝爾獎證書,然后你就可以在上面簽名,與其他偉大的獲獎?wù)卟⒘?。這是一個相當(dāng)不可思議的時刻,在其他頁面你可以看到費曼和費恩、瑪麗·居里、愛因斯坦和尼爾斯·玻爾,然后你繼續(xù)往后翻,就可以把自己的名字也寫進那本書里。
主持人:你是不是隱隱約約覺得自己被提名了,知道這件事可能就要降臨到你頭上?
哈薩比斯:說到底,現(xiàn)在這個時代還能把消息封鎖得這么嚴密,其實挺驚人的——但這項技術(shù)確實像瑞典的國寶一樣被保護著。所以外界只能聽到些風(fēng)聲,比如有人認為AlphaFold或許配得上這種級別的重視。但評獎標(biāo)準(zhǔn)既要看科學(xué)突破性,也要衡量現(xiàn)實影響力,而后者可能需要20、30年才能顯現(xiàn)。所以誰都無法預(yù)料突破何時到來、甚至是否真能實現(xiàn)。這恰恰正是科研最迷人的地方。
主持人:真是太驚喜了,恭喜你。說到DeepMind。Alphabet作為龐大的集團旗下業(yè)務(wù)線眾多,DeepMind在其中扮演著什么角色?主要承擔(dān)哪些責(zé)任?
哈薩比斯:我們現(xiàn)在其實把DeepMind和谷歌DeepMind看作一個整體——幾年前兩家完成了合并,整合了谷歌和Alphabet旗下所有人工智能團隊的力量。可以說,我們匯聚了各團隊的優(yōu)勢資源,組建成了這個統(tǒng)一的部門。
我更愿意這樣形容:我們就像是整個谷歌和Alphabet的“發(fā)動機艙”。我們不僅正在構(gòu)建核心的Gemini模型,還開發(fā)包括視頻模型、交互式世界模型在內(nèi)的多種AI模型。現(xiàn)在這些模型已全面接入谷歌生態(tài),幾乎每款產(chǎn)品、每個交互界面都運行著我們研發(fā)的AI模型。
如今已有數(shù)十億用戶通過AI概覽、AI模式或Gemini應(yīng)用與我們的模型交互——而這僅僅是個開始。我們正在將AI深度集成到Workspace、Gmail等全線產(chǎn)品中。對我們來說,這是一個絕佳的機會:既能開展前沿研究,又可以立刻讓全球用戶體驗到成果。
主持人:你的團隊有多少人,他們的情況如何?是科學(xué)家、工程師嗎?你的團隊構(gòu)成是什么樣的?
哈薩比斯:我們團隊目前約有5000人,主要由工程師和博士研究員組成……我猜占比80%以上,算下來差不多有三四千名頂尖技術(shù)人才吧。
Genie 3世界模型
主持人:現(xiàn)在模型迭代特別快,不斷有新模型甚至全新類別的模型出現(xiàn),比如前幾天發(fā)布的Genie世界模型。那么,Genie世界模型是什么呢?我們準(zhǔn)備了演示視頻,可以在現(xiàn)場直播的時候討論一下。
演示視頻:你看到的不只是游戲或者視頻,它們是由Genie 3生成的完整虛擬世界。作為世界模型的新突破,現(xiàn)在你只需用文字描述一個場景,Genie 3就能即時生成可交互的沉浸式環(huán)境,讓你真正“走進”自己創(chuàng)造的想象世界。
哈薩比斯:是的,你看到的所有這些動態(tài)畫面和可交互世界——注意看,現(xiàn)在有人正在用方向鍵和空格鍵實時操控這個3D環(huán)境。關(guān)鍵點在于:所有這些像素都是即時生成的,在玩家探索到某個區(qū)域之前,那個地方根本不存在任何內(nèi)容。
比如這個場景:有人正在房間里涂鴉墻面,玩家轉(zhuǎn)頭再回看時,剛才的涂鴉痕跡還在墻上,而這一部分以前是不存在的。更神奇的是,你隨時可以輸入“穿雞仔服的人”或“水上摩托”之類的指令,AI就會實時把這些元素融入場景。我覺得這的確令人驚嘆。
主持人:看到這一點是有些難以理解的,我們都玩過3D的沉浸式電子游戲,但目前還沒有創(chuàng)建任何對象的功能。你沒有用Unity或者Unreal這類3D引擎預(yù)先制作物體,看到的全是AI實時生成的2D圖像,卻產(chǎn)生了完全沉浸式的3D體驗——這才是真正突破認知的地方。
哈薩比斯:這個模型本質(zhì)上是在通過逆向工程學(xué)習(xí)物理規(guī)律。它分析了數(shù)百萬段YouTube等平臺的真實世界視頻,從中自主推導(dǎo)出了現(xiàn)實世界的運行邏輯。雖然目前還不完美,但已經(jīng)能生成持續(xù)一兩分鐘的高度一致性交互場景。特別值得注意的是:它的生成范圍遠超人類活動。你既可以操控沙灘上的小狗,也能與水母互動,真正實現(xiàn)了對多元世界的模擬還原。
主持人:傳統(tǒng)3D渲染引擎的工作原理是程序員預(yù)先編寫所有物理規(guī)則,比如光線如何反射、物體如何運動。你創(chuàng)建一個3D模型,引擎根據(jù)預(yù)設(shè)程序計算光影效果,最終渲染出畫面。但Genie的突破在于它僅通過觀看海量視頻,就自主領(lǐng)悟了這些物理規(guī)律。沒有任何人工編程的物理法則,純粹通過觀察學(xué)習(xí)就掌握了光影反射、物體運動等復(fù)雜原理。
哈薩比斯:是的,它不僅用了真實視頻數(shù)據(jù),還結(jié)合了游戲引擎的合成數(shù)據(jù)進行訓(xùn)練。這個項目對我有特殊意義,真正讓我震撼的是,上世紀(jì)90年代我剛?cè)胄袝r,曾親手編寫游戲AI和圖形引擎,當(dāng)時光是要手動編程實現(xiàn)多邊形建模和物理引擎就難如登天。而現(xiàn)在看著Genie:水面的動態(tài)反光、材質(zhì)的流動感、物體的物理行為等等,所有這些曾經(jīng)需要嘔心瀝血編程的效果,現(xiàn)在都能開箱即用。
主持人:很難用語言形容這個模型究竟解決了多復(fù)雜的難題,這種突破性真的超乎想象。這項技術(shù)將帶我們走向何方,如果我們把這個模型快進到……第五代?
哈薩比斯:我們開發(fā)這類模型的初衷始終明確,雖然普通語言模型(如Gemini基礎(chǔ)版)在不斷進步,但從Gemini誕生第一天起,我們就立志打造真正的多模態(tài)系統(tǒng)——它能處理任意類型的輸入,包括圖像、音頻、視頻,并且生成任意形式的輸出。
這關(guān)乎通用人工智能(AGI)的核心命題:真正的AGI必須理解我們的物理世界,而不僅僅是語言或數(shù)學(xué)的抽象領(lǐng)域。這種物理認知能力正是當(dāng)前機器人技術(shù)缺失的關(guān)鍵一環(huán),也是智能眼鏡等日常AI助手真正實用化的前提——它們必須理解你所處的物理環(huán)境及其運行規(guī)律。
因此,Genie模型和我們的頂級文生視頻系統(tǒng)Veo,本質(zhì)上都是在構(gòu)建“世界模型”。這些都是我們構(gòu)建理解世界動態(tài)、世界物理規(guī)律的世界模型的體現(xiàn),能生成逼真的物理交互場景,本身就是系統(tǒng)深度理解世界規(guī)律的證明。
機器人技術(shù)革命
主持人:這項技術(shù)最終將通向機器人技術(shù)的革命性突破。雖然這只是其中一個應(yīng)用方向,但也許我們可以探討一下,目前視覺-語言-動作模型的最高水平是怎樣的?
我們設(shè)想中的通用系統(tǒng)是這樣的:一個具備攝像頭觀測能力的機器,我可以使用語言,可以用文字或語音告訴它,我希望你去做這件事。然后它就知道如何在現(xiàn)實世界中采取實際行動來做某件事。
哈薩比斯:沒錯。你可以看看我們的Gemini,也就是Gemini的實時版本,在這個版本中你可以舉起手機,將其對準(zhǔn)周圍的世界——我建議你們?nèi)魏稳硕既ピ囋嚒鼘ΜF(xiàn)實世界的理解已經(jīng)達到了一種神奇的程度。我們考慮下一步將其融入某種更便捷的設(shè)備中,比如眼鏡,然后它將成為真正的日常助手,當(dāng)你走在街上時,它就能向你推薦各種事物。我們還可以將其嵌入到谷歌地圖中。
在機器人領(lǐng)域,我們構(gòu)建了一個名為“Gemini機器人模型”的東西,它是在雙子座模型基礎(chǔ)上,利用額外的機器人數(shù)據(jù)進行微調(diào)的。在今年夏天發(fā)布的演示中,有兩個機械手在桌面上操作物體,你可以直接和機器人對話,比如“把黃色的物體放進紅色的桶里”,它就能將語言轉(zhuǎn)化為精準(zhǔn)的動作指令。
這就是多模態(tài)模型的力量,而不是僅僅是一個針對機器人的模型,它能將現(xiàn)實世界理解能力融入交互過程。最終你需要的不僅是人性化的交互界面(UI/UX),還有讓機器人具備安全導(dǎo)航世界的認知能力。
主持人:我向桑達爾(谷歌CEO)提過這個問題,這是否意味著最終能構(gòu)建出類似Unix或安卓系統(tǒng)的通用機器人操作系統(tǒng)層?到那時,如果這個系統(tǒng)能在足夠多的設(shè)備上穩(wěn)定運行,機器人設(shè)備、公司和產(chǎn)品將會大量涌現(xiàn),在全球范圍內(nèi)突然蓬勃發(fā)展,因為通用的軟件基礎(chǔ)已經(jīng)存在。
哈薩比斯:沒錯。我們確實在推行“安卓模式”的戰(zhàn)略,如果你愿意這么說的話。我們正在打造跨機器人的通用操作系統(tǒng)層,同時也在探索垂直整合:將最新模型與特定機器人類型深度結(jié)合,實現(xiàn)端到端的學(xué)習(xí)優(yōu)化。這兩條路徑都相當(dāng)有趣,我們正在并行推進。
主持人:你認為人形機器人是一種好的外形設(shè)計嗎?這方面存在一些爭議,有的人認為人類環(huán)境本就為人形設(shè)計,但特定任務(wù)可能需要專用形態(tài)——比如疊衣服、洗碗或清潔,或許需要不同的結(jié)構(gòu)設(shè)計。
哈薩比斯:我認為這兩者都會有一席之地。其實在5-10年前,我曾堅信特定任務(wù)需要專用機器人,在工業(yè)領(lǐng)域尤其如此。實驗室和生產(chǎn)線需要的機器人類型截然不同,都需要針對具體任務(wù)進行形態(tài)優(yōu)化。
但對于通用或個人用途的機器人而言,人形形態(tài)可能至關(guān)重要,因為我們所處的物理世界本就是為人類設(shè)計的。臺階、門廊等所有設(shè)施都基于人體工學(xué)建造,與其改造世界,不如讓機器人適配現(xiàn)有人類環(huán)境,這種設(shè)計思路顯然更合理。
所以我認為有理由說,人形形態(tài)對日常任務(wù)極具價值,但專用機器人形態(tài)同樣有其不可替代的應(yīng)用場景。
主持人:你對未來五年、七年,數(shù)以千計的人有什么展望?我的意思是,你對機器人技術(shù)有什么愿景嗎?
哈薩比斯:我有,而且我在這上面花了不少時間。我感覺我們在機器人技術(shù)領(lǐng)域還處于早期階段,未來幾年內(nèi)會出現(xiàn)真正的“顛覆性時刻”,但當(dāng)前算法仍需升級。這些機器人模型依賴的通用基礎(chǔ)需要變得更可靠、更精準(zhǔn)地理解世界,我相信這些突破將在未來兩三年內(nèi)實現(xiàn)。
然后還有硬件方面,關(guān)鍵問題在于規(guī)模化的時機選擇。我認為最終我們會有數(shù)百萬臺機器人幫助社會并提高生產(chǎn)力,但當(dāng)你與硬件專家交流時,要確定在什么階段擁有合適的硬件水平才能選擇擴展方案。當(dāng)我們計劃建造工廠生產(chǎn)數(shù)萬乃至數(shù)十萬臺特定機器人時,硬件設(shè)計就會固化,很難快速迭代更新。
這就形成一個悖論:如果過早規(guī)模化,六個月后可能出現(xiàn)更可靠、更靈活的新一代設(shè)計。但最終目標(biāo)仍是讓數(shù)百萬機器人服務(wù)社會提升生產(chǎn)力,因此必須在硬件成熟度與規(guī)?;枨箝g找到平衡點。
主持人:聽起來用計算機領(lǐng)域的類比來說,我們現(xiàn)在處于70年代的PC初期階段。各種原型機涌現(xiàn),但尚未形成統(tǒng)一標(biāo)準(zhǔn)。
哈薩比斯:是的,有可能。我想也許這就是我們所處的情況,除了10年的變化可能在1年內(nèi)發(fā)生。所以,沒錯,得快速更新。
主持人:1984年或許就是這樣一個年份(指1年內(nèi)發(fā)生10年的變化)。
哈薩比斯:沒錯,就是這樣。
衡量AGI的方法
主持人:那么,讓我們來談?wù)勂渌麘?yīng)用,比如你最熱愛的科學(xué)應(yīng)用領(lǐng)域。我一直覺得AI最偉大的使命是解決人類當(dāng)前技術(shù)和認知能力無法突破的難題,而我們可以釋放所有這些潛力。你最感興趣的科學(xué)領(lǐng)域和科學(xué)突破有哪些?我們需要怎樣的模型來實現(xiàn)這些突破呢?
哈薩比斯:我畢生致力于AI研究的核心動力,就是希望用AI加速科學(xué)發(fā)現(xiàn)、改善人類健康——這無疑是AI最重要的使命。我覺得如果我們以正確的方式構(gòu)建AGI,它將成為科學(xué)的終極工具。
DeepMind已經(jīng)在這方面開辟了道路,除了最著名的AlphaFold,我們的AI系統(tǒng)還應(yīng)用于材料設(shè)計、核聚變等離子體控制、天氣預(yù)測、國際數(shù)學(xué)奧林匹克競賽解題等多個科學(xué)領(lǐng)域。同樣類型的系統(tǒng)再經(jīng)過一些微調(diào),基本上就能解決很多這類復(fù)雜問題。
但我認為我們只是觸及了AI所能做到的事情的表面,還有一些東西是缺失的。我想說,如今的AI還不具備真正的創(chuàng)造力,因為它還無法提出新的猜想或新的假設(shè)。它或許能夠證明你提供給它的某些東西,但它本身無法提出新的想法或理論。這實際上將成為衡量AGI是否成熟的關(guān)鍵測試之一。
主持人:作為人類,創(chuàng)造力是什么?
哈薩比斯:我認為是直覺上的飛躍,讓我們常常對歷史上最杰出的科學(xué)家和藝術(shù)家們致以敬意。也許這是通過類比或類比推理來完成的,心理學(xué)和神經(jīng)科學(xué)對此有多種理論解釋,也有關(guān)于我們?nèi)祟惪茖W(xué)家如何開展研究的理論。一個有效的測試方法是,給AI設(shè)置1901年的知識截止點,看它能否像1905年的愛因斯坦那樣提出狹義相對論。如果能夠?qū)崿F(xiàn)這種創(chuàng)造性躍遷,或許就意味著我們接近真正的AGI了。
以十年前擊敗世界冠軍的AlphaGo為例:它不僅贏了比賽,還為圍棋發(fā)明了前所未見的新策略,這一著名的第37手棋出現(xiàn)在第二局比賽中,如今已成為研究對象。但問題在于,AI系統(tǒng)能否想出像圍棋一樣優(yōu)雅、令人滿足、在美學(xué)上同樣美麗的游戲,而不只是一種新策略呢?目前,對這些問題的答案是否定的。我認為這正是真正通用系統(tǒng)所缺失的:AGI應(yīng)該具備這種原始創(chuàng)造能力,而不僅僅是優(yōu)化現(xiàn)有體系。
主持人:你能分析一下缺少什么嗎?也許與達里奧、薩姆等人分享的觀點有關(guān),即AGI在幾年內(nèi)就能實現(xiàn),你是否認同這一觀點?從系統(tǒng)架構(gòu)的角度看,當(dāng)前究竟缺乏哪些關(guān)鍵組件?
哈薩比斯:嗯,我認為這其中的根本問題在于,我們能否復(fù)制人類頂尖科學(xué)家那種直覺飛躍,而非漸進式進步?我常說,優(yōu)秀科學(xué)家與偉大科學(xué)家的區(qū)別在于創(chuàng)造力,他們能從其他領(lǐng)域發(fā)現(xiàn)可類比模式,遷移到解決目標(biāo)問題上。我認為有朝一日,AI將能夠做到這一點,但它目前還不具備實現(xiàn)這種突破所需的推理能力和某些思維能力。此外,系統(tǒng)的一致性也是當(dāng)前短板。
所以你經(jīng)常聽到我們的一些競爭對手談?wù)摤F(xiàn)有系統(tǒng)具備“博士智能水平”,我覺得那是一派胡言。它們確實在某些領(lǐng)域達到博士級能力,但整體遠未達到通用智能應(yīng)有的水平,真正的AGI應(yīng)該在所有領(lǐng)域都保持博士級表現(xiàn)。
事實上,眾所周知,在與當(dāng)今的聊天機器人互動時,如果你以某種特定方式提問,它們甚至?xí)诟咧袛?shù)學(xué)和簡單計數(shù)等方面犯簡單錯誤。對于真正的AGI系統(tǒng)來說,這應(yīng)該是不可能的。我覺得,我們距離擁有一個能夠完成這些任務(wù)的AGI系統(tǒng),大概還有5-10年的時間。
此外,持續(xù)學(xué)習(xí)能力也是一個關(guān)鍵的缺失:系統(tǒng)需要能實時吸收新知識、調(diào)整行為模式?;蛟S規(guī)模擴大會帶來突破,但我認為還需要一兩個根本性的技術(shù)突破,這些可能會在未來5年左右出現(xiàn)。
Nano Banana與創(chuàng)意工具的未來
主持人:與此同時,一些報告和所使用的評分系統(tǒng)似乎正在表明兩件事:其一,大型語言模型性能正在趨同;其二,代際性能提升速度正在放緩或趨于平緩。這兩點觀察大體上是正確的,還是并非如此呢?
哈薩比斯:不-不。我的意思是,我們內(nèi)部并沒有看到這種情況。我們?nèi)栽谝娮C巨大的進步速度,但同時也在更廣泛地審視事物。你看,我們有Genie模型和Veo模型,以及Nano Banana。
主持人:對,這簡直太瘋狂了。像我這種從Adobe Photoshop、Kai’s Power Tools時代過來的人,現(xiàn)在看到Bryce 3D這樣的圖形系統(tǒng)能實現(xiàn)實時識別,這完全顛覆了我們當(dāng)年的工作流程。
哈薩比斯:嗯,我認為很多這類創(chuàng)意工具的未來就是,你只需與它們產(chǎn)生共鳴,或者直接和它們交流,它們就會足夠穩(wěn)定。Nano Banana的強大之處不僅在于它是頂尖圖像生成器,更在于其驚人的一致性:它能夠理解指令,按照你的要求進行更改,同時保持其他元素不變。這樣你就可以用它進行迭代,最終得到你想要的輸出結(jié)果。我認為,這就是許多這類創(chuàng)意工具的未來走向,也在一定程度上預(yù)示了發(fā)展方向,人們喜歡它,也喜歡用它進行創(chuàng)作。
主持人:我記得小時候得買關(guān)于Adobe Photoshop的書,然后通過閱讀這些書來學(xué)習(xí)如何從圖像中去除某些東西、如何填充、羽化以及諸如此類的操作?,F(xiàn)在任何人都可以使用Nano Banana來做到這一點,他們只需向軟件說明自己想做的事情,模型就會幫他們實現(xiàn)。
哈薩比斯:我想你會看到兩件事,一是這些工具讓每個人都能使用和創(chuàng)作,而不必像我們過去那樣學(xué)習(xí)極其復(fù)雜的用戶體驗(UX)和用戶界面(UI)。另一方面,我認為我們會,而且我們也正在與電影制作人、頂級創(chuàng)作者和藝術(shù)家合作,他們正在幫助我們設(shè)計這些新工具應(yīng)該是什么樣子。
像我的朋友達倫·阿倫諾夫斯基(著名導(dǎo)演)團隊正在用Veo和我們的其他一些工具制作電影,他們的反饋正在幫我們重塑下一代創(chuàng)作工具的功能設(shè)計。我們發(fā)現(xiàn),它也能讓最優(yōu)秀的專業(yè)人士如虎添翼、火力全開,專業(yè)創(chuàng)作者能實現(xiàn)十倍百倍的效率提升,以極低成本嘗試各種創(chuàng)意構(gòu)想,最終精準(zhǔn)實現(xiàn)理想效果。
這實際上形成雙軌賦能效應(yīng):我們正在將其普及化,以供日常使用,供油管創(chuàng)作者等大眾用戶降低門檻,另一方面又為高端創(chuàng)作者提供放大器——但并非所有人都能獲得相同輸出質(zhì)量,因為其中還涉及使用技巧、審美視野和敘事能力等專業(yè)素養(yǎng)。真正擅長這些工具的優(yōu)秀創(chuàng)作者,能借此實現(xiàn)前所未有的迭代速度。
主持人:我們能進入一個每個人都能描述自己感興趣的內(nèi)容類型的世界嗎?比如播放類似戴夫·馬修斯的音樂或沉浸式體驗《勇敢的心》電影中的游戲。未來我們會走向個性化內(nèi)容定制,還是保持傳統(tǒng)一對多的創(chuàng)作模式?從文化層面看——這或許有點哲學(xué)意味——我們是否會失去集體共享的敘事體驗?當(dāng)每個人都在虛擬世界中構(gòu)建個人化故事時,由創(chuàng)作者主導(dǎo)的公共文化記憶是否會消失?
哈薩比斯:實際上,我預(yù)見了一個世界,作為一名在90年代就開始投身游戲行業(yè)的游戲設(shè)計師和程序員,我對此思考頗多,我認為未來娛樂將出現(xiàn)全新的藝術(shù)形式,即一種融合共創(chuàng)的體驗。頂級創(chuàng)意先鋒仍將主導(dǎo)創(chuàng)作,他們能用相同工具打造出比普通人更高質(zhì)量的動態(tài)敘事體驗。數(shù)百萬人既可以沉浸在這些世界中,也能參與部分內(nèi)容的共創(chuàng)。主創(chuàng)者可能扮演“世界編輯”的角色,協(xié)調(diào)整體敘事框架。這正是我預(yù)見的未來幾年圖景,也是我們希望通過Genie等技術(shù)探索的方向。
主持人:能否談?wù)勀隳壳暗臅r間分配呢,是否主要專注于Isomorphic Labs?或許可以先簡要說明Isomorphic的研究方向。你在這方面投入很多精力嗎?
哈薩比斯:我確實在主導(dǎo)Isomorphic Labs。這家從我們團隊分拆的公司,旨在依托我們的技術(shù),徹底變革藥物研發(fā)?;贏lphaFold的蛋白質(zhì)結(jié)構(gòu)突破,我們正在構(gòu)建多個“相鄰的AlphaFold”系統(tǒng),比如設(shè)計能精準(zhǔn)結(jié)合靶點且無副作用的化合物。我認為在未來10年內(nèi),藥物研發(fā)周期有望從數(shù)年甚至十年縮短到幾周甚至幾天。
主持人:你覺得這個很快就能進入臨床階段,還是仍處于探索階段?
哈薩比斯:我們正在構(gòu)建平臺化系統(tǒng),目前與禮來公司(Eli Lilly)——我想你之前應(yīng)該有他們CEO的發(fā)言——還有諾華(Novartis)建立了重要合作,同時推進內(nèi)部藥物研發(fā)項目。我認為我們將在明年某個時候進入臨床前階段。
主持人 :那么,候選藥物會被移交給制藥公司,然后由他們推進后續(xù)流程嗎?
哈薩比斯:沒錯。我們正在開展癌癥、免疫學(xué)和腫瘤學(xué)方面的研究,并且與MD安德森等機構(gòu)展開了合作。
“科學(xué)的黃金時代”
主持人:我想回到你關(guān)于AGI的觀點。模型可以是概率性還是確定性的?確定性模型像邏輯算法,每次輸入都輸出相同結(jié)果;而概率性模型會做選擇,比如選擇這封信的概率是80%,選擇那封信的概率是90%,依此類推。在藥物研發(fā)建模中,我們需要多少確定性模型來匹配分子相互作用的物理化學(xué)原理?又該如何構(gòu)建新型確定性模型,使其與數(shù)據(jù)驅(qū)動的概率模型協(xié)同工作。
哈薩比斯:這是個很棒的問題。實際上,目前,而且我認為可能在未來五年左右的時間里,我們正在構(gòu)建一種你們可能稱之為混合模型的東西。AlphaFold本身就是一個混合模型,其中有學(xué)習(xí)組件,也就是你提到的概率組件,它是基于網(wǎng)絡(luò)、變壓器等構(gòu)建的;而且它從你提供的數(shù)據(jù)中學(xué)習(xí),包括任何你能獲取的數(shù)據(jù)。但在很多情況下,生物學(xué)和化學(xué)領(lǐng)域并沒有足夠的數(shù)據(jù)可供學(xué)習(xí),所以你還得把一些你已經(jīng)知道的化學(xué)和物理規(guī)則融入其中。
例如,對于AlphaFold來說,原子鍵角必須符合化學(xué)原理、原子間不能出現(xiàn)非法重疊。理論上模型能自學(xué)這些規(guī)則,但會浪費大量學(xué)習(xí)能力。所以實際上,把它當(dāng)作一種約束條件會更加高效。
所有混合系統(tǒng)都面臨這個核心難題。就像AlphaGo使用了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圍棋模式識別,蒙特卡洛樹搜索負責(zé)策略規(guī)劃。關(guān)鍵在于如何將學(xué)習(xí)系統(tǒng)與更具定制性、量身打造的系統(tǒng)相結(jié)合,并且讓它們真正協(xié)同良好地運作。而這做起來相當(dāng)棘手。
主持人:你認為那種架構(gòu)最終會帶來AGI所需的突破嗎?是否存在需要解決的確定性組件。
哈薩比斯:混合系統(tǒng)的終極目標(biāo)是將已驗證的解決方案上游化整合到學(xué)習(xí)組件中。所以,如果你能進行端到端學(xué)習(xí),并直接從給定的數(shù)據(jù)中預(yù)測出你想要的結(jié)果,那總是更好的。一旦你使用這些混合系統(tǒng)中的一個弄清楚了某件事,你就會嘗試回過頭去逆向工程你所做的事情,看看是否能將所學(xué)的知識、信息融入到學(xué)習(xí)系統(tǒng)中。這大致就是我們在AlphaZero(Alpha Go的更通用形式)上所做的事情。AlphaGo包含圍棋特定知識,而AlphaZero摒棄了所有人類棋譜數(shù)據(jù),完全通過自我對弈學(xué)習(xí)。這種范式使其能掌握任何游戲,而不僅僅是圍棋。
主持人:關(guān)于AI產(chǎn)生的能源需求已經(jīng)出現(xiàn)了很多炒作,這是我們幾周前在華盛頓特區(qū)舉辦的AI峰會的重要組成部分。如今,這似乎是科技領(lǐng)域里人人都在談?wù)摰念^號話題:這些電力將從哪里來?我想問:通過模型架構(gòu)創(chuàng)新、硬件優(yōu)化或軟硬件協(xié)同設(shè)計,能否顯著降低單次輸出的能耗與成本?這種技術(shù)進步是否會緩和能源需求曲線的陡增趨勢?還是說幾何級數(shù)增長的能源需求依然不可避免?
哈薩比斯:有趣的是,我認為這兩種情況都是真實的,尤其是我們谷歌和DeepMind這類需要每日為數(shù)十億用戶提供AI概述服務(wù)的企業(yè),它必須極其高效、極低延遲且服務(wù)成本非常低廉。我們開創(chuàng)了多種技術(shù)實現(xiàn)這一點,比如蒸餾。在蒸餾中,你實際上是讓一個更大的模型在內(nèi)部訓(xùn)練較小的模型,對吧?隨著時間的推移,如果你看看過去兩年的進展,相同性能下的模型能效已提升了10倍甚至100倍。
當(dāng)前的能效提升未能降低總需求的原因在于,我們尚未實現(xiàn)AGI。前沿模型仍需持續(xù)擴大規(guī)模來實驗新想法,而服務(wù)端能效則在同步優(yōu)化,所以這兩件事都是真的。
最后,我認為從能源角度來看,AI系統(tǒng)在電網(wǎng)系統(tǒng)和電氣系統(tǒng)效率、材料設(shè)計、新型特性、新能源等方面回饋給能源和氣候變化等領(lǐng)域的貢獻,將遠遠超過其消耗。我認為在未來10年里,AI將在所有這些方面發(fā)揮作用,其帶來的益處將遠遠超過它目前消耗的能源。
主持人:作為最后一個問題,請描述一下10年后的世界。
哈薩比斯:好吧,我的意思是,你知道的,10年,甚至10周在AI領(lǐng)域都是另一個時代了。但我確實認為,如果我們在未來十年內(nèi)擁有完全的AGI,將開創(chuàng)一個科學(xué)的黃金時代,一種新的文藝復(fù)興。我認為我們將看到其從能源到人類健康等各個領(lǐng)域的益處。
主持人:太神奇了。請和我一起感謝諾貝爾獎得主哈薩比斯,謝謝。
參考鏈接:[1]https://x.com/demishassabis/status/1967280577200943528[2]https://www.youtube.com/watch?v=Kr3Sh2PKA8Y