中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

“世界模型”究竟是什么?會(huì)成為人工智能的下一個(gè)前沿領(lǐng)域嗎?

實(shí)習(xí)生 王春 澎湃新聞?dòng)浾?賈利略
2024-11-01 15:44
來(lái)源:澎湃新聞
? 未來(lái)2% >
字號(hào)

·世界模型的靈感源于人類自然形成的世界心智模型。我們通過(guò)感官獲取的抽象信息在大腦中被轉(zhuǎn)化為對(duì)周圍世界的具象理解;這些“模型”早在人類開始研究AI之前就已存在。基于這些模型,我們的大腦對(duì)世界進(jìn)行預(yù)測(cè),從而影響我們的感知和行動(dòng)。

·盡管這一概念令人振奮,但仍有許多技術(shù)挑戰(zhàn)亟待解決。與目前用于生成式模型的計(jì)算量相比,訓(xùn)練和運(yùn)行世界模型需要龐大的算力。此外,世界模型也存在幻覺問題。

近年來(lái),人工智能(AI)領(lǐng)域涌現(xiàn)出一種被稱為“世界模型”(World Models)或“世界模擬器”的新概念,被一些行內(nèi)人士視為AI的下一個(gè)重大前沿。AI領(lǐng)域的領(lǐng)軍人物李飛飛創(chuàng)立的World Labs(世界實(shí)驗(yàn)室)已籌集了2.3億美元資金,致力于構(gòu)建“大型世界模型”(LWM);與此同時(shí),谷歌DeepMind也聘請(qǐng)了OpenAI視頻生成器Sora的創(chuàng)造者之一,參與“世界模擬器”的研究。

什么是“世界模型”?近日,科技媒體TechCrunch的高級(jí)記者凱爾·威格斯(Kyle Wiggers)撰文,梳理了關(guān)于“世界模型”的一系列問題,以下是澎湃科技(m.dbgt.com.cn)編譯。

什么是世界模型?

世界模型的靈感源于人類自然形成的世界心智模型。我們通過(guò)感官獲取的抽象信息在大腦中被轉(zhuǎn)化為對(duì)周圍世界的具象理解;這些“模型”早在人類開始研究AI之前就已存在?;谶@些模型,我們的大腦對(duì)世界進(jìn)行預(yù)測(cè),從而影響我們的感知和行動(dòng)。

AI研究人員大衛(wèi)·哈(David Ha)和尤爾根·施米德胡伯(Jürgen Schmidhuber)以棒球擊球手為例,論述了擊球手只有幾毫秒的時(shí)間決定如何揮棒,這比視覺信號(hào)傳遞到大腦的時(shí)間還短。他們之所以能擊中時(shí)速160公里的快速球,是因?yàn)樗麄兡鼙灸艿仡A(yù)測(cè)球的位置。

兩位研究人員寫道:“對(duì)于職業(yè)選手來(lái)說(shuō),這一切都是在潛意識(shí)中完成的。他們的肌肉會(huì)反射性地在正確的時(shí)間和位置揮棒,與其內(nèi)在心智模型的預(yù)測(cè)一致。他們可以快速根據(jù)對(duì)未來(lái)的預(yù)測(cè)而采取行動(dòng),但無(wú)需有意識(shí)地推演可能的未來(lái)情景以制定計(jì)劃?!?/p>

正是這種世界心智模型的潛意識(shí)推理能力,讓一些科技研究者認(rèn)為,世界模型是實(shí)現(xiàn)人類級(jí)別智能的前提。

世界模型有哪些應(yīng)用潛力?

盡管這個(gè)概念已經(jīng)存在了幾十年,世界模型最近因其在生成式視頻領(lǐng)域的應(yīng)用而備受關(guān)注。目前,大多數(shù)AI生成的視頻都會(huì)陷入“恐怖谷”現(xiàn)象,觀看時(shí)間稍長(zhǎng)就會(huì)出現(xiàn)畫面崩壞,如四肢扭曲或融合。

傳統(tǒng)的生成式模型可能能夠準(zhǔn)確預(yù)測(cè)籃球會(huì)彈跳,但并不真正理解其中的原因,就像大型語(yǔ)言模型實(shí)際上是基于神經(jīng)網(wǎng)絡(luò)的概率推理,給出最可能符合讀者預(yù)期的答案,而非真正理解詞語(yǔ)和短語(yǔ)背后的意義。然而,具有基本物理認(rèn)知的世界模型將更善于展現(xiàn)“籃球的真實(shí)彈跳”。

為了實(shí)現(xiàn)這種洞察力,世界模型需要在大量的照片、音頻、視頻和文本數(shù)據(jù)上進(jìn)行訓(xùn)練,旨在創(chuàng)建對(duì)世界運(yùn)作方式的內(nèi)部表征,并具備推理行動(dòng)后果的能力。

Snap前AI主管、現(xiàn)Higgsfield公司CEO亞歷克斯·馬什拉博夫(Alex Mashrabov)表示:“觀眾期望他們觀看的世界與現(xiàn)實(shí)相似。如果一根羽毛以鐵砧的重量下落,或者保齡球飛上數(shù)百英尺的高空,這會(huì)讓觀眾出戲。有了強(qiáng)大的世界模型,創(chuàng)作者就無(wú)需定義每個(gè)物體的運(yùn)動(dòng)方式——這既繁瑣又低效——因?yàn)槟P蛯⒛軌蜃孕欣斫庠??!?/p>

然而,改進(jìn)視頻生成只是世界模型的冰山一角。包括Meta首席AI科學(xué)家楊立昆(Yann LeCun)在內(nèi)的研究人員認(rèn)為,這些模型未來(lái)可用于數(shù)字和物理領(lǐng)域的復(fù)雜預(yù)測(cè)和規(guī)劃。

在今年早些時(shí)候的一次演講中,楊立昆描述了世界模型如何通過(guò)推理來(lái)實(shí)現(xiàn)目標(biāo)。一個(gè)具有基礎(chǔ)“世界”表示(例如一段臟房間的視頻)的模型,給定一個(gè)目標(biāo)(干凈的房間),可以推導(dǎo)出一系列行動(dòng)(使用吸塵器、清洗餐具、倒垃圾)來(lái)實(shí)現(xiàn)目標(biāo)。這并非因?yàn)樗^察到了這種模式,而是因?yàn)樗诟顚哟紊侠斫饬耸挛锶绾螐呐K到凈。

“我們需要能夠理解世界的機(jī)器;具備記憶、直覺和常識(shí)的機(jī)器——能夠像人類一樣推理和規(guī)劃的機(jī)器,”楊立昆表示?!氨M管你可能聽到一些最熱情之人的吹噓,但當(dāng)前的人工智能系統(tǒng)并不具備這些能力。”

雖然楊立昆估計(jì)我們距離他設(shè)想的世界模型至少還有十年的時(shí)間,但當(dāng)今的世界模型已經(jīng)顯示出其作為基本物理模擬器的前景。

OpenAI 在一篇博客中認(rèn)為 Sora 是一個(gè)世界模型,可以模擬畫家在畫布上留下畫筆筆觸等動(dòng)作。像 Sora 這樣的模型——以及 Sora 本身——也可以有效地模擬視頻游戲。例如,Sora 可以渲染類似 Minecraft 的UI和游戲世界。

World Labs 聯(lián)合創(chuàng)始人賈斯汀·約翰遜(Justin Johnson)在a16z播客的一集中表示,未來(lái)世界模型可能能夠按需生成3D世界,用于游戲、虛擬攝影等。

“我們已經(jīng)有能力創(chuàng)建虛擬的交互式世界,但這需要花費(fèi)數(shù)億美元和大量的開發(fā)時(shí)間,”約翰遜表示,“‘世界模型’不僅可以讓用戶獲得圖片或視頻片段,還可以獲得一個(gè)模擬效果完備、充滿活力的交互式 3D 世界?!?/p>

實(shí)現(xiàn)世界模型面臨哪些技術(shù)挑戰(zhàn)?

盡管這一概念令人振奮,但仍有許多技術(shù)挑戰(zhàn)亟待解決。與目前用于生成式模型的計(jì)算量相比,訓(xùn)練和運(yùn)行世界模型需要龐大的算力。雖然一些最新的語(yǔ)言模型可以在現(xiàn)代智能手機(jī)上運(yùn)行,但Sora(多少算一種早期世界模型)需要數(shù)千個(gè)GPU來(lái)訓(xùn)練和運(yùn)行,尤其是在其使用變得普及的情況下。

世界模型和所有AI模型一樣,也會(huì)產(chǎn)生幻覺,并內(nèi)化訓(xùn)練數(shù)據(jù)中的偏見。一個(gè)主要由歐洲城市晴天視頻訓(xùn)練的世界模型,可能難以理解或正確描繪韓國(guó)城市的雪景。

亞歷克斯·馬什拉博夫指出,訓(xùn)練數(shù)據(jù)的匱乏可能會(huì)加劇這些問題。“我們已經(jīng)看到模型在生成某種類型或種族的人物時(shí)受到限制,”他說(shuō)。“世界模型的訓(xùn)練數(shù)據(jù)必須足夠廣泛,以涵蓋多樣化的情景,同時(shí)也要足夠具體,使AI能夠深入理解這些情景的細(xì)微差別?!?/p>

AI初創(chuàng)公司Runway的CEO克里斯托瓦爾·瓦倫蘇埃拉(Cristóbal Valenzuela)在最近的一篇文章中表示,數(shù)據(jù)和工程問題阻礙了當(dāng)前模型準(zhǔn)確捕捉世界中生物(如人類和動(dòng)物)行為的能力?!澳P托枰梢恢碌沫h(huán)境地圖,”他說(shuō),“并具備在這些環(huán)境中導(dǎo)航和互動(dòng)的能力。”

世界模型能為具身智能提供技術(shù)基礎(chǔ)

如果所有主要障礙都被克服,亞歷克斯·馬什拉博夫認(rèn)為,世界模型可以“更穩(wěn)定地”將AI與現(xiàn)實(shí)世界連接起來(lái),不僅在虛擬世界生成方面,而且也在機(jī)器人技術(shù)和AI決策方面取得突破。

這也可能催生更強(qiáng)大的機(jī)器人。如今的機(jī)器人在功能上受到限制,因?yàn)樗鼈內(nèi)狈?duì)周圍現(xiàn)實(shí)世界(或自身身體)的意識(shí)。世界模型可以為它們提供這種意識(shí),至少在一定程度上可以。

“有了先進(jìn)的世界模型,AI可以對(duì)其所處的任何情境形成自身的理解,”他說(shuō),“并開始推理出可能的解決方案?!?/p>

世界模型能夠?yàn)槿斯ぶ悄芴峁├斫庹鎸?shí)的三維物理世界的能力,使人形機(jī)器人真正感知真實(shí)世界,對(duì)具身智能的實(shí)現(xiàn)具有重大意義。

    責(zé)任編輯:喻琰
    圖片編輯:朱偉輝
    校對(duì):張艷
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋