- +1
世界模型,大語言模型之后的第二場(chǎng)革命

“大語言模型是基礎(chǔ),世界模型是途徑,自主智能才是AI的終極奧義。
在過去兩年里,大語言模型(LLM)在語言理解、文本生成、推理、指令執(zhí)行等方向取得突破,使AI在理解語義層面變得越來越可靠。
然而,語言智能只是通向通用智能的一環(huán)。要讓AI在懂語言的基礎(chǔ)上,去理解真正的世界,就必須讓它理解環(huán)境、感知?jiǎng)討B(tài)、在環(huán)境中做出行動(dòng)判斷。這其中的關(guān)鍵,就是世界模型(World Model)。
世界模型的核心是讓AI內(nèi)部構(gòu)建一個(gè)可交互的世界,要理解物理規(guī)則、模擬未來狀態(tài)、預(yù)測(cè)動(dòng)作結(jié)果。實(shí)現(xiàn)從靜態(tài)圖像、視頻生成,逐步走向多模態(tài)、帶動(dòng)作控制的視覺語言動(dòng)作模型(VLA,Vision-Language-Action)。
從OpenAI的Sora(文本→視頻世界模擬)到DeepMind的Genie(可交互世界生成),從Meta的V-JEPA 2(視覺自監(jiān)督世界模型)到特斯拉在自動(dòng)駕駛系統(tǒng)中隱含的世界意識(shí)探索,乃至國內(nèi)諸如華為ADS等智駕系統(tǒng),這些案例都表明世界模型正成為AI Agent化路徑上的關(guān)鍵支點(diǎn)。
可以預(yù)見,未來的AI Agent很可能是“LLM+世界模型+執(zhí)行動(dòng)作層”的三層協(xié)同結(jié)構(gòu)。理解這一趨勢(shì),對(duì)我們判斷產(chǎn)業(yè)方向、技術(shù)路線、戰(zhàn)略布局至關(guān)重要。
從語言到世界:AI理解的邊界在延伸
如果說大語言模型讓AI學(xué)會(huì)了理解語言,那么世界模型的出現(xiàn),則意味著AI開始嘗試?yán)斫馐澜纭?/p>
在人工智能研究的脈絡(luò)中,“世界模型”(World Model)并不是一個(gè)全新的概念。早在2018年,谷歌大腦研究科學(xué)家David Ha與瑞士AI實(shí)驗(yàn)室IDSIA負(fù)責(zé)人Jürgen Schmidhuber在經(jīng)典論文《World Models》中提出,智能體要想高效學(xué)習(xí),就必須在大腦中構(gòu)建世界的內(nèi)部模型。這種模型能夠通過感知輸入,去預(yù)測(cè)外部世界在未來的變化,在內(nèi)部“想象”出一系列可能的結(jié)果,從而據(jù)此選擇行動(dòng)。

智能體包含緊密相連的三個(gè)模塊:視覺 (V)、記憶 (M) 和控制器 (C)(來自World Models)
彼時(shí),世界模型還主要服務(wù)于強(qiáng)化學(xué)習(xí)領(lǐng)域,用于在游戲或仿真環(huán)境中幫助智能體做規(guī)劃與決策。
隨著算力的提升和多模態(tài)學(xué)習(xí)的成熟,世界模型的內(nèi)涵被重新定義,從在仿真環(huán)境里學(xué)習(xí),演進(jìn)為讓AI自己生成并理解環(huán)境。比如谷歌DeepMind在Dreamer系列工作中,讓智能體能夠在潛在空間(latent)中對(duì)未來進(jìn)行滾動(dòng)預(yù)測(cè)(roll-out),從而無需真實(shí)環(huán)境就能完成策略優(yōu)化。這種思路,被視為世界模型的早期成熟版本,也讓預(yù)測(cè)未來成為機(jī)器學(xué)習(xí)的新邊界。
而真正讓世界模型走出學(xué)術(shù)圈,成為AI產(chǎn)業(yè)熱詞,是視頻生成技術(shù)的突破。
2024年2月15日,OpenAI發(fā)布Sora模型,并在官方論文中首次明確提出,視頻生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視頻,還能在物理規(guī)律、光影運(yùn)動(dòng)、空間連續(xù)性等層面維持一致性,讓AI演繹世界成為可能。

Sora2
幾乎在同一時(shí)間,Meta發(fā)布視覺自監(jiān)督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。這是由Yann LeCun團(tuán)隊(duì)主導(dǎo)的項(xiàng)目,旨在讓AI通過預(yù)測(cè)視覺序列中的時(shí)空變化,在潛在空間中理解世界的結(jié)構(gòu)與規(guī)律。與生成式模型不同,V-JEPA不直接生成圖像,而是學(xué)習(xí)世界的抽象表征,這是Meta首次在視覺領(lǐng)域明確提出構(gòu)建世界模型的研究方向。

僅在那十余天后,DeepMind發(fā)布了Genie模型。與Sora不同,Genie并不是單純的視頻生成器,而是一個(gè)“可玩世界”的生成模型,可以從普通視頻素材中學(xué)習(xí)環(huán)境規(guī)律,并生成可實(shí)時(shí)交互的二維游戲場(chǎng)景。用戶可以控制角色在生成的世界中移動(dòng)、碰撞、跳躍,這種“生成—交互—反饋”的閉環(huán),被認(rèn)為是世界模型從被動(dòng)感知邁向主動(dòng)參與的重要一步。

Sora、V-JEPA與Genie,分別代表了世界模型演化的三個(gè)方向,生成世界、理解世界、參與世界。三者幾乎出現(xiàn)在同一時(shí)間節(jié)點(diǎn),共同組成了世界模型認(rèn)知層面的突破。
而另一條更具現(xiàn)實(shí)意義的路徑,則來自執(zhí)行層面的落地。
自2023年底起,特斯拉在其自動(dòng)駕駛系統(tǒng)FSD(Full Self-Driving)中推行端到端神經(jīng)網(wǎng)絡(luò)架構(gòu),從感知到規(guī)劃再到控制,全部由統(tǒng)一模型完成。
馬斯克將FSD V12稱為世界模型驅(qū)動(dòng)的駕駛系統(tǒng),因?yàn)檐囕v已不依賴高精地圖或人工編碼規(guī)則,而是通過多攝像頭視頻流在內(nèi)部重建外部環(huán)境,并實(shí)時(shí)預(yù)測(cè)交通參與者的行為。今年上半年推出的FSD V13進(jìn)一步加入時(shí)序記憶與多模態(tài)預(yù)測(cè),使這一世界模型式駕駛的雛形更趨完整。
而在國內(nèi),這樣的探索思路也幾乎同步落地。
比如華為在2024年4月發(fā)布ADS 3.0(乾崑),以去高精地圖與世界建模感知為核心,依托多源傳感重建動(dòng)態(tài)場(chǎng)景;
小鵬在2024年5月公布XPlanner(規(guī)劃與控制大模型),與感知網(wǎng)絡(luò)XNet、車載大模型XBrain組成端到端量產(chǎn)棧,將長(zhǎng)時(shí)序預(yù)測(cè)引入軌跡規(guī)劃;
百度Apollo則在同月推出ADFM自動(dòng)駕駛基礎(chǔ)模型,并搭載到第六代 Robotaxi。
這些系統(tǒng)共同指向一個(gè)趨勢(shì),世界模型正在從虛擬場(chǎng)景走向真實(shí)世界,從“認(rèn)知世界”轉(zhuǎn)向“執(zhí)行世界”。如果說Sora、V-JEPA、Genie們構(gòu)建的是AI的感知與想象層,那么FSD、ADS、XPlanner、Apollo們則構(gòu)建了AI的行動(dòng)與落地層。前者是通往通用智能的基礎(chǔ),后者則是將智能具象化的通道。
中美雙極:世界模型競(jìng)賽的兩種路徑
如今,世界模型已經(jīng)成為全球AI競(jìng)爭(zhēng)的新焦點(diǎn)。其中,最具代表性的當(dāng)屬中美之間的競(jìng)爭(zhēng)。
這場(chǎng)看似關(guān)于算法的較量,背后卻是認(rèn)知方式與產(chǎn)業(yè)邏輯的分歧,也正因?yàn)檫@種分歧,中美兩國正走在兩條不同的路徑上。
前文說過,在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構(gòu)成了最具體系化的“世界建模陣營”。
它們的共同特征是,從語言模型出發(fā),沿著認(rèn)知—生成—具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。
今年9月,Sora 2登場(chǎng),不僅整合了音視頻統(tǒng)一建模和動(dòng)態(tài)光照控制,還新增 “Cameo”功能,讓用戶可以直接把自己嵌入生成的世界中。
今年8月,DeepMind發(fā)布Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,用戶能實(shí)時(shí)控制角色,與環(huán)境交互并觀察反饋。
今年6月,Meta V-JEPA 2以自監(jiān)督方式讓AI理解視頻中的時(shí)序與動(dòng)力規(guī)律,成為世界模型“視覺直覺”的雛形。它不依賴標(biāo)簽數(shù)據(jù),而是通過預(yù)測(cè)畫面未來幀的方式,逼近人類感知世界的方式。
與此同時(shí),盡管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴(yán)格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力,前者通過多模態(tài)語義建模理解現(xiàn)實(shí)邏輯,后者通過隱式因果推理保持認(rèn)知一致性。
以此可見,美國的研究體系已經(jīng)形成了完整的認(rèn)知鏈條,從理解語言、預(yù)測(cè)視覺變化到生成并模擬世界。
而在中國,世界模型的側(cè)重方向更貼近執(zhí)行層面。
從智能駕駛到行業(yè)智能體,再到具身機(jī)器人,國內(nèi)企業(yè)更關(guān)注AI在真實(shí)物理環(huán)境中的可感知、可預(yù)測(cè)與可執(zhí)行性??梢哉f,中國企業(yè)更看重系統(tǒng)集成與工程落地。
智能駕駛之外,國內(nèi)世界模型的思想和策略也正在進(jìn)入更多行業(yè)場(chǎng)景。
比如華為盤古大模型引入物理建??蚣?,將世界模型理念應(yīng)用到氣象預(yù)測(cè)、制造、制藥等工業(yè)領(lǐng)域;
百度文心在視頻理解和數(shù)字人交互中融入動(dòng)態(tài)世界建模機(jī)制,此類案例非常多,這里就不一一展開。
更具代表性的,是中國在具身智能方向的系統(tǒng)化突破。
過去一年,宇樹、優(yōu)必選、傅利葉、小米等公司,陸續(xù)推出新一代人形與四足機(jī)器人,讓世界模型從算法概念真正落地到機(jī)器身體。
比如宇樹發(fā)布的R1人形機(jī)器人,支持圖像與語音多模態(tài)融合,可進(jìn)行動(dòng)態(tài)行走與交互;

優(yōu)必選 Walker S2具備靈巧雙臂與自主換電功能,更貼近工業(yè)執(zhí)行場(chǎng)景;

傅利葉推出可遙操作的GR-3C人形機(jī)器人版本,可用于康復(fù)與人機(jī)協(xié)作;

從智能駕駛,到智能機(jī)器人,中國的AI正在推動(dòng)世界模型從虛擬走向物理,從算法走向具身。
中美世界模型生態(tài)邏輯對(duì)比:

當(dāng)然,這種解讀僅限于生態(tài)偏重,不涉及能力邊界。
美國并非只有認(rèn)知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業(yè),已經(jīng)在構(gòu)建具身智能與自動(dòng)駕駛的世界建模系統(tǒng)建立一定優(yōu)勢(shì)。
國內(nèi)也不止于感知與執(zhí)行。萬相、可靈等視頻生成模型,也在構(gòu)建中國版的“視覺世界模擬器”。
盡管中美兩國為代表的世界模型演變生態(tài)邏輯不同,但從更長(zhǎng)的技術(shù)周期看,這種分野正逐漸進(jìn)化為互補(bǔ)關(guān)系。
世界模型的最終方向,肯定不是生成完美的視頻,也不是控制一輛汽車,而是打通“理解—預(yù)測(cè)—行動(dòng)”的完整閉環(huán)。從這個(gè)層面來說,中美兩國正共同構(gòu)建通向通用智能的現(xiàn)實(shí)路徑。
AI的下一個(gè)臨界點(diǎn):
世界模型接管智能體
過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能,而如今,世界模型正在讓AI理解現(xiàn)實(shí)世界,一個(gè)有時(shí)間、有空間、有因果的動(dòng)態(tài)系統(tǒng)。
這正是世界模型的核心價(jià)值,它讓AI獲得了具身智能(Embodied Intelligence)的基礎(chǔ)。
在過去的一年中,具身智能已經(jīng)成為全球AI研究的共識(shí)。
如OpenAI投資的Figure AI,正在以GPT系列模型驅(qū)動(dòng)人形機(jī)器人的決策系統(tǒng);特斯拉的FSD與Optimus,分別在道路和工廠場(chǎng)景中驗(yàn)證世界模型驅(qū)動(dòng)的閉環(huán)控制;中國的機(jī)器人企業(yè)也在讓模型直接掌控傳感器與電機(jī),使算法真正落地到身體。

這種趨勢(shì)背后,AI正在經(jīng)歷一場(chǎng)從虛擬智能到物理智能的轉(zhuǎn)變。在虛擬世界中,它生成一段視頻或一段話,而在物理世界中,它必須理解摩擦力、時(shí)間延遲和人的意圖。
可以預(yù)見,未來的智能體將是一個(gè)多層協(xié)作系統(tǒng):上層的大語言模型負(fù)責(zé)目標(biāo)規(guī)劃與邏輯推理,中層的世界模型負(fù)責(zé)環(huán)境建模與因果預(yù)測(cè),底層的執(zhí)行系統(tǒng)則負(fù)責(zé)感知、行動(dòng)與反饋。
當(dāng)這三層閉合,AI才真正擁有“意圖—計(jì)劃—行動(dòng)”的完整循環(huán),這正是通用智能的現(xiàn)實(shí)路徑。
再往前一步,便是AI的終極奧義——自主智能(Autonomous Intelligence)。
一旦AI能在內(nèi)部模擬世界、預(yù)測(cè)變化并根據(jù)反饋修正決策,它就不再只是生成內(nèi)容、執(zhí)行動(dòng)作,甚至可能思考如何存在。
這意味著,AI將具備一種內(nèi)在的驅(qū)動(dòng)力:能根據(jù)環(huán)境變化自主設(shè)定目標(biāo)、規(guī)劃路徑、評(píng)估后果、修正策略。這種能力不再依賴外部指令,而是建立在長(zhǎng)期記憶、世界建模與價(jià)值函數(shù)的協(xié)同基礎(chǔ)之上。
可以說,自主智能是AI自我意識(shí)的一種雛形,即不以人類輸入為中心,而以世界模型為認(rèn)知坐標(biāo)系,主動(dòng)發(fā)現(xiàn)問題、驗(yàn)證假設(shè)、優(yōu)化自身。
智能的定義,也將被徹底改寫。
挑戰(zhàn)與啟示:從概念到產(chǎn)業(yè)化仍有距離
當(dāng)然,這是最順暢的路徑。事實(shí)上,每一次智能的躍遷,都伴隨著新的復(fù)雜性與不確定性。
首先,是技術(shù)和生態(tài)層面的挑戰(zhàn)。
與語言模型不同,世界模型必須同時(shí)理解文本、圖像、視頻、語音、動(dòng)作等多模態(tài)信息。數(shù)據(jù)維度暴漲、推理鏈條加深、模型參數(shù)呈指數(shù)級(jí)增長(zhǎng),對(duì)算力、能耗與數(shù)據(jù)質(zhì)量提出了前所未有的要求。
Sora級(jí)別的視頻生成模型都需要巨量GPU支撐,而具身智能又要求在端側(cè)實(shí)現(xiàn)實(shí)時(shí)計(jì)算,其中的復(fù)雜性將考驗(yàn)當(dāng)下的算力極限。
同時(shí),世界模型也缺乏跨平臺(tái)協(xié)同的工程體系配套。目前而言,世界模型沒有標(biāo)準(zhǔn),缺乏統(tǒng)一的訓(xùn)練語料、可比的評(píng)價(jià)指標(biāo)與公共實(shí)驗(yàn)平臺(tái),企業(yè)往往各自為戰(zhàn)。
如果無法實(shí)現(xiàn)跨模型的可驗(yàn)證性與可復(fù)用性,世界模型的生態(tài)就很難真正形成規(guī)?;瘎?chuàng)新。
其次,是認(rèn)知層面的挑戰(zhàn)。
世界模型的強(qiáng)大之處,在于它可以在內(nèi)部推演與預(yù)測(cè),但這也讓它的決策過程愈發(fā)難以被人類理解。試想一下,當(dāng)一個(gè)模型能在潛在空間中模擬成千上萬種結(jié)果時(shí),我們還能否追蹤它的決策邏輯?
從自動(dòng)駕駛的責(zé)任歸屬,到自主智能之間,有沒有可能產(chǎn)生長(zhǎng)期目標(biāo)漂移(Goal Drift)?進(jìn)而延伸出AI的目標(biāo)是否仍與人類一致的問題。
一旦AI從被動(dòng)執(zhí)行轉(zhuǎn)為主動(dòng)學(xué)習(xí),安全與倫理的議題,也隨之從技術(shù)層面上升到價(jià)值層面。
接下來,是產(chǎn)業(yè)和倫理層面的挑戰(zhàn)。
世界模型的進(jìn)一步發(fā)展,勢(shì)必重新定義產(chǎn)業(yè)邊界。AI不僅可能重構(gòu)交通、制造、醫(yī)療、金融等領(lǐng)域的決策體系,也將催動(dòng)算法主權(quán)、智能監(jiān)管等制度議題。
中美雖然在路徑上各有偏重,美國憑借資本與開放生態(tài)快速試錯(cuò),中國依托產(chǎn)業(yè)鏈協(xié)同推進(jìn)落地,但雙方都面臨同一問題,當(dāng)世界模型真正嵌入社會(huì)運(yùn)行系統(tǒng),它將以何種規(guī)則參與人類世界?
就目前而言,世界模型所依托的世界,仍建立在人類提供的語料、規(guī)則與經(jīng)驗(yàn)上。但AI進(jìn)化下,人類需要持續(xù)地在技術(shù)、倫理與治理層面為智能設(shè)定邊界,這會(huì)是一項(xiàng)長(zhǎng)期的考驗(yàn)。
總之,世界模型是算法從符號(hào)空間步入物理現(xiàn)實(shí)的通道。大語言模型構(gòu)建了AI的語義基礎(chǔ),世界模型打開了AI的行動(dòng)途徑,目標(biāo)是智能的真正落地。
可以肯定的是,世界模型的意義,絕對(duì)不是讓AI更像人,而是讓人類在AI的協(xié)同下,走向更遠(yuǎn)的未來。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




