中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

一句話生成3D世界!Google發(fā)布Genie?3,或引爆世界模型大戰(zhàn)?

2025-08-07 15:22
來源:澎湃新聞·澎湃號·湃客
字號

過去兩周,大模型圈又熱鬧了起來。上周阿里在 Qwen 系列上再度加碼,連發(fā)多個開源模型;這周緊接著,OpenAI 在沉寂五年后首次開放自家語言模型權(quán)重,在北京時間 8 月 6 日推出 GPT?OSS,直接把開源模型的競爭推向一個新的高潮。

這個時間節(jié)點很微妙。阿里和 OpenAI 都在圍繞語言模型(LLM)展開競爭,基于開源小模型優(yōu)化對話、推理、生成文本的能力,用更開放的策略爭奪開發(fā)者和生態(tài)。而 Google 的選擇,卻是在同日丟出了一顆不同賽道的「深水炸彈」——通用世界模型 Genie 3。

這個概念在去年 OpenAI 發(fā)布 Sora 時曾短暫爆紅,當(dāng)時不少人將 Sora 代表的視頻生成模型看作通向世界模型的必經(jīng)之路,加速 AGI 的實現(xiàn)。但熱度來得快,退得也快:類 Sora 視頻生成模型(包括 Google 自家的 Veo 3)終究只是生成視頻,缺乏可導(dǎo)航、可交互的環(huán)境邏輯,也沒有形成可迭代的生態(tài),最終讓「世界模型」話題逐漸沉寂。

而 Genie 3 的出現(xiàn),顯然不只是換個花哨名字。

它從架構(gòu)上就是為實時交互設(shè)計——可以根據(jù)文本提示生成一個可持續(xù)幾分鐘的 3D 世界,支持角色移動、物體操控、天氣變化等事件,還有持續(xù)一致的視覺記憶,讓虛擬世界具備「空間連貫性」。同樣很重要的一點是,這類世界模型不僅是炫技的內(nèi)容生成器,更是智能體(AI Agent)訓(xùn)練的天然土壤:

提供可控、低成本、可重復(fù)的仿真環(huán)境,讓智能體在其中學(xué)習(xí)決策與行動,而不必依賴昂貴且風(fēng)險高的真實測試場景。

從這幾個角度看,雷科技認(rèn)為Genie 3 的推出可能不僅是一次技術(shù)路線的差異化突圍,更可能是下一輪 AI 競賽的前哨戰(zhàn)——只是,這次的賽場,換成了 AI 生成世界。

一句話,就能生成幾分鐘的 3D 世界

要理解 Genie 3 的意義,最直接的方式就是和人們熟悉的兩個類別作對比:一類是去年的「現(xiàn)象級」視頻生成模型 Sora,一類是近兩年在 3D 生成領(lǐng)域不斷迭代的 Hunyuan 3D。

Sora 在去年引發(fā)熱議,原因很簡單:它能夠生成長達(dá)一分鐘、細(xì)節(jié)豐富的短視頻,鏡頭切換流暢,光影、材質(zhì)都逼近真實電影。但它的本質(zhì)依然是視頻生成——一段生成結(jié)果從頭到尾是固定的,用戶不能走進(jìn)視頻里,也不能影響視頻的走向。但類 Sora 模型終究缺乏「可控交互」,你無法讓視頻中的角色轉(zhuǎn)身看向你,更不能臨時加一場雨或搬動一把椅子。

換句話說,Sora 給你的是一部成片,而不是一個可供探索的世界。但 Genie 3 的設(shè)計目標(biāo)恰好相反,更像是 UE5 這類游戲引擎。

片段經(jīng)過壓縮和加速 2x,圖/ Google

一句 Prompt 就能生成,圖/ Google

Genie 3 生成的是可導(dǎo)航、可交互的虛擬物理環(huán)境,支持持續(xù)幾分鐘的 720p 實時渲染,并且環(huán)境內(nèi)的細(xì)節(jié)會被記錄——你離開一個房間再回來,墻上的涂漆還在原位,或者桌上的書依舊保持之前的翻開狀態(tài)。

片段經(jīng)過壓縮和加速 2x,圖/ Google

按照 Google DeepMind 的介紹,Genie 3 環(huán)境在幾分鐘內(nèi)仍然保持高度一致性,視覺記憶可以回溯到一分鐘之前。這種視覺記憶機(jī)制也是 Genie 3 的底層亮點之一,讓生成世界具備「空間連貫性」,為交互帶來沉浸感。

此外,Genie 3 還支持 promptable world events,也就是通過新的提示動態(tài)改變世界——可以隨時切換晴天和暴雨,增加一只貓,或者將熊換成騎馬的人,這些變化會在世界中持續(xù)生效。它不僅能「生成」,還能「更新」,這為開放式探索和游戲化交互提供了可能。

片段經(jīng)過壓縮和加速 2x,圖/ Google

片段經(jīng)過壓縮和加速 2x,圖/ Google

騰訊的 Hunyuan 3D 系列在 3D 資產(chǎn)生成領(lǐng)域的質(zhì)量和速度都有口碑。7 月最新發(fā)布的 Hunyuan3D?PolyGen 據(jù)稱布線精度更高,細(xì)節(jié)更豐富,同時支持三邊面和四邊面,方便導(dǎo)入游戲引擎或 3D 渲染流程。這類模型生成的優(yōu)勢是細(xì)節(jié)豐富、貼圖精準(zhǔn),非常適合資產(chǎn)制作、動畫或工業(yè)設(shè)計,但生成的只是一個個靜態(tài)的 3D 對象。

混元 3D 生成的模型,圖/騰訊

Genie 3 則走向了另一個方向。它不是生成一個孤立的模型,而是構(gòu)建一個可持續(xù)運(yùn)行的動態(tài)物理環(huán)境,這個環(huán)境本身可以作為智能體(AI Agent)訓(xùn)練的沙箱:機(jī)器人可以在其中測試路徑規(guī)劃,無人車可以模擬避障,游戲 NPC 可以演練對話與任務(wù)邏輯。

更關(guān)鍵的是,這種環(huán)境是可重復(fù)、可控且低成本的,不需要真實場景的物理限制和安全風(fēng)險。

不過 Google DeepMind 團(tuán)隊也指出了 Genie 3 目前的局限性,比如盡管支持在同一世界下的修改,但實際支持的動作范圍受限。還有智能體的交互訓(xùn)練,本身多個智能體之間的復(fù)雜交互就是一個尚待突破的技術(shù)挑戰(zhàn),Genie 3 目前而言更多是有了這種潛力。

此外,考慮到 Genie 1 發(fā)布時還只支持 2D 交互,Genie 2 去年底發(fā)布的時候,僅僅支持最高 20 秒的 3D 交互,Genie 3 的出現(xiàn)毫無疑問是一次巨大的進(jìn)步,也從側(cè)面反映了世界模型的進(jìn)步速度。

「世界模型」叫好不叫座,Genie 3 會是拐點嗎?

「世界模型」這個詞在 AI 圈的高光時刻,要追溯到 2024 年初。彼時 OpenAI 推出的視頻生成模型 Sora,不僅在技術(shù)演示上驚艷四座,還被一些業(yè)內(nèi)人士解讀為通向世界模型的「前奏」。原因很直接:它能生成長時視頻、具備一定的物理一致性,看起來像是在為未來可交互的虛擬環(huán)境做準(zhǔn)備。

那段時間,充斥著「世界模型是通用人工智能(AGI)的必經(jīng)之路」的各種分析和報道,普遍認(rèn)為未來 AI 會先在虛擬世界學(xué)會一切再走向現(xiàn)實,熱度甚至一度超過了同期的大語言模型升級消息。然而,這股熱潮很快就退去。

這就是 Genie 3 登場的背景:一個技術(shù)潛力巨大、但話題度和資源支持都已經(jīng)降溫的領(lǐng)域。它的不同之處在于,不再停留在「視頻生成」的階段,而是真正進(jìn)入了「可交互 3D 世界」的范疇——幾分鐘的持續(xù)渲染、可控事件觸發(fā)、視覺記憶保持一致,這些特性直接回應(yīng)了過去一年里技術(shù)難以跨越的門檻。

那么,Genie 3 會不會成為世界模型由「冷」轉(zhuǎn)「熱」的拐點?

片段經(jīng)過壓縮和加速 2x,圖/ Google

從積極面看,它至少提供了一個現(xiàn)實可感的范例:世界模型不僅是研究論文里的設(shè)想,也可以以產(chǎn)品原型的形式存在,并且能服務(wù)于具體任務(wù)——無論是智能體訓(xùn)練、虛擬仿真,還是未來的沉浸式內(nèi)容創(chuàng)作。這為行業(yè)提供了新的敘事素材,也可能吸引資本重新評估這一方向的商業(yè)潛力。

但要開啟真正的競爭,還需要幾個條件:

一是更多參與者進(jìn)入,讓世界模型不只是 Google 一家的技術(shù)嘗試;

二是開放或半開放的生態(tài),使外部開發(fā)者能夠基于模型構(gòu)建應(yīng)用,推動迭代;

三是找到明確的落地場景,哪怕是細(xì)分市場的高價值應(yīng)用,也能讓技術(shù)驗證與商業(yè)閉環(huán)相互促進(jìn)。

不過目前可以肯定的是,Genie 3 把「世界模型」再一次擺回了技術(shù)輿論場的中心。世界模型會快速形成百家爭鳴的格局?還是會像 Sora 的影響那樣,在短暫熱度后再次沉寂?這不僅取決于技術(shù)的迭代速度,也取決于整個 AI 行業(yè)是否已經(jīng)準(zhǔn)備好接受一個新的主戰(zhàn)場。

寫在最后

從阿里、OpenAI 在語言模型賽道上的連番出招,到 Google 用 Genie 3 打開另一扇通向未來的門,這幾周的 AI 行業(yè)競爭像極了一場多線作戰(zhàn)的拉鋸戰(zhàn)。不同于 LLM 的能力比拼與開源策略,Genie 3 把焦點放在了「可交互世界」的構(gòu)建上,用幾分鐘持續(xù)渲染、可控事件和視覺記憶,為世界模型的可用性邁出了關(guān)鍵一步。

它未必會立刻引爆新的產(chǎn)業(yè)熱潮,但至少證明了世界模型已經(jīng)進(jìn)入了一個新的階段。對于智能體訓(xùn)練、虛擬仿真乃至沉浸式內(nèi)容創(chuàng)作,這都意味著全新的可能性。接下來,能否吸引更多參與者、形成開放生態(tài)、找到清晰的落地場景,將決定這條賽道是短暫回溫,還是真正走向繁榮。

這場世界模型的比賽,才剛剛鳴槍。

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋