- +1
李飛飛發(fā)布全新世界模型,可在單張H100GPU上流暢運(yùn)行
10月16日,“AI教母”李飛飛宣布對外推出全新模型RTFM(AReal-TimeFrame Model,實(shí)時(shí)幀模型)。RTFM是一款全新的實(shí)時(shí)生成世界模型,能夠與用戶交互時(shí)實(shí)時(shí)生成視頻,并遵循三大核心設(shè)計(jì)原則:效率、可擴(kuò)展性、持久性。
RTFM可將單張圖像渲染成3D場景,一個(gè)模型可處理多種場景類型、視覺風(fēng)格和效果,包括反射、光澤表面、陰影和鏡頭光暈。該模型已以預(yù)覽版形式開放用戶體驗(yàn)。

使用 RTFM 渲染的布滿陽光的游泳池場景
能在單張H100GPU上運(yùn)行的“實(shí)時(shí)世界”
李飛飛團(tuán)隊(duì)World Labs表示,強(qiáng)大的世界模型將能夠?qū)崟r(shí)重建、生成并模擬具有持久性、交互性且物理精度高的虛擬世界。這類模型將徹底改變從媒體到機(jī)器人技術(shù)乃至更廣泛領(lǐng)域的產(chǎn)業(yè)格局。
過去一年間,這項(xiàng)新興技術(shù)發(fā)展迅猛,生成式視頻建模的突破性進(jìn)展已成功應(yīng)用于生成式世界建模領(lǐng)域。一個(gè)趨勢隨之逐漸明朗:生成式世界模型的計(jì)算需求將遠(yuǎn)超當(dāng)前的大型語言模型。
若簡單套用現(xiàn)代視頻架構(gòu),要生成60幀/秒的交互式4K視頻流,每秒需要生成超過10萬個(gè)標(biāo)記(相當(dāng)于《科學(xué)怪人》或《哈利·波特》第一部的篇幅)。若要讓這些生成模型持續(xù)運(yùn)行一小時(shí)以上,需處理的上下文token更將超過1億。以當(dāng)今的計(jì)算基礎(chǔ)設(shè)施來看,這種方案既不可行,也不具備經(jīng)濟(jì)可行性。
World Labs認(rèn)為,在人工智能領(lǐng)域,隨著計(jì)算能力提升而優(yōu)雅擴(kuò)展的簡單方法往往占據(jù)主導(dǎo)地位,因?yàn)檫@些方法能夠受益于推動(dòng)技術(shù)發(fā)展數(shù)十年的計(jì)算成本指數(shù)級下降趨勢。生成式世界模型完全具備優(yōu)勢,將在未來持續(xù)降低的計(jì)算成本中獲益。
這就引出了一個(gè)自然的問題:生成式世界模型是否被當(dāng)今的硬件限制所阻礙?或者現(xiàn)在是否有方法可以預(yù)覽這項(xiàng)技術(shù)?
于是,李飛飛團(tuán)隊(duì)設(shè)定了一個(gè)簡單而明確的目標(biāo):設(shè)計(jì)一個(gè)高效且可部署的生成式世界模型,能夠隨著計(jì)算能力提升持續(xù)擴(kuò)展。
他們想要構(gòu)建一個(gè)能在單張H100GPU上運(yùn)行的模型,既能保持交互幀率,又能確保世界數(shù)據(jù)在長時(shí)間互動(dòng)后依然完整。實(shí)現(xiàn)這些條件能讓他們通過當(dāng)前的體驗(yàn)提前預(yù)判未來這些模型可能達(dá)成的高度。
這一目標(biāo)影響了他們從任務(wù)設(shè)置到模型架構(gòu)的整個(gè)系統(tǒng)架構(gòu)設(shè)計(jì),并通過仔細(xì)優(yōu)化推理堆棧的所有部分,應(yīng)用架構(gòu)設(shè)計(jì)、模型蒸餾和推理優(yōu)化方面的最新進(jìn)展,為在當(dāng)今硬件上運(yùn)行的未來模型提供最高保真的預(yù)覽。

RTFM 對地板上的復(fù)雜陰影和反射進(jìn)行建模
從圖像到世界:RTFM如何突破生成式建模的邊界
擴(kuò)展性方面,傳統(tǒng)3D圖形管線依賴人工設(shè)計(jì)的顯式三維模型(如三角網(wǎng)格、高斯貼圖)和算法,對幾何、材質(zhì)、光照等進(jìn)行精確建模,再渲染為二維圖像。該方法雖成熟,但在處理大規(guī)模數(shù)據(jù)時(shí)擴(kuò)展性受限。
而RTFM采用了一種基于生成式視頻建模的創(chuàng)新方法,其核心是一個(gè)經(jīng)端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。它僅輸入場景的二維圖像,無需構(gòu)建顯式三維模型,即可從新視角生成對應(yīng)圖像。
該技術(shù)基于生成式視頻建模,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)將輸入圖像轉(zhuǎn)換為一種隱式的世界表征(KV緩存),進(jìn)而通過注意力機(jī)制直接從該表征中讀取信息,來生成新視角下的連貫圖像。這意味著復(fù)雜的光照、反射等效果并非由人工規(guī)則定義,而是通過從數(shù)據(jù)中學(xué)習(xí)自動(dòng)掌握,從而能夠與Marble 實(shí)現(xiàn)從單張圖像高效創(chuàng)建具有真實(shí)感的3D場景。
RTFM還有一個(gè)重要特性是模糊了重建與生成的傳統(tǒng)界限:當(dāng)輸入視圖充足時(shí),系統(tǒng)傾向于精確重建;當(dāng)輸入視圖稀疏時(shí),它則能進(jìn)行合理的內(nèi)容推演與生成。

使用 RTFM 渲染的戶外游樂場
另外,現(xiàn)實(shí)世界具有持久性:當(dāng)視線移開時(shí),場景不會(huì)消失或重置,人們可以隨時(shí)返回之前的位置。這一特性對自回歸幀模型構(gòu)成了顯著挑戰(zhàn)。由于此類模型僅通過二維圖像幀序列隱式地表示世界,隨著探索范圍擴(kuò)大,需要處理的幀數(shù)量持續(xù)增長,導(dǎo)致每一幀的生成成本不斷累積,模型的“記憶容量”實(shí)際上受限于可用的計(jì)算資源。
RTFM通過引入“姿態(tài)幀”作為空間記憶,有效突破了這一限制。該方法將每一幀與其在三維空間中的姿態(tài)綁定,使模型能夠在生成新幀時(shí)依據(jù)目標(biāo)姿態(tài)從已有的空間記憶中檢索鄰近幀,構(gòu)建局部上下文。這種設(shè)計(jì)為模型提供了一個(gè)弱空間先驗(yàn)—即世界處于三維歐氏空間中,而無需顯式進(jìn)行幾何重建,既降低了建模復(fù)雜度,也增強(qiáng)了對場景結(jié)構(gòu)的理解。
為實(shí)現(xiàn)高效運(yùn)行,RTFM采用了上下文調(diào)度機(jī)制,在不同空間區(qū)域生成圖像時(shí)動(dòng)態(tài)切換所使用的上下文幀,稱為“上下文切換”。這一策略使模型無需在處理新幀時(shí)加載全部歷史數(shù)據(jù),從而支持大規(guī)模場景的持久維護(hù),實(shí)現(xiàn)所謂“無限持久性”。通過將幀組織為具有空間結(jié)構(gòu)的記憶系統(tǒng),RTFM在長期交互中能夠保持場景一致性,同時(shí)顯著提升生成效率和可擴(kuò)展性。
World Labs指出,RTFM展示了在現(xiàn)有硬件上部署高效世界模型的愿景,其技術(shù)核心是將世界模型定義為端到端、數(shù)據(jù)驅(qū)動(dòng)的渲染器。該框架具備良好的擴(kuò)展性,未來可模擬動(dòng)態(tài)世界并支持用戶交互。當(dāng)前模型目標(biāo)是在單張H100GPU上實(shí)時(shí)運(yùn)行,而更大規(guī)模的模型將持續(xù)優(yōu)化性能。
World Labs成立于今年4月,在四個(gè)月內(nèi)從創(chuàng)始公司成長為獨(dú)角獸。去年9月,World Labs正式宣布完成2.3億美元的巨額融資,投資方包括硅谷知名投資機(jī)構(gòu)a16z、NEA、加拿大風(fēng)投公司Radical Ventures,以及英偉達(dá)公司的風(fēng)險(xiǎn)投資部門等。眾多AI領(lǐng)域的知名人士也參與了投資,包括谷歌DeepMind首席科學(xué)家杰夫·迪恩(Jeff Dean)和前谷歌AI研究員杰弗里·辛頓(Geoffrey Hinton)。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




