- +1
AI迎來關鍵轉折,空間智能爆發(fā)臨界點已至?
當機器不僅能看見,還能理解、推理、創(chuàng)造時,我們將迎來一個人類與AI共同書寫的新紀元。
空間智能是人工智能理解、生成、推理并與三維世界交互的能力,這種能力是人類和動物智能的核心,歷經5.4億年的進化才得以完善,而語言的進化僅用了不到百萬年。
空間智能之所以至關重要,是因為它不僅是感知世界的方式,更是與物理環(huán)境互動的基礎。無論是機器人、智能輔助駕駛、虛擬現(xiàn)實的沉浸式體驗,還是內容創(chuàng)作的革新,空間智能都是不可或缺的基石。
被譽為“AI教母”的李飛飛斷言:“沒有空間智能,通用人工智能(AGI)將無法實現(xiàn)?!?/p>
回顧過去一年,Scaling Law驅動的新范式開始告別參數(shù)規(guī)模崇拜,多模態(tài)AI生成能力涌現(xiàn)多個爆款應用,打開了全新的競速空間。
從李飛飛的ImageNet到最近騰訊發(fā)布并開源混元3D世界模型、高德上線全球首個地圖AI原生智能體、蘑菇車聯(lián)發(fā)布首個深度理解物理世界大模型MogoMind,從2D圖片到3D模型,再到真實物理世界,一切都在表明,空間智能作為AI與現(xiàn)實世界交互的關鍵技術之一,其爆發(fā)臨界點正在到來。

空間智能為何如此重要?
空間智能的核心目標——不僅要讓AI能夠“看見”世界,還要讓它能夠理解三維空間,并在其中進行互動和學習,這是從單純的視覺識別到真正理解、操作現(xiàn)實世界的跨越。
如今,我們正站在數(shù)字世界的類似轉折點上,空間智能可能成為推動AI突破當前能力限制的關鍵。正如視覺能力催生了生物智能,空間智能將引領AI進入一個全新的發(fā)展階段。
在2025世界機器人大會上,中國工程院院士倪光南指出,AI與空間智能的融合,是當前落實國家“人工智能+”行動的關鍵核心技術,它正在重構三維物理世界,拓展大模型通向物理世界的橋梁。
他在演講中強調,視覺是智能的起點。倪光南引用數(shù)據(jù)指出,一個4歲小孩通過視覺在四年中學到的視頻信息量,與一個典型大語言模型學習的互聯(lián)網全部公開文本信息量相當,這說明要讓AI真正認識和理解世界,僅靠文本信息是遠遠不夠的,必須重視視覺信息。

與語言模型相比,空間智能的復雜性令人嘆為觀止。語言是線性的、一維的,而三維世界充滿了動態(tài)性和物理規(guī)律。從二維圖像重建三維結構是一個數(shù)學上的“病態(tài)”問題,意味著可能存在多種解法,這使得空間智能的開發(fā)遠比語言處理復雜。
此外,語言數(shù)據(jù)在互聯(lián)網上隨處可見,而空間數(shù)據(jù)大多存在于我們的感知中,難以直接獲取。這種數(shù)據(jù)稀缺性為AI研究帶來了巨大挑戰(zhàn)。
總體上,空間智能難題被歸納為四大核心挑戰(zhàn)。
首先,是維度復雜性。語言是一維序列,而現(xiàn)實世界是三維空間與一維時間的結合。這種維度的指數(shù)級增長導致組合復雜性呈爆炸式上升,使得空間智能的計算需求遠超語言模型。
其次,信息獲取的非適定性。無論是生物眼睛還是機器攝像頭,都是將三維世界“投影”到二維平面。這種數(shù)學上的“降維打擊”,使得從2D圖像重建3D信息成為一個病態(tài)問題。人類通過雙眼視差、運動視差等多重線索解決這一問題,但機器需要模擬類似的多模態(tài)感知能力。
第三,生成與重建的二元性。語言模型主要處理是生成任務,如文本生成;而空間智能系統(tǒng)必須同時具備“生成”虛擬世界和“重建”真實物理世界的能力。這種二元性要求模型在生成時遵守物理規(guī)律,在重建時捕捉細節(jié),這對算法設計提出了極高要求。
第四,數(shù)據(jù)的稀缺性?;ヂ?lián)網上存在海量的語言數(shù)據(jù),但適用于空間智能訓練的結構化三維數(shù)據(jù)卻極為稀缺,“真實數(shù)據(jù)+合成數(shù)據(jù)”的混合策略可以與探索如何利用人類大腦中的先驗知識來彌補數(shù)據(jù)缺口。
通往四維世界的五大層次
空間智能重建是計算機視覺領域的核心挑戰(zhàn),其目標在于從視覺數(shù)據(jù)中還原三維空間的動態(tài)演化過程。這一技術通過整合靜態(tài)場景結構與時空動態(tài)變化,構建出具有時間維度的空間表征系統(tǒng),在虛擬現(xiàn)實、數(shù)字孿生和智能交互等領域展現(xiàn)出關鍵價值。
這種多維度的空間建模能力正成為新一代人工智能發(fā)展的基礎設施——無論是構建具身智能的環(huán)境認知體系,還是訓練具備物理常識的世界模型,高保真的4D空間表征都發(fā)揮著基石作用。
值得注意的是,前沿研究正從單純的幾何重建轉向對場景物理屬性和交互邏輯的建模,這種轉變使得空間智能不僅能呈現(xiàn)視覺真實的動態(tài)場景,更能支撐智能體與虛擬環(huán)境的擬真交互。
在構建空間智能過程中,可以劃分為五個遞進的層次:
第一層(Level 1):底層三維屬性的重建(如深度、位姿、點云圖等)。三維場景理解的基石在于對底層視覺線索的精準恢復,這一層級聚焦于四大核心要素:深度感知、相機定位、點云構建與動態(tài)跟蹤,這些基礎組件共同構成了三維空間的數(shù)字化骨架。
第二層(Level 2):三維場景組成要素的重建(如物體、人體、建筑、場景等)。在完成底層3D線索提取后,這一層的研究重點轉向場景中具體對象的精細化建模,包括人物、各類物體以及建筑結構等元素的幾何重建。雖然現(xiàn)有方法能夠處理這些元素的空間分布問題,但對它們之間的動態(tài)交互關系仍缺乏有效建模。
值得關注的是,隨著神經輻射場、3D高斯點云表示以及可變形網格等創(chuàng)新技術的突破性進展,研究者們已經能夠實現(xiàn)具有高度真實感的細節(jié)還原和整體結構保持。這些技術進步不僅顯著提升了重建質量,更為影視特效制作、虛擬現(xiàn)實等應用場景提供了關鍵的技術支撐。
第三層(Level 3):完整的4D動態(tài)場景的重建。這一層研究致力于突破靜態(tài)場景的限制,通過引入時間維度構建動態(tài)4D表征系統(tǒng),為沉浸式視覺體驗提供技術支撐。從應用場景來看,相關研究主要聚焦兩大方向:面向通用場景的4D重建技術,以及針對人體運動的專項動態(tài)建模方法。這種技術分野反映了不同應用場景對時空建模的差異化需求。
第四層(Level 4):包含場景內部組成部分之間交互關系的重建。這一層代表了空間智能研究的重要突破,其核心在于建立場景元素間的動態(tài)交互模型。作為交互行為的主導者,人體自然成為研究的重點對象,早期工作開創(chuàng)性地實現(xiàn)了從視頻中提取人體與物體的運動關聯(lián)。得益于三維表征技術的革新,新一代算法在交互物體的幾何外觀和運動軌跡重建方面取得了顯著提升。
特別值得注意的是,人-場景交互建模這一新興研究方向,通過解構人與環(huán)境的復雜互動機制,為構建具有物理合理性的數(shù)字世界奠定了重要基礎。
第五層(Level 5):引入物理規(guī)律以及相關約束條件的重建。Level 4系統(tǒng)在交互建模方面取得重要突破,但仍面臨物理真實性的關鍵挑戰(zhàn)。現(xiàn)有方法普遍未能整合基礎物理規(guī)律(如重力、摩擦等),導致其在機器人動作模仿或輔助駕駛等任務中存在明顯局限。
Level 5的突破性進展主要體現(xiàn)在人體運動仿真和場景物理建模,結合仿真平臺與深度強化學習,將研究范疇擴展至物體形變、碰撞檢測等復雜物理現(xiàn)象,實現(xiàn)了從視頻到物理合理動作的轉化。
這個層級化的技術框架,展現(xiàn)了AI認知能力從基礎到高階的完整進化路徑——就像教一個孩子先學會觀察(Level 1),再認識物體(Level 2),接著理解運動(Level 3),然后掌握互動(Level 4),最終領悟物理規(guī)律(Level 5)。這種循序漸進的突破,正在推動虛擬世界從“看起來真實”向“動起來真實”的質變。
空間智能開啟無盡想想象力
從技術演進角度看,空間智能代表了人工智能領域的一種嶄新思維方式。它通過將感知信息轉換為關于外部環(huán)境的抽象模型,使得智能體能夠有效預測和理解周圍世界的動態(tài)變化。
以自動駕駛為例,空間智能不僅可以幫助輔助智駕系統(tǒng)根據(jù)歷史經驗預測其他車輛和行人的行為,還能在特定情況下提前調整行車策略,極大提高行駛安全性與效率。這種基于物理規(guī)則和常識的數(shù)字世界生成能力,是以往任何人工智能技術都無法比擬的。
空間智能可以被視為人工智能從“自發(fā)感知”走向“自主認知”的邁進,其讓人工智能技術開始突破信息空間的局限,向真實世界的三維空間擴展,進一步提升了人工智能在實際環(huán)境中的適應能力。
它不僅是人工智能技術的再次進化,更是人工智能系統(tǒng)朝著真正理解和交互我們所生活的三維世界邁出的關鍵一步。正如語言智能讓人工智能能夠理解和生成人類語言一樣,空間智能將使人工智能能夠理解和操作物理世界。
相較于傳統(tǒng)的圖像識別技術,空間智能要求人工智能具備三維空間的理解與實時行為調整能力。通過對動態(tài)場景的分析與決策,人工智能不僅能夠識別物體,還能夠理解它們之間的相對位置和運動軌跡。
比如,在復雜的城市交通環(huán)境中,輔助駕駛系統(tǒng)必須利用空間智能來預測交通流動,同時確保能夠有效應對突發(fā)的交通情況。此種雙重能力的結合,讓自動駕駛的安全性和可靠性將發(fā)生質的飛躍。
空間智能不僅拓寬了人工智能的應用場景,也推動了算法的進一步發(fā)展。未來,空間智能將為智能體提供更高層次的認知與推理能力,使其能夠在模擬的虛擬環(huán)境中進行反復實驗,從而優(yōu)化決策在現(xiàn)實世界中的應用。

如此,科學家和工程師們可以在無風險的條件下,測試和改進智能算法的表現(xiàn)。這種在虛擬環(huán)境中的訓練,為現(xiàn)實中的應用提供了更加保險的保障,對于推動技術的成熟具有重要意義。
在日本,空間智能已全面鋪開。比如日本正在把整個東京進行3D數(shù)字孿生化,這是實現(xiàn)AI空間智能的關鍵一步。這一數(shù)字孿生模型的規(guī)模非常大,而且它對東京的刻畫也非常之精細,其絕對位置精度大約在10cm以內,不僅包含了LiDAR點云,還有詳實的CityGML和實時交通數(shù)據(jù)。根據(jù)日本的預期,到2030年將實現(xiàn)一個完整的數(shù)字孿生城市,從交通到能源做到信息無縫融合,越來越多的城市房屋、工廠將轉化為模擬數(shù)據(jù)。
對于城市進行的數(shù)字孿生其實也就是基于感知的城市數(shù)據(jù),在網絡空間上像“孿生”一樣再現(xiàn)建筑物、道路等基礎設施與經濟活動、人流等各種要素。也就是說,可以通過基于從物理空間各個領域的活動中獲取的實時數(shù)據(jù),在網絡空間中進行高級分析和模擬,并將其結果以交互式的形式高速反饋到物理空間。
正如英偉達高級研究科學家Jim Fan所言,未來的城市管理將依賴于實時圖形引擎中的模擬和集群系統(tǒng),這將使得機器人和自動化設備能夠快速適應復雜的環(huán)境。機器人將不會孤立地進行訓練,它們能夠在實時圖形引擎中進行模擬,并通過一個巨大的集群進行擴展,以生成下一個數(shù)萬億級別的高質量訓練數(shù)據(jù)。
通過在高精度模擬環(huán)境中訓練,機器人能獲得豐富的訓練數(shù)據(jù),并在復雜場景中快速學習。這種方法將推動機器人從虛擬世界到現(xiàn)實世界的順利遷移,提升其在實際應用中的效率和智能。
與傳統(tǒng)的城市模擬相比,數(shù)字孿生能夠提供實時反饋,并隨著城市的動態(tài)變化而調整其狀態(tài),這使得城市管理變得更加靈活和高效。
例如,在新南威爾士州,通過數(shù)字孿生和人工智能結合的技術,交通管理可以實時調整以減少擁堵,從而最大程度地提高社會效益。
在中國,物理世界AI大模型MogoMind通過通感算一體化設備整合車輛軌跡、交通流量等異構數(shù)據(jù),依托交通數(shù)據(jù)流實時全局感知、物理信息實時認知理解、通行能力實時推理計算、最優(yōu)路徑實時自主規(guī)劃、交通環(huán)境實時數(shù)字孿生,以及道路風險實時預警提醒六大關鍵能力,不僅能夠識別路面狀況、交通標識、障礙物的物理狀態(tài),還能將復雜的交通環(huán)境信息轉化為可理解、可執(zhí)行的智能決策建議,為交通管理部門和出行者提供應對方案。推動城市交通從“單點智能”走向“全局智能”。
在醫(yī)療領域,空間智能技術可以對醫(yī)學影像數(shù)據(jù)進行三維重建和分析,幫助醫(yī)生更準確地診斷疾病。例如,對CT、MRI等影像數(shù)據(jù)進行三維重建,可以更清晰地顯示人體器官和病變的位置、形狀和大小,為醫(yī)生提供更準確的診斷信息。同時,空間智能技術還可以為醫(yī)生提供手術導航和輔助決策,通過對患者的身體結構進行三維建模和分析,醫(yī)生可以更好地了解手術部位的解剖結構和血管分布,提高手術的準確性和安全性。
五億年前,視覺的出現(xiàn)顛覆了黑暗的世界,引發(fā)了最深刻的動物進化模式。過去十年,人工智能的進步同樣令人驚嘆。當我們開始為計算機和機器人賦予空間智能,就像大自然開啟了生物多樣化時代,人工智能的未來將由此更具無盡想象力。
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司