- +1
具身智能的哲學(xué)反思③|吳靜:智能正義視角下的具身智能
近期,大模型和人形機(jī)器人備受社會(huì)各界關(guān)注,很多人在思考:如何讓二者有效“融合”切實(shí)推動(dòng)具身智能的發(fā)展?顧名思義,具身智能是具有“身體”的人工智能。具身智能為大模型的應(yīng)用提供了更廣闊的平臺(tái),使之從“賽博空間”走向物理世界;具身智能讓機(jī)器人變得更“聰明”,與人類的交流更為順暢。具身智能的發(fā)展給哲學(xué)反思帶來(lái)不少挑戰(zhàn),本組筆談聚焦具身智能的定義、本質(zhì)特征、類型和實(shí)現(xiàn)的可能性等基本理論問題,以期推動(dòng)該領(lǐng)域研究的進(jìn)一步發(fā)展。劉永謀、白英慧認(rèn)為,追問具身智能的“身體”問題,主要涉及“身體”的劃界、預(yù)裝、融合與賦能等方面,這些問題相互交織、層層遞進(jìn)。閆宏秀、宋勝男認(rèn)為,具身智能面臨認(rèn)知偏差、語(yǔ)義鴻溝和價(jià)值判斷三大對(duì)齊難題,可通過(guò)“認(rèn)知—語(yǔ)言—價(jià)值”三重對(duì)齊框架及世界模型、語(yǔ)義扎根、倫理準(zhǔn)則具身化等具體方法,積極探索構(gòu)建協(xié)同、可信的具身智能系統(tǒng),推進(jìn)人機(jī)深度協(xié)作。吳靜認(rèn)為,具身智能的發(fā)展不僅需要有效改變現(xiàn)有大模型發(fā)展路徑的離身限制,還必須能夠構(gòu)建更具有智能正義的世界模型。楊慶峰指出,從進(jìn)化的角度看,具身智能是揚(yáng)棄理性智能體的結(jié)果,是走向超級(jí)智能的路徑之一。具身缺失阻礙了智能進(jìn)化,擁有身體形態(tài)成為改變這一阻礙的可能,但具身智能并不能克服災(zāi)難性遺忘和有限泛化能力的瓶頸問題。(專題特邀主持:劉永謀)
具身智能的哲學(xué)反思①|劉永謀、白英慧:具身智能“身體”實(shí)現(xiàn)的四個(gè)環(huán)節(jié)
具身智能的哲學(xué)反思②|閆宏秀、宋勝男:基于“認(rèn)知—語(yǔ)言—價(jià)值”三重對(duì)齊的具身智能構(gòu)建
具身智能的哲學(xué)反思③|吳靜:智能正義視角下的具身智能
具身智能的哲學(xué)反思④|楊慶峰:智能進(jìn)化與具身智能
具身智能的哲學(xué)反思⑤|李恒威、秦書淵:莊子的身心論對(duì)當(dāng)代具身心智理論的啟示
本系列文章原刊《福建論壇(人文社會(huì)科學(xué)版)》2025年第4期,澎湃新聞經(jīng)授權(quán)轉(zhuǎn)載。
【摘要】基于認(rèn)知計(jì)算主義的生成式人工智能雖然取得了巨大進(jìn)展,但其忽視具體語(yǔ)境和模擬信息的底層邏輯也造成了很多隱患。在對(duì)其進(jìn)行反思的基礎(chǔ)上,具身智能理念應(yīng)運(yùn)而生。具身智能中的“身體”并非人類肉身,而是能獲取感性經(jīng)驗(yàn)的實(shí)體,它試圖重塑人工智能理解世界的模式,但依然面臨身體如何構(gòu)建的難題??臻g智能作為具身智能的一個(gè)階段,通過(guò)視覺標(biāo)注為三維空間建模,連接物理與數(shù)字世界。然而其發(fā)展也面臨三大挑戰(zhàn):一是泛化困難,需要跨越“語(yǔ)義鴻溝”;二是以視覺中心主義為基礎(chǔ)的圖像標(biāo)注體系缺乏多樣性;三是人類的視覺空間認(rèn)知模型與智能體身體多樣性可能相悖。因此,具身智能的發(fā)展需要哲學(xué)與技術(shù)的協(xié)同合作,以構(gòu)建更合理的空間認(rèn)知和世界模型,實(shí)現(xiàn)智能正義。
引言
當(dāng)下,無(wú)論是OpenAI推出的GPT、Sora,還是谷歌研發(fā)的Gemini、Gemma,以及那些被稱作多模態(tài)大模型的生成式人工智能,大多是圍繞脫離具體語(yǔ)境信息構(gòu)建的符號(hào)系統(tǒng)展開處理。這種發(fā)展路徑的背后有著歐美流行的認(rèn)知計(jì)算主義的理論支撐,其底層邏輯認(rèn)為數(shù)字信息的價(jià)值遠(yuǎn)高于與實(shí)際場(chǎng)景緊密相連的模擬信息。認(rèn)知計(jì)算主義認(rèn)為,人類的認(rèn)知就像計(jì)算機(jī)的計(jì)算過(guò)程,是對(duì)抽象符號(hào)的操作。在這種觀念下,數(shù)字信息因其具有精確性、可編碼性和便于計(jì)算處理的特點(diǎn),被視為具有更高的價(jià)值。例如,在計(jì)算機(jī)程序中,所有的數(shù)據(jù)都被轉(zhuǎn)化為二進(jìn)制數(shù)字進(jìn)行存儲(chǔ)和運(yùn)算,這種數(shù)字化的表示方式使信息處理變得高效和準(zhǔn)確;在人工智能研發(fā)中,人們傾向于將各種信息——無(wú)論是文本、圖像還是聲音——都轉(zhuǎn)化為數(shù)字形式的符號(hào),然后通過(guò)復(fù)雜的算法進(jìn)行處理。
在生成式人工智能的發(fā)展歷程中,這種基于認(rèn)知計(jì)算主義的發(fā)展路徑取得了顯著的成果,如GPT系列在自然語(yǔ)言處理任務(wù)上表現(xiàn)出色,能夠生成連貫的文本、進(jìn)行智能問答,而谷歌的圖像生成技術(shù)也能創(chuàng)造出逼真的圖像作品。但由于忽視了具體語(yǔ)境和模擬信息,生成的內(nèi)容可能出現(xiàn)不符合實(shí)際場(chǎng)景的情況,缺乏真實(shí)世界的“常識(shí)”。這種信息實(shí)體論不僅重塑了人們對(duì)現(xiàn)實(shí)的認(rèn)知,還使得人工智能技術(shù)的研發(fā)過(guò)度聚焦于人類過(guò)往的經(jīng)驗(yàn)文本(如文字、影像、圖表等),卻忽視了具身智能交互性的發(fā)展。
早在1986年,羅德尼·布魯克斯就從控制論的專業(yè)視角出發(fā),指出智能應(yīng)當(dāng)是具身化、情境化的。他認(rèn)為,傳統(tǒng)的以信息表征為核心的經(jīng)典人工智能發(fā)展路徑存在著偏差,想要突破這種信息表征帶來(lái)的局限,就需要制造出基于實(shí)際行為獲取信息的機(jī)器人。蘇黎世大學(xué)人工智能實(shí)驗(yàn)室的前主任羅爾夫.普菲弗和加拿大佛蒙特大學(xué)的喬希.邦加德進(jìn)一步提出,通過(guò)強(qiáng)化智能體“身體”與外部環(huán)境的交互,可以建立全新的學(xué)習(xí)反饋機(jī)制,以此來(lái)塑造出更能適應(yīng)復(fù)雜世界的智能。那么,“身體”對(duì)于人工智能到底意味著什么呢?對(duì)此有必要展開進(jìn)一步分析。
一、哲學(xué)史視域中從離身認(rèn)知到具身認(rèn)知的轉(zhuǎn)變
在當(dāng)代哲學(xué)史的結(jié)構(gòu)性嬗變中,語(yǔ)言哲學(xué)的式微與新唯物主義的興起構(gòu)成了認(rèn)識(shí)論坐標(biāo)系的雙重運(yùn)動(dòng),其內(nèi)在邏輯需要置于對(duì)經(jīng)驗(yàn)主義傳統(tǒng)的解域化重構(gòu)中進(jìn)行考察。語(yǔ)言分析范式將經(jīng)驗(yàn)主義的知覺中心主義置換為語(yǔ)義先驗(yàn)主義,通過(guò)命題邏輯的拓?fù)鋵W(xué)構(gòu)建起認(rèn)識(shí)論的語(yǔ)言牢籠,這種邏各斯中心化的操作最終導(dǎo)致經(jīng)驗(yàn)世界被符號(hào)系統(tǒng)的遞歸性所吞噬,文本更是成為高光之下的符號(hào)學(xué)表演場(chǎng)?!皬?0世紀(jì)初對(duì)語(yǔ)言如何與世界相聯(lián)系的反思,到20世紀(jì)70年代對(duì)文本解構(gòu)分析的巔峰之作,在本世紀(jì)的大部分時(shí)間里,語(yǔ)言一直是最重要的焦點(diǎn)。但是,在許多年輕學(xué)者中,人們常常感到,在哲學(xué)和社會(huì)理論中僅僅關(guān)注文本問題已經(jīng)達(dá)到了批判的極限?!边@種憂患意識(shí)同時(shí)也影響到對(duì)認(rèn)知領(lǐng)域的范式反思。因?yàn)楫?dāng)數(shù)字化使得經(jīng)驗(yàn)主義的知覺內(nèi)容被壓縮為圖靈機(jī)離散的電子信號(hào)時(shí),吉爾·德勒茲和費(fèi)利克斯·加塔利所關(guān)注的經(jīng)驗(yàn)生成的物質(zhì)性基礎(chǔ)——“條件”——也正在被符號(hào)化和離身化。
新唯物主義的認(rèn)識(shí)論革命正源于對(duì)這種符號(hào)暴力的反叛。當(dāng)20世紀(jì)末的系統(tǒng)論、復(fù)雜性科學(xué)(如自組織理論、量子力學(xué)、混沌理論等)等揭示了物質(zhì)世界的非線性、動(dòng)態(tài)關(guān)聯(lián)性后,哲學(xué)不得不面臨重新思考物質(zhì)的“活性”和關(guān)聯(lián)性的命題。新唯物主義通過(guò)重返斯賓諾莎式的物質(zhì)單義性存在,希望將被后結(jié)構(gòu)主義簡(jiǎn)化為“符號(hào)效果”的物質(zhì)性和主體性從話語(yǔ)和權(quán)力建構(gòu)的重壓下拯救出來(lái),從而將經(jīng)驗(yàn)主義的感知基底重構(gòu)為物質(zhì)能動(dòng)性的拓?fù)鋵W(xué)網(wǎng)絡(luò)(或者也可以說(shuō)是拉圖爾意義上的行動(dòng)者網(wǎng)絡(luò))。
這種認(rèn)識(shí)論轉(zhuǎn)型的深層邏輯在于:新唯物主義將經(jīng)驗(yàn)主義的知覺優(yōu)先性轉(zhuǎn)化為物質(zhì)實(shí)踐的優(yōu)先性,通過(guò)引入復(fù)雜系統(tǒng)理論等后經(jīng)典科學(xué)范式,構(gòu)建起動(dòng)態(tài)的“經(jīng)驗(yàn)—物質(zhì)連續(xù)體”。在此視域下,卡倫·巴拉德的“現(xiàn)象本體論”將測(cè)量裝置的物質(zhì)性置于現(xiàn)象構(gòu)成的中心位置,徹底解構(gòu)了觀察者與被觀察者的笛卡爾式二分,這種認(rèn)識(shí)論的“物質(zhì)轉(zhuǎn)向”本質(zhì)上是對(duì)經(jīng)驗(yàn)主義的量子化改造。當(dāng)語(yǔ)言哲學(xué)將意義封閉在能指鏈的差異游戲中時(shí),新唯物主義通過(guò)重返實(shí)驗(yàn)室中的物質(zhì)操演,在經(jīng)驗(yàn)主義的地基上重建了認(rèn)識(shí)論的實(shí)在論維度。這種認(rèn)識(shí)論革命既是對(duì)分析哲學(xué)傳統(tǒng)的內(nèi)在批判,也是對(duì)現(xiàn)象學(xué)傳統(tǒng)的物質(zhì)論超越,并且以批判—建構(gòu)的方式回應(yīng)了生態(tài)危機(jī)、技術(shù)革命和后人類境遇的迫切問題。
同時(shí),語(yǔ)言哲學(xué)和新唯物主義對(duì)計(jì)算認(rèn)知主義的形塑與解構(gòu),既構(gòu)成了當(dāng)代認(rèn)識(shí)論轉(zhuǎn)型中一個(gè)不可忽視的辯證維度,也深刻地改變了在計(jì)算認(rèn)知主義基礎(chǔ)上發(fā)展起來(lái)的人工智能底層技術(shù)。這種影響既體現(xiàn)為分析哲學(xué)傳統(tǒng)為計(jì)算主義提供的“概念腳手架”,也表現(xiàn)為后期維特根斯坦學(xué)派對(duì)其理論預(yù)設(shè)的顛覆性批判,最終在新唯物主義框架下演化為對(duì)符號(hào)計(jì)算范式的本體論重構(gòu)。有趣的是,盡管語(yǔ)言哲學(xué)一直聲稱反本質(zhì)主義的立場(chǎng),卻有力地影響了信息實(shí)在論對(duì)信息本質(zhì)的理解,使信息被看作對(duì)應(yīng)客觀事物或概念的實(shí)體。正如結(jié)構(gòu)主義語(yǔ)言學(xué)強(qiáng)調(diào)語(yǔ)言系統(tǒng)內(nèi)部的結(jié)構(gòu)關(guān)系決定了其意義,信息實(shí)在論也將信息視為具有內(nèi)在結(jié)構(gòu)的實(shí)體,信息元素之間的關(guān)系模式賦予信息特定的價(jià)值和功能。這種觀點(diǎn)直接影響了后來(lái)“賽博格設(shè)想”中的信息通道問題,“這種設(shè)想……把信息視為某種無(wú)形的實(shí)體,可以在以碳元素為基礎(chǔ)的有機(jī)部件和以硅元素為基礎(chǔ)的電子部件之間相互流動(dòng),從而使碳和硅就像在同一個(gè)系統(tǒng)中運(yùn)行”。在語(yǔ)言哲學(xué)的形式化范式為數(shù)字化的計(jì)算模型提供了理論基礎(chǔ)之后,奧斯汀與塞爾的言語(yǔ)行為理論通過(guò)揭示語(yǔ)言的使用維度,動(dòng)搖了計(jì)算認(rèn)知主義的符號(hào)本體論。當(dāng)塞爾用“中文屋論證”揭露純句法操作無(wú)法產(chǎn)生語(yǔ)義理解時(shí),實(shí)際上已經(jīng)在邏輯而非經(jīng)驗(yàn)的基礎(chǔ)上論證了具身認(rèn)知:感知性的“身體”絕不是符號(hào)表征的劇場(chǎng),認(rèn)知活動(dòng)本質(zhì)上是身體—環(huán)境耦合的具身實(shí)踐,而非離身的符號(hào)演算。不過(guò),新唯物主義并未完全否定計(jì)算認(rèn)知主義的遺產(chǎn),而是希望通過(guò)引入“物質(zhì)實(shí)踐”重塑物質(zhì)能動(dòng)性從而恢復(fù)世界的統(tǒng)一性和發(fā)展性。吉貝爾·西蒙東以“締合環(huán)境”概念為核心所闡釋的技術(shù)物的進(jìn)化機(jī)制就可以被視作新唯物主義反對(duì)單一還原論和決定論的動(dòng)力發(fā)展機(jī)制的體現(xiàn)。它有效地反駁了符號(hào)秩序架構(gòu)物質(zhì)實(shí)踐乃至知識(shí)生產(chǎn)的事實(shí),極力避免“一旦不再被思考,差異就要消散于非存在之中”的符號(hào)霸凌。
在這種理論反思的基礎(chǔ)上,從離身認(rèn)知到具身認(rèn)知的轉(zhuǎn)變不但促使認(rèn)知科學(xué)本身走向與經(jīng)驗(yàn)實(shí)證科學(xué)的跨學(xué)科聯(lián)合,同時(shí)也為人工智能發(fā)展的不同模式和路徑提供了技術(shù)模型。生成式人工智能的知識(shí)生產(chǎn)通過(guò)算法塑造了一種純粹的認(rèn)識(shí)形式的領(lǐng)域,“純認(rèn)識(shí)形式的領(lǐng)域被孤立了,在與所有經(jīng)驗(yàn)知識(shí)的關(guān)系中,既獲得了自律,又獲得了主權(quán),使得對(duì)具體加以形式化并不顧一切地去重構(gòu)純科學(xué)這樣的設(shè)想得以誕生和無(wú)限再生”。大語(yǔ)言模型的認(rèn)知操作建立在符號(hào)的統(tǒng)計(jì)共現(xiàn)性上,其“理解”本質(zhì)上是詞向量空間中的拓?fù)湎嗨菩杂成?。然而,這種模式完全剝離了情境的生成機(jī)制。從哲學(xué)認(rèn)識(shí)論視角來(lái)看,這種普遍性和理性已然超脫于經(jīng)驗(yàn)表象的范疇。經(jīng)驗(yàn)表象作為人類認(rèn)知與外界交互的初始層面,是主體對(duì)客體的直接感知呈現(xiàn)。而算法憑借其自身的內(nèi)在結(jié)構(gòu),不再對(duì)現(xiàn)實(shí)的多元面向保持開放態(tài)勢(shì),而只是接納數(shù)字化所形塑的內(nèi)容。在符號(hào)學(xué)與知識(shí)論的關(guān)聯(lián)框架內(nèi),當(dāng)詞與話語(yǔ)被算法所設(shè)定的符號(hào)秩序重新塑造時(shí),這一過(guò)程實(shí)際上觸動(dòng)了知識(shí)的內(nèi)在肌理。生成式人工智能和大模型技術(shù)依賴的數(shù)據(jù)集存在結(jié)構(gòu)性的缺陷,這成為當(dāng)前智能發(fā)展道路上難以跨越的障礙。即便多模態(tài)大模型擴(kuò)充了文本來(lái)源類型,情況依舊不容樂觀。其根本原因就在于,全球不同文本生產(chǎn)技術(shù)的發(fā)展水平參差不齊,會(huì)產(chǎn)生各式各樣的意義模式。這些文本一旦脫離原本的語(yǔ)境被轉(zhuǎn)化為通用符號(hào),便與真實(shí)的生活產(chǎn)生了隔閡。有研究顯示,部分?jǐn)?shù)據(jù)在參與模型訓(xùn)練一段時(shí)間后,反而會(huì)干擾大模型的正常表現(xiàn)。
具身認(rèn)知為突破這種困境提供了具有啟發(fā)性的路徑。當(dāng)休伯特·德雷福斯指出復(fù)雜性的技能必然依賴身體對(duì)情境的“直接應(yīng)對(duì)”(Coping),而非符號(hào)表征的規(guī)則推理,他其實(shí)已經(jīng)前瞻性地描繪出了具身智能的兩個(gè)重要因素:身體以及身體與環(huán)境的適應(yīng)性。從這個(gè)意義上來(lái)說(shuō),具身智能的確算不上新的理念,那么問題就在于:如何為人工智能裝上身體以及裝上什么樣的身體呢?
二、“身體”與“肉身”:具身性的限度與可能性
梅洛-龐蒂曾提出過(guò)兩個(gè)相互聯(lián)系但又有所區(qū)別的概念:“身體”和“肉身”。身體更多地帶有一種與客觀世界相對(duì)的主體維度的意味,是我們感知世界、與世界互動(dòng)的基礎(chǔ)。身體與世界的關(guān)系更多地表現(xiàn)為一種主體對(duì)客體的作用和認(rèn)知關(guān)系。此時(shí)的身體強(qiáng)調(diào)的是作為一種具有感知、行動(dòng)等功能的主體存在,是行動(dòng)者在世界中存在的載體,它與世界之間存在著一種相對(duì)明確的界限,肉身則更加強(qiáng)調(diào)一種存在的原初性和交融性。肉身不僅僅是生理意義上的身體,更是一種主體與客體、自我與世界緊密融合的存在狀態(tài)。它不是一個(gè)孤立的實(shí)體,而是一種更為深層、更為基礎(chǔ)的存在層面。世界通過(guò)肉身而展開,肉身也在世界中不斷生成和變化。對(duì)于這兩個(gè)概念,梅洛-龐蒂都強(qiáng)調(diào)它們的具身性,反對(duì)傳統(tǒng)哲學(xué)中將心靈與身體相分離的二元論觀點(diǎn),認(rèn)為人類的認(rèn)知、感知和存在離不開身體或肉身這個(gè)基礎(chǔ)。
基于這一基礎(chǔ),反觀從以大語(yǔ)言模型為基礎(chǔ)的生成式人工智能,到以“空間智能”為代表的具身人工智能的嘗試,就可以發(fā)現(xiàn)具身智能與現(xiàn)有的認(rèn)知型智能體發(fā)展方向截然不同。具身智能強(qiáng)調(diào)讓人工智能擁有“身體”,以形成感覺、認(rèn)知和判斷的基礎(chǔ),從而獲得適應(yīng)環(huán)境、辨別多種感覺刺激乃至綜合理解的能力。當(dāng)然,這里的“身體”并非簡(jiǎn)單的外在形式,更不是人類的“肉身”,而是具備獲取感性經(jīng)驗(yàn)?zāi)芰Φ膶?shí)體性存在,是造成認(rèn)知差異以及情感—價(jià)值判斷不同的重要因素。正如人類依靠感官收集、處理信息來(lái)認(rèn)知世界一樣,具身智能也試圖讓人工智能在與其所處情境的實(shí)時(shí)交互中,逐步構(gòu)建對(duì)符號(hào)的理解。它把認(rèn)知過(guò)程融入具體環(huán)境里,形成持續(xù)進(jìn)化的反饋機(jī)制。更簡(jiǎn)單地說(shuō),具身人工智能不再像傳統(tǒng)人工智能那樣,只是機(jī)械地對(duì)預(yù)設(shè)條件作出固定反應(yīng),也不再單純通過(guò)模仿神經(jīng)網(wǎng)絡(luò)的方式來(lái)形成判斷。它更希望以接近人類理解世界的模式重塑從經(jīng)驗(yàn)感知到抽象理解的過(guò)程,借助傳感設(shè)備獲取聲音、影像、觸覺、溫度、表情等多維度的一手環(huán)境信息,構(gòu)建起實(shí)時(shí)且動(dòng)態(tài)的完整符號(hào)模型。其認(rèn)知和理解過(guò)程不是“離線”(去情境化)進(jìn)行,而是始終處于與外界環(huán)境持續(xù)交互的狀態(tài)?;谶@種心智仿真結(jié)構(gòu)形成的智能體,是一個(gè)與具體情境深度融合的開放網(wǎng)絡(luò)。但“肉身”本身的存在論特質(zhì)無(wú)法被簡(jiǎn)化為物理特質(zhì)或算法邏輯,它不是一個(gè)簡(jiǎn)單的仿生工程任務(wù),更不是人工意識(shí)的物質(zhì)基礎(chǔ)。
如果人類身體可以被視作思想這一復(fù)雜裝置的載體或運(yùn)行場(chǎng)域,那么象征意義上的生產(chǎn)性問題則在于:如何為人工智能設(shè)計(jì)一個(gè)與其認(rèn)知和能力相稱的身體?神人同形同性論與“恐怖谷效應(yīng)”之間的互搏最終會(huì)將智能體的發(fā)展帶向類人化還是超人化?因?yàn)榫呱硇缘睦碚摶A(chǔ)正在于將身體—環(huán)境的“裝配”(Assemblage)視作相互作用的立場(chǎng),而不是由事先預(yù)設(shè)的準(zhǔn)則和條件形成的線性對(duì)應(yīng)。正如休伯特·德雷福斯在批評(píng)離身認(rèn)知的底層邏輯時(shí)所說(shuō)的:“思想并不在信息元的基礎(chǔ)上運(yùn)作,而是在直覺的和假設(shè)的塑形基礎(chǔ)上運(yùn)作。它接受不準(zhǔn)確的、模糊的材料。這樣的材料不像是根據(jù)預(yù)定閱讀的編碼或者能力被選擇的。它不會(huì)忽視一個(gè)情況的旁角和邊緣?!睆倪@個(gè)意義上說(shuō),具身性的要求與在方法論上對(duì)于直接經(jīng)驗(yàn)的強(qiáng)調(diào)是聯(lián)系在一起的,它不僅需要將多模態(tài)的信息輸入轉(zhuǎn)譯成符號(hào)邏輯,更需要借助模糊邏輯與生成對(duì)抗網(wǎng)絡(luò)(GANs),以容忍認(rèn)知中的不確定性。但問題在于,與人類身體或主體同步于經(jīng)驗(yàn)—感知的事實(shí)不同,人工智能的“身體”是缺失的,這種缺失并非是指缺少由現(xiàn)有的人工智能驅(qū)動(dòng)的“實(shí)體性存在”(如傳感器與機(jī)械裝置),而是以“身體圖式”為交互依據(jù)與環(huán)境共同形成的感知—行動(dòng)回路。這意味著具身智能絕不是在現(xiàn)有生成式人工智能的基礎(chǔ)上創(chuàng)造出的某種身體,而是重建智能體知識(shí)生產(chǎn)的認(rèn)知框架,并在此基礎(chǔ)上建立行為,甚至形成可逆性模擬,即能夠從結(jié)果“反思”中總結(jié)并建立規(guī)則,而非通過(guò)算法的預(yù)設(shè)給定規(guī)則。
然而,即便從這些原則出發(fā),具身性依然面臨著如何對(duì)智能體的身體進(jìn)行想象的難題。“這些象征性問題始終以某種方式面臨著英國(guó)經(jīng)驗(yàn)主義中最重要的喀邁拉問題:我們是否真的能想象出某種先于感覺的東西,換句話說(shuō),即不是由感性知識(shí)(這種感性知識(shí)是關(guān)于我們平常的人類身體和世界的知識(shí))衍生出來(lái)的東西?”科幻小說(shuō)在突破神人同形同性論上作出了巨大努力。斯坦尼斯拉夫·萊姆在《索拉里斯星》中創(chuàng)造出來(lái)的膠質(zhì)狀海洋就是通過(guò)量子糾纏的方式直接作用于觀察者的神經(jīng)網(wǎng)絡(luò),這顯然是對(duì)非人形有機(jī)體或智慧體的一種探索。
不過(guò),具身智能對(duì)身體的思考還無(wú)須走到那么遠(yuǎn)。只是,當(dāng)后人類身體本身已經(jīng)成為可編碼和增強(qiáng)的界面和場(chǎng)域時(shí),對(duì)于智能身體的建構(gòu)一方面面臨著對(duì)解剖學(xué)常規(guī)的無(wú)限突破可能,另一方面卻又依舊要試圖接近人類從經(jīng)驗(yàn)感知到綜合判斷的認(rèn)知進(jìn)路。這使得它在超越類人形式的想象方面必須持續(xù)地進(jìn)行思想和實(shí)踐的雙重探索:如何通過(guò)身體形態(tài)學(xué)的無(wú)限可能來(lái)解構(gòu)和重塑人類認(rèn)知的常規(guī)框架,在人類可以理解、共鳴、交互的范圍內(nèi)探索超越人類經(jīng)驗(yàn)的感知方式,正如攝影機(jī)鏡頭的發(fā)明和運(yùn)鏡形式的多樣化重新勘定了視覺的界限和可表達(dá)性一樣。因?yàn)橄噍^于肉眼觀察世界的直觀性和外在性,鏡頭語(yǔ)言具有更明顯的粗暴性和侵入性,它破壞了客觀世界的自然秩序,以無(wú)限的運(yùn)動(dòng)可能粗暴地干涉對(duì)象世界,并以電影語(yǔ)言(蒙太奇)的方式加以重組。這如同一場(chǎng)技術(shù)奇點(diǎn)來(lái)臨前的預(yù)演,使得德勒茲的“無(wú)器官身體”的隱喻在數(shù)字技術(shù)、機(jī)械自動(dòng)化和生物工程的共同作用下得以不斷挑戰(zhàn)認(rèn)知科學(xué)的規(guī)則,并且除了模擬感覺信息處理和運(yùn)動(dòng)控制結(jié)構(gòu)外,具身智能的系統(tǒng)研究還應(yīng)當(dāng)將行為經(jīng)濟(jì)學(xué)、動(dòng)態(tài)系統(tǒng)方法和適應(yīng)性決策納入其中,以解決目前AI系統(tǒng)在實(shí)時(shí)響應(yīng)中決策仍依賴離散的時(shí)間切片的問題。
三、空間智能與智能正義
美籍華裔學(xué)者李飛飛深入討論了大語(yǔ)言模型與世界模型的根本差異。她認(rèn)為,作為生成式人工智能技術(shù)基礎(chǔ)的大語(yǔ)言模型(LLM)關(guān)注的是表達(dá)和交流,是基于已有的抽象數(shù)據(jù)形成的知識(shí)生產(chǎn);而擔(dān)當(dāng)具身智能(她所提出的空間智能也是具身智能的一個(gè)階段)技術(shù)底層邏輯的大世界模型(LWM)關(guān)注的則是感知和行動(dòng),是基于視覺的空間感知。兩種模型在根本上是不同的模態(tài)。而李飛飛的實(shí)驗(yàn)室所探索的空間智能之所以能夠聯(lián)結(jié)和理解物理世界和數(shù)字世界,并為AI應(yīng)用開辟新的可能性,正在于其通過(guò)視覺標(biāo)注為三維空間建模,從而使智能體與像素世界產(chǎn)生互動(dòng)。
因此,我們可以將大世界模型理解成為智能行動(dòng)體的空間性具身行為提供建模和推理依據(jù)的基礎(chǔ)建設(shè)。在一篇關(guān)于AI行動(dòng)體的預(yù)印文本研究報(bào)告中,李飛飛的研究團(tuán)隊(duì)直截了當(dāng)?shù)仃U述了其研究旨向:“為了加快基于智能的多模態(tài)智能的研究,我們將‘人工智能行動(dòng)體’定義為一類交互式系統(tǒng),它可以感知視覺刺激、語(yǔ)言輸入和其他基于環(huán)境的數(shù)據(jù),并能夠產(chǎn)生有意義的具身行為。”顯然,“空間智能”中的空間性并非單純的幾何空間或傳統(tǒng)虛擬現(xiàn)實(shí)中的3D搭建,而更多的是梅洛-龐蒂意義上的“身體空間性”,身體并非處于空間中的一個(gè)物體,而是行動(dòng)體寓居于空間的方式。身體通過(guò)自身的運(yùn)動(dòng)和感知不斷地與周圍空間進(jìn)行互動(dòng),從而賦予空間以豐富的意義??臻g性是身體通過(guò)運(yùn)動(dòng)投射意義的能力。當(dāng)盲人的手杖被身體“整合”為知覺的延伸時(shí),這一現(xiàn)象揭示了身體作為動(dòng)態(tài)綜合體的特性。通過(guò)手杖的觸碰和移動(dòng),盲人能夠感知到周圍環(huán)境的空間布局。這種感知并非像在幾何空間中那樣通過(guò)抽象的計(jì)算形成,而是身體直接的體驗(yàn)。它使得身體的感知范圍得以擴(kuò)展,從而在空間中自由地行動(dòng)。
為了實(shí)現(xiàn)這個(gè)目標(biāo),從二維視覺到三維視覺的轉(zhuǎn)換尤為重要。只有在此基礎(chǔ)上,才能建立可以對(duì)空間幾何與物理過(guò)程進(jìn)行精準(zhǔn)建模、理解與推理的“世界模型”。這也是為什么李飛飛將大型圖片數(shù)據(jù)庫(kù)ImageNet視為朝著全面理解人類所處的視覺世界邁出的重要一步,它通過(guò)為二維圖像中的像素添加標(biāo)簽來(lái)鏈接物理三維世界與數(shù)字三維世界,使智能體能夠通過(guò)理解標(biāo)注發(fā)展出對(duì)身體空間性而非純粹的外在空間的理解。ImageNet之所以重要是因?yàn)樗鼜浹a(bǔ)了目前以大語(yǔ)言模型為基礎(chǔ)的人工智能發(fā)展路徑在空間推理上的顯著失能。即使是最先進(jìn)的多模態(tài)大模型,雖然在語(yǔ)言理解和一般視覺任務(wù)上取得了顯著進(jìn)展,但在空間認(rèn)知方面與人類相比仍有顯著差距,測(cè)試中約71%的錯(cuò)誤都源于空間推理方面的缺陷,即空間推理能力是當(dāng)前主要瓶頸。
盡管以李飛飛為代表的不少研究者都將空間智能看成智能體實(shí)現(xiàn)自主具身決策的邏輯支撐和技術(shù)實(shí)現(xiàn),但其仍然面臨著重大的理論挑戰(zhàn)和可行性困難,甚至有可能對(duì)智能應(yīng)用的公平性和多樣性產(chǎn)生影響。
首先是空間智能泛化的挑戰(zhàn)。世界模型在本質(zhì)上是要建立一個(gè)具有“通用性”的空間范式,這一范式不僅要與虛擬空間適配,還要與物理空間適配。然而,實(shí)現(xiàn)這種與具身智能行動(dòng)能力匹配的通用空間模型,要比實(shí)現(xiàn)大語(yǔ)言模型的通用性困難得多。大語(yǔ)言模型因?yàn)槭侵苯釉谝呀?jīng)具備一定通用性基礎(chǔ)上的抽象語(yǔ)言層面進(jìn)行學(xué)習(xí)和泛化,相對(duì)比較容易,但空間智能需要從傳感器獲取的原始信號(hào)中學(xué)習(xí),這意味著要跨越從原始數(shù)字信號(hào)到人類語(yǔ)義符號(hào)的“語(yǔ)義鴻溝”,不僅需要大量的標(biāo)注數(shù)據(jù),還要對(duì)傳感器獲取的原始信號(hào)進(jìn)行精確標(biāo)定,以確保其具備絕對(duì)物理尺度上的度量,這比從互聯(lián)網(wǎng)獲取海量圖像文本數(shù)據(jù)要困難得多。更關(guān)鍵的是,具身智能所面對(duì)的還不是純粹的物理空間,而是與身體感知能力相關(guān)的“身體的空間性”,這就要求除了從視覺、力覺、觸覺及嗅覺等高維感知信號(hào)中獲得通用性之外,還要發(fā)展出由智能體和環(huán)境對(duì)象共同定義出的具身決策的“行為空間”。其泛化的要求更增加了對(duì)不同范式的學(xué)習(xí)難度。
其次是以視覺中心主義為理論基礎(chǔ)的ImageNet的圖像標(biāo)注體系的多樣性問題。李飛飛本人曾不止一次地強(qiáng)調(diào),機(jī)器學(xué)習(xí)的成敗不僅在于模型,更在于數(shù)據(jù)的復(fù)雜度和規(guī)模是否能夠有效地驅(qū)動(dòng)模型學(xué)習(xí)。相關(guān)學(xué)者也承認(rèn),真正的“空間智能”其實(shí)不受感官模式限制。例如,前面提到的盲人可以通過(guò)別的方式感知空間,因?yàn)樯せ蛏醯囊曊先耸康目臻g感受也會(huì)和常人有所不同。但由于李飛飛研究團(tuán)隊(duì)選擇了將更為普遍的圖片和視頻數(shù)據(jù)作為基礎(chǔ),因而其“空間智能”的著眼點(diǎn)側(cè)重于“視覺空間智能”。就技術(shù)應(yīng)用的普遍性和可行性而言,這種策略是可以理解且更為經(jīng)濟(jì)的。然而,這種以視覺為中心的模式忽略了特殊人群的認(rèn)知差異問題。此外,即便同樣是以視覺為強(qiáng)勢(shì)認(rèn)知,部分殘障人士借助視覺獲得的基于空間的認(rèn)知和判斷也和普通人不同,畢竟身體的空間性首先要面對(duì)的不是均一的物理空間,而是與身體密切相關(guān)的空間,甚至還包括社會(huì)交互空間。如何通過(guò)豐富數(shù)據(jù)類型來(lái)解決或改善該問題,是研究團(tuán)隊(duì)的頂層設(shè)計(jì)需要關(guān)注的。更重要的是,智能正義本身是AI倫理和社會(huì)公平關(guān)注的目標(biāo),而如果僅僅作為一項(xiàng)商業(yè)項(xiàng)目,解決該問題的投入和其經(jīng)濟(jì)效益之間未必形成正比,對(duì)它的支持可能需要更多的社會(huì)力量來(lái)推動(dòng)。
最后是人類中心的視覺空間認(rèn)知模型與智能體身體的多樣性之間可能產(chǎn)生的悖反。本雅明在討論畫家與攝影師的差別時(shí)曾指出,畫家在作品中同現(xiàn)實(shí)保持自然距離,借助經(jīng)驗(yàn)來(lái)判斷現(xiàn)實(shí)。但是攝影師就像是外科醫(yī)生,可以從鏡頭的無(wú)窮角度刺入現(xiàn)實(shí)的織體。這兩種對(duì)待現(xiàn)實(shí)世界截然不同的態(tài)度和手段,反映出攝影技術(shù)的全部辯證性:攝影的創(chuàng)造深度完全取決于它對(duì)于世界的改造程度,現(xiàn)實(shí)世界越是被肢解得徹底,影像世界才越能多姿多彩。同樣地,當(dāng)智能體的具身性突破了類人構(gòu)造,其感知世界的方式也將發(fā)生根本性的轉(zhuǎn)變。人類視覺中空間的劃分、物體的重要性判斷等都是基于觀看的特性和日常經(jīng)驗(yàn),但對(duì)于依靠熱感應(yīng)來(lái)感知世界的智能體來(lái)說(shuō),溫度的高低才是判斷物體重要性和空間分布的關(guān)鍵因素。此外,智能體對(duì)空間的判斷標(biāo)準(zhǔn)也與人類大相徑庭。人類在判斷空間是否適宜行動(dòng)時(shí)會(huì)考慮自身的身體尺度、運(yùn)動(dòng)能力以及視覺所及的安全性等因素,而智能體的行動(dòng)決策更多地基于其自身的設(shè)計(jì)目標(biāo)和感知能力。比如,專為狹小管道檢測(cè)設(shè)計(jì)的微型智能體,它對(duì)空間的“寬敞”則以自身的設(shè)計(jì)為標(biāo)準(zhǔn)。
人工智能的發(fā)展史是人類在數(shù)字世界展開的持續(xù)試錯(cuò)實(shí)驗(yàn),更是哲學(xué)與工程學(xué)交織的巨型思想沙盤。從以視覺為基礎(chǔ),到世界模型的提出,再到視覺空間智能乃至具身智能構(gòu)想的發(fā)展進(jìn)路,并不是一條坦途,它所面臨的挑戰(zhàn)和爭(zhēng)議會(huì)一直存在。如何構(gòu)建更能發(fā)揮智能體多樣性優(yōu)勢(shì)的空間認(rèn)知和世界模型,是人工智能發(fā)展中的頂層設(shè)計(jì)問題,它需要哲學(xué)和技術(shù)的雙重在場(chǎng)。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




