具身智能的哲學(xué)反思①｜劉永謀、白英慧：具身智能“身體”實(shí)現(xiàn)的四個(gè)環(huán)節(jié)

劉永謀（中國(guó)人民大學(xué)哲學(xué)院教授、博士生導(dǎo)師、中國(guó)人民大學(xué)吳玉章講席教授）、白英慧（中國(guó)人民大學(xué)哲學(xué)院博士研究生）

2025-05-29 13:58

來(lái)源：澎湃新聞

近期，大模型和人形機(jī)器人備受社會(huì)各界關(guān)注，很多人在思考：如何讓二者有效“融合”切實(shí)推動(dòng)具身智能的發(fā)展？顧名思義，具身智能是具有“身體”的人工智能。具身智能為大模型的應(yīng)用提供了更廣闊的平臺(tái)，使之從“賽博空間”走向物理世界；具身智能讓機(jī)器人變得更“聰明”，與人類(lèi)的交流更為順暢。具身智能的發(fā)展給哲學(xué)反思帶來(lái)不少挑戰(zhàn)，本組筆談聚焦具身智能的定義、本質(zhì)特征、類(lèi)型和實(shí)現(xiàn)的可能性等基本理論問(wèn)題，以期推動(dòng)該領(lǐng)域研究的進(jìn)一步發(fā)展。劉永謀、白英慧認(rèn)為，追問(wèn)具身智能的“身體”問(wèn)題，主要涉及“身體”的劃界、預(yù)裝、融合與賦能等方面，這些問(wèn)題相互交織、層層遞進(jìn)。閆宏秀、宋勝男認(rèn)為，具身智能面臨認(rèn)知偏差、語(yǔ)義鴻溝和價(jià)值判斷三大對(duì)齊難題，可通過(guò)“認(rèn)知—語(yǔ)言—價(jià)值”三重對(duì)齊框架及世界模型、語(yǔ)義扎根、倫理準(zhǔn)則具身化等具體方法，積極探索構(gòu)建協(xié)同、可信的具身智能系統(tǒng)，推進(jìn)人機(jī)深度協(xié)作。吳靜認(rèn)為，具身智能的發(fā)展不僅需要有效改變現(xiàn)有大模型發(fā)展路徑的離身限制，還必須能夠構(gòu)建更具有智能正義的世界模型。楊慶峰指出，從進(jìn)化的角度看，具身智能是揚(yáng)棄理性智能體的結(jié)果，是走向超級(jí)智能的路徑之一。具身缺失阻礙了智能進(jìn)化，擁有身體形態(tài)成為改變這一阻礙的可能，但具身智能并不能克服災(zāi)難性遺忘和有限泛化能力的瓶頸問(wèn)題。（專(zhuān)題特邀主持：劉永謀）

具身智能的哲學(xué)反思①｜劉永謀、白英慧：具身智能“身體”實(shí)現(xiàn)的四個(gè)環(huán)節(jié)

具身智能的哲學(xué)反思②｜閆宏秀、宋勝男：基于“認(rèn)知—語(yǔ)言—價(jià)值”三重對(duì)齊的具身智能構(gòu)建

具身智能的哲學(xué)反思③｜吳靜：智能正義視角下的具身智能

具身智能的哲學(xué)反思④｜楊慶峰：智能進(jìn)化與具身智能

具身智能的哲學(xué)反思⑤｜李恒威、秦書(shū)淵：莊子的身心論對(duì)當(dāng)代具身心智理論的啟示

本系列文章原刊《福建論壇（人文社會(huì)科學(xué)版）》2025年第4期，澎湃新聞經(jīng)授權(quán)轉(zhuǎn)載。

【本文摘要】在AI專(zhuān)業(yè)領(lǐng)域中，主流觀點(diǎn)將具身智能視為大模型與機(jī)器人的融合。與離身智能不同，具身智能依賴(lài)于具有可區(qū)分性和可控制性的“身體”。這意味著具身智能需要進(jìn)行“身體”預(yù)裝，即通過(guò)編碼嵌入和人群學(xué)習(xí)路徑，將世界模型和軀體標(biāo)記內(nèi)嵌于機(jī)器人，使其具有一定的“身體”智能?！吧眢w”預(yù)裝應(yīng)從實(shí)用主義出發(fā)，綜合考慮“身體”的形狀、大小、材質(zhì)及重量，盲目模仿人形并非最佳選擇。更進(jìn)一步來(lái)說(shuō)，“身體”與大模型的融合并非簡(jiǎn)單拼湊，而是強(qiáng)調(diào)整體性，目的是導(dǎo)向具身認(rèn)知?！吧眢w”能夠賦予機(jī)器人四大核心能力，即感知能力、空間能力、交互能力和情感能力，從而顯著提升機(jī)器人的整體智能水平。

在2025年第十四屆全國(guó)人民代表大會(huì)第三次會(huì)議上，具身智能首次被寫(xiě)入政府工作報(bào)告，并被列為未來(lái)產(chǎn)業(yè)培育的重點(diǎn)方向。近年來(lái)，機(jī)器人產(chǎn)業(yè)（尤其是人形機(jī)器人）的快速發(fā)展，使得具身智能在人工智能領(lǐng)域備受關(guān)注。在相關(guān)研究中，“身體”問(wèn)題已成為具身智能探討的核心議題，涵蓋“身體”的劃界、預(yù)裝、融合與賦能等關(guān)鍵環(huán)節(jié)，亟需進(jìn)行系統(tǒng)梳理和深入探討。其中，“身體”的劃界問(wèn)題旨在區(qū)分“身體”和“非身體”，厘清具身智能的物理與功能的邊界；“身體”的預(yù)裝問(wèn)題追問(wèn)“身體”智能的前設(shè)條件，剖析其預(yù)裝路徑和困境；“身體”的融合問(wèn)題包括“身體”與大模型深度耦合的本質(zhì)和面臨的挑戰(zhàn)；“身體”賦能問(wèn)題則關(guān)注“身體”賦予具身智能的關(guān)鍵能力。這四個(gè)問(wèn)題彼此交織、層層遞進(jìn)：“身體”劃界是預(yù)裝與融合的前提，“身體”預(yù)裝為融合與賦能提供可能。這個(gè)框架不僅是對(duì)具身智能的哲學(xué)反思，也為其技術(shù)實(shí)現(xiàn)和應(yīng)用落地提供了思考方向。

一、“身體”與“非身體”的劃界

具身智能（Embodied Intelligence）作為一種智能范式，強(qiáng)調(diào)智能是在“身體”與其所處環(huán)境的持續(xù)交互中涌現(xiàn)的。瓦雷拉等學(xué)者認(rèn)為，“具身”概念強(qiáng)調(diào)兩點(diǎn)：“第一，認(rèn)知依賴(lài)于經(jīng)驗(yàn)的種類(lèi)，這些經(jīng)驗(yàn)來(lái)自具有各種感知運(yùn)動(dòng)的身體；第二，這些個(gè)體的感知運(yùn)動(dòng)能力自身內(nèi)含在（embedded）一個(gè)更廣泛的生物、心理和文化的情境中”。與離身智能（如ChatGPT、DeepSeek等）不同，具身智能強(qiáng)調(diào)智能對(duì)“身體”的依賴(lài)性、“身體”與環(huán)境的統(tǒng)一性，反對(duì)將智能視為脫離“身體”而存在的抽象的計(jì)算過(guò)程或符號(hào)操作。換言之，區(qū)別具身智能與離身智能的核心問(wèn)題在于：智能的生成與實(shí)現(xiàn)是否必然依賴(lài)“身體”。有觀點(diǎn)反駁稱(chēng)，離身智能同樣具有“身體”（如處理器、內(nèi)存、傳感器等硬件裝置），這類(lèi)智能雖然主要基于軟件層面的計(jì)算邏輯，但仍離不開(kāi)物理硬件的支持。這種觀點(diǎn)在本質(zhì)上對(duì)“身體”概念的理解存在偏差。

“身體”并非單純的物理載體，其具有雙重屬性：既是客體，又是主體。在西方哲學(xué)史中，關(guān)于“身體”的討論長(zhǎng)期受到笛卡爾身心二元論的影響，“身體”被視為獨(dú)立、純粹的物質(zhì)實(shí)體，類(lèi)似于一部復(fù)雜的機(jī)器，受控于心靈。在此語(yǔ)境中，離身智能將“身體”視作客體，以一種抽象化的、第三人稱(chēng)的視角界定“身體”，認(rèn)為“身體”僅僅是信息輸入和輸出的通道，忽視了“身體”在感知、認(rèn)知和交互方面的主動(dòng)作用。與之相對(duì)，具身智能認(rèn)為，“身體”不僅是信息處理的媒介，更是感知世界、體驗(yàn)情感、執(zhí)行意圖的主體，是智能活動(dòng)的內(nèi)在參與者。具身智能從能動(dòng)的、第一人稱(chēng)的視角理解“身體”，認(rèn)為“身體”在環(huán)境中的體驗(yàn)構(gòu)成了智能生成的基礎(chǔ)。正如梅洛-龐蒂所主張的，“身體”與“心靈”融為一體、不可分割，可被稱(chēng)為“身體主體”，其不僅僅作為物質(zhì)載體而存在，還作為感知—運(yùn)動(dòng)的主體與具體情境持續(xù)互動(dòng)。

因此，在具身智能的語(yǔ)境下，“身體”與“非身體”的劃界不僅取決于其是否擁有物理基礎(chǔ)，關(guān)鍵還在于其是否具備主動(dòng)感知、交互運(yùn)動(dòng)和靈活適應(yīng)的能力。具體而言，“身體”的核心特征在于可區(qū)分性和可控制性?？蓞^(qū)分性意味著，具身智能雖然始終嵌入環(huán)境之中，但仍具備從根本上區(qū)分自身“身體”與環(huán)境的能力。埃塞基爾·迪·保羅和埃文·湯普森提出的“自我個(gè)體化”（Self-individuating）概念強(qiáng)調(diào)，“身體”能夠主動(dòng)生成并維持自身與環(huán)境之間的區(qū)分。這種區(qū)分能力依賴(lài)于“身體”的多層次感知系統(tǒng)：環(huán)境感知用于接收外部信號(hào)，“身體”感知用于監(jiān)測(cè)內(nèi)部狀態(tài)，而內(nèi)容感知?jiǎng)t涵蓋話(huà)語(yǔ)、思想和共情感知，依托于其它感官所提供的信息而工作。這些感知機(jī)制協(xié)同作用，共同塑造了“身體”的可區(qū)分性。例如，現(xiàn)有的許多機(jī)器人模仿人類(lèi)身體的多層次感知系統(tǒng)，已經(jīng)初步具備了多模態(tài)感知的能力，能夠在一定程度上區(qū)分自我運(yùn)動(dòng)與環(huán)境擾動(dòng)。

以可區(qū)分性為基礎(chǔ)，可控制性進(jìn)一步強(qiáng)調(diào)，“身體”能夠自主調(diào)整或在大模型的調(diào)控下改變自身的基本形態(tài)、運(yùn)動(dòng)路徑和交互方式，以適應(yīng)環(huán)境并完成特定任務(wù)。與之相比，“非身體”通常形態(tài)固定，缺乏運(yùn)動(dòng)與動(dòng)態(tài)交互的能力。在具身智能的技術(shù)實(shí)踐中，波士頓動(dòng)力公司的Atlas機(jī)器人展現(xiàn)出高超的運(yùn)動(dòng)控制能力，能夠完成跳躍、后空翻等復(fù)雜動(dòng)作，并在遭受外力干擾時(shí)能即時(shí)調(diào)整姿勢(shì)以維持平衡。該機(jī)器人還能根據(jù)地形的變化動(dòng)態(tài)調(diào)整關(guān)節(jié)角度，實(shí)現(xiàn)在崎嶇地形上的平穩(wěn)行走。此外，具有柔性結(jié)構(gòu)的軟體機(jī)器人具備自適應(yīng)形態(tài)調(diào)整的能力，能夠根據(jù)外部環(huán)境主動(dòng)調(diào)整自身形狀與柔軟度，從而優(yōu)化運(yùn)動(dòng)模式。

二、具身智能的“身體”預(yù)裝

如前所述，具身智能的“身體”并非只是由傳感器、執(zhí)行器等構(gòu)成的物理系統(tǒng)，還具有可區(qū)分性和可控制性的特征，此種特征的實(shí)現(xiàn)需要借鑒人類(lèi)擁有的世界模型以及軀體標(biāo)記的能力。2007年，英國(guó)認(rèn)知科學(xué)家克里斯·弗里斯和卡爾·弗里斯頓提出“世界模型”的假設(shè)，認(rèn)為人類(lèi)大腦中存在著一個(gè)“反映物理世界和他人的思想世界”的模型，人類(lèi)的大腦將這一模型與身體感知到的內(nèi)容進(jìn)行對(duì)比，以減少預(yù)測(cè)誤差并不斷優(yōu)化模型。而感知最初所需要的一些先驗(yàn)知識(shí)，已經(jīng)過(guò)數(shù)百萬(wàn)年的進(jìn)化植根于人類(lèi)大腦之中?！笆澜缒Ｐ汀奔僭O(shè)的提出有助于智能體理解真實(shí)的世界，進(jìn)而具備因果推理、預(yù)測(cè)分析等能力。2018年，大衛(wèi)·哈等人將世界模型概念系統(tǒng)性地引入人工智能研究領(lǐng)域，這引發(fā)了學(xué)界的熱議，認(rèn)為它不但包含著對(duì)世界的理解，而且指向了對(duì)未來(lái)的預(yù)測(cè)。除了世界模型，軀體標(biāo)記的能力對(duì)于具身智能也十分重要。安東尼奧·達(dá)馬西奧指出，情緒通過(guò)軀體標(biāo)記的方式參與推理過(guò)程。在某種情境下，當(dāng)負(fù)面結(jié)果出現(xiàn)時(shí)，人體驗(yàn)到不愉快的軀體感受，即達(dá)馬西奧所稱(chēng)的“軀體狀態(tài)”。此種負(fù)面結(jié)果與某種情緒相關(guān)聯(lián)，便形成了軀體標(biāo)記。當(dāng)類(lèi)似情境再次出現(xiàn)時(shí)，身體便會(huì)表現(xiàn)出某種軀體狀態(tài)，負(fù)面結(jié)果立刻被預(yù)測(cè)，軀體標(biāo)記從而參與到推理過(guò)程之中。需要指出的是，軀體標(biāo)記可以在意識(shí)之外做出預(yù)測(cè)、進(jìn)行推理，這意味著身體本身具備了一定的基礎(chǔ)性智能。

不難看出，將世界模型和軀體標(biāo)記預(yù)裝進(jìn)機(jī)器人的“身體”無(wú)疑將打造更加類(lèi)人的具身智能。大致來(lái)說(shuō)，存在著兩條預(yù)裝路徑：編碼嵌入和人群學(xué)習(xí)。編碼嵌入路徑通過(guò)形式化語(yǔ)言，將世界模型中的人類(lèi)常識(shí)以及人類(lèi)的軀體標(biāo)記編碼為機(jī)器人可識(shí)別的符號(hào)規(guī)則，但這面臨著三重困境。首先，常識(shí)和軀體標(biāo)記難以窮盡。常識(shí)作為一種覆蓋面極廣卻邊界模糊的知識(shí)體系，涵蓋從日常經(jīng)驗(yàn)到專(zhuān)業(yè)認(rèn)知的多個(gè)層面；軀體標(biāo)記則建立在豐富的生命經(jīng)驗(yàn)和情緒記憶基礎(chǔ)之上，涉及對(duì)多種生理、心理狀態(tài)的綜合感知，異常復(fù)雜。因此，形式化編碼不可能覆蓋所有常識(shí)以及軀體標(biāo)記，這導(dǎo)致智能體存在著認(rèn)知盲區(qū)。其次，常識(shí)和軀體標(biāo)記具有時(shí)空差異性。常識(shí)并非靜態(tài)的知識(shí)系統(tǒng)，而是嵌入特定歷史、文化與社會(huì)語(yǔ)境之中的生成性知識(shí)；軀體標(biāo)記在很大程度上依賴(lài)個(gè)體生命歷程中積累的生理經(jīng)驗(yàn)。如果編碼更新滯后或成本過(guò)高，智能體將難以適應(yīng)快速變化的環(huán)境，從而引發(fā)錯(cuò)誤或低效的行為。最后，部分常識(shí)和軀體標(biāo)記無(wú)法被編碼。人類(lèi)的許多常識(shí)以意會(huì)知識(shí)的形式存在，它們雖然可以被人類(lèi)本能地理解并應(yīng)用，但難以通過(guò)符號(hào)化的方式進(jìn)行清晰的表達(dá)；軀體標(biāo)記所具有的情緒性、模糊性和情境性特征也限制了其完全被形式化表達(dá)的可能性。此外，人群學(xué)習(xí)路徑是一種基于集體經(jīng)驗(yàn)和互動(dòng)反饋來(lái)構(gòu)建世界模型和軀體標(biāo)記的預(yù)裝路徑，主要依賴(lài)于大規(guī)模的數(shù)據(jù)采集、集體行為觀察和社會(huì)互動(dòng)學(xué)習(xí)。此路徑雖然在某種程度上能夠規(guī)避編碼嵌入路徑的滯后性等局限，但仍面臨著挑戰(zhàn)：第一，學(xué)習(xí)效率低下。智能體學(xué)習(xí)豐富的人群數(shù)據(jù)需耗費(fèi)大量的時(shí)間成本，并且難以避免數(shù)據(jù)噪聲、數(shù)據(jù)偏見(jiàn)、數(shù)據(jù)錯(cuò)誤的干擾；第二，某些知識(shí)難以習(xí)得，如人類(lèi)行為背后的因果關(guān)系等。

即便上述預(yù)裝路徑所面臨的困境能夠被突破，實(shí)現(xiàn)“身體”智能仍將面臨一個(gè)相當(dāng)棘手的問(wèn)題：現(xiàn)有的編碼嵌入和人群學(xué)習(xí)路徑普遍預(yù)設(shè)可將人類(lèi)的世界模型和軀體標(biāo)記直接復(fù)制到機(jī)器人的“身體”上，然而，世界模型和軀體標(biāo)記本質(zhì)上是個(gè)體基于自身身體與環(huán)境交互而生成的認(rèn)知體系及推理機(jī)制。由于機(jī)器人“身體”與人類(lèi)身體存在著無(wú)限性與有限性、可變性與固定性等差異，在預(yù)裝過(guò)程中，世界模型和軀體標(biāo)記不能簡(jiǎn)單照搬，而應(yīng)進(jìn)行適應(yīng)性調(diào)整。機(jī)器人“身體”是可變形、可拆卸、可替換的，因而機(jī)器人的世界模型必須具備跨形態(tài)適應(yīng)能力和認(rèn)知連續(xù)性機(jī)制，其數(shù)據(jù)存儲(chǔ)和計(jì)算架構(gòu)應(yīng)趨向模塊化設(shè)計(jì)，以支持“身體”部件的靈活更換。此外，還應(yīng)構(gòu)建一種基于機(jī)器人自身動(dòng)作能力和環(huán)境適應(yīng)性的“機(jī)器軀體標(biāo)記”系統(tǒng)，以能量消耗、運(yùn)動(dòng)精度、穩(wěn)定性等參數(shù)替代人類(lèi)的諸種軀體感受和情緒反應(yīng)。

除世界模型和軀體標(biāo)記外，具身智能的“身體”預(yù)裝還應(yīng)重點(diǎn)考慮“身體”的形狀、大小、材質(zhì)及重量。這些因素的變化影響著具身智能的感知能力、運(yùn)動(dòng)能力、交互能力，從功能主義和實(shí)用主義的角度來(lái)看，這些“身體”因素應(yīng)服務(wù)于具身智能的任務(wù)需求和生存環(huán)境。在許多情況下，模仿人形并非最佳選擇。我們或許可以從大自然中獲得啟發(fā)：不同物種在進(jìn)化過(guò)程中形成了不同的形態(tài)，產(chǎn)生了不同的智能，因而具身智能不必局限于人形，應(yīng)在多樣化的形態(tài)中尋找最優(yōu)的感知和行動(dòng)方式，以實(shí)現(xiàn)更高效的智能。例如，在工業(yè)領(lǐng)域，應(yīng)優(yōu)化具身智能的剛性結(jié)構(gòu)以提升負(fù)載能力，并采用多關(guān)節(jié)機(jī)械臂形態(tài)以增強(qiáng)操作靈活性和自由度；在救援領(lǐng)域，機(jī)器人的柔性結(jié)構(gòu)與變形能力尤為關(guān)鍵，高機(jī)動(dòng)性的多足設(shè)計(jì)可提升其對(duì)復(fù)雜地形的適應(yīng)能力；在社交領(lǐng)域，可考慮為機(jī)器人設(shè)計(jì)類(lèi)人形態(tài)、擬人表情，尤其是可愛(ài)的外觀、柔和的聲音，從而加強(qiáng)人機(jī)互動(dòng)和減少用戶(hù)的恐懼感。

三、“身體”與大模型的融合

世界模型和軀體標(biāo)記的“身體”預(yù)裝賦予了具身智能一定的“身體”智能，但要想讓機(jī)器人實(shí)現(xiàn)更高層次的智能，還需聚焦于機(jī)器人“身體”與大模型的融合。與世界模型相比，大模型具備兩個(gè)方面的優(yōu)勢(shì)：一是世界模型通過(guò)模擬環(huán)境動(dòng)態(tài)來(lái)表征現(xiàn)實(shí)世界的物理規(guī)律，而大模型則具有高級(jí)語(yǔ)義推理能力和跨領(lǐng)域知識(shí)整合能力；二是世界模型擅長(zhǎng)短期狀態(tài)預(yù)測(cè)，而大模型在長(zhǎng)時(shí)序任務(wù)規(guī)劃和策略推演上更具優(yōu)勢(shì)。不過(guò)，這并非說(shuō)大模型可以完全取代世界模型或軀體標(biāo)記，如“身體”可以通過(guò)軀體標(biāo)記的方式自帶基礎(chǔ)智能，從而有效彌補(bǔ)大模型計(jì)算智能的不足。因此，要充分認(rèn)識(shí)“身體”與大模型在不同方面的互補(bǔ)性，據(jù)此提升具身智能的整體智能水平。

那么，“身體”與大模型的融合究竟意味著什么？必須明確的是，融合并非簡(jiǎn)單拼湊，而是強(qiáng)調(diào)整體性，目的是導(dǎo)向具身認(rèn)知。換言之，融合并不意味著“身體”與大模型的功能疊加，而是二者在智能架構(gòu)方面的深度協(xié)同。當(dāng)二者功能疊加時(shí)會(huì)導(dǎo)致靜態(tài)規(guī)劃與動(dòng)態(tài)執(zhí)行的割裂，這是因?yàn)榇竽Ｐ蛢H能夠提供靜態(tài)的任務(wù)規(guī)劃，而“身體”在執(zhí)行時(shí)無(wú)法靈活調(diào)整策略，導(dǎo)致智能體無(wú)法適應(yīng)環(huán)境的變化。而當(dāng)“身體”與大模型深度協(xié)同時(shí)，“身體”能夠通過(guò)世界模型預(yù)測(cè)環(huán)境的變化并即時(shí)反饋給大模型，大模型也能實(shí)時(shí)調(diào)整任務(wù)目標(biāo)。如此一來(lái)，“身體”與大模型相互依賴(lài)，形成“感知—推理—決策—執(zhí)行”的閉環(huán)系統(tǒng)，從而顯著提升具身智能在開(kāi)放環(huán)境中的任務(wù)適應(yīng)性、魯棒性及跨模態(tài)泛化能力。

羅納德·克里斯利和湯姆·齊姆克將具身性標(biāo)準(zhǔn)分為四個(gè)層次，從寬松到嚴(yán)格依次為：（1）物理實(shí)現(xiàn)（Physical Realization），具身系統(tǒng)只需依托于某種物理機(jī)制即可；（2）物理具身（Physical Embodiment），具身系統(tǒng)必須在一個(gè)連貫且整體的物理結(jié)構(gòu)中實(shí)現(xiàn)；（3）有機(jī)狀具身（Organismoid Embodiment），具身系統(tǒng)的局部物理實(shí)現(xiàn)應(yīng)當(dāng)在形態(tài)或感知—運(yùn)動(dòng)能力方面與自然生物的身體共享某些（可能是表層的）特征，但并不要求其在任何意義上是有生命的；（4）有機(jī)體具身（Organismal Embodiment），具身智能的“身體”不僅是類(lèi)生物的，還必須是有生命的、真正的生物體。照此標(biāo)準(zhǔn)，物理實(shí)現(xiàn)更多屬于一種離身智能，而物理具身僅是“身體”與大模型的簡(jiǎn)單拼湊，屬于形式上的具身智能，其并不具備具身認(rèn)知，未涉及到融合的本質(zhì)，只有實(shí)現(xiàn)有機(jī)狀具身才可稱(chēng)得上是“身體”與大模型的融合。

但是，就現(xiàn)階段而言，“身體”與大模型的融合仍面臨著諸多挑戰(zhàn)。首先，大模型依賴(lài)機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練，然而目前的機(jī)器學(xué)習(xí)方法難以直接應(yīng)用于機(jī)器人，存在泛化能力不足、適應(yīng)性欠缺、主動(dòng)探索能力薄弱、忽視長(zhǎng)時(shí)段交互的潛在影響等問(wèn)題。因此，大模型或許難以從根本上與機(jī)器人“身體”實(shí)現(xiàn)真正的深度融合。其次，在未來(lái)“身體”與大模型的融合可能不再是“一對(duì)一”的固定關(guān)系，而是“一對(duì)多”的模式：同一大模型可以適配不同的“身體”，而同一“身體”可搭載不同的大模型。這反映了一種邁向通用人工智能的趨勢(shì)，雖然這一趨勢(shì)可能帶來(lái)技術(shù)的突破，但仍需時(shí)刻對(duì)其保持警惕。從技術(shù)層面來(lái)看，這一趨勢(shì)面臨跨平臺(tái)適配與對(duì)齊問(wèn)題，不同機(jī)器人“身體”的傳感器類(lèi)型、效應(yīng)器驅(qū)動(dòng)方式等存在差異，隨意更換大模型或機(jī)器人“身體”可能導(dǎo)致控制失穩(wěn)，甚至完全失效，從而引發(fā)安全風(fēng)險(xiǎn)。從倫理層面來(lái)看，這一趨勢(shì)使?jié)撛谪?zé)任主體的數(shù)量大幅增加，一旦發(fā)生事故，將難以厘清并合理劃分事故責(zé)任。同時(shí)，“身體”與大模型之間“一對(duì)多”的關(guān)系意味著不同平臺(tái)之間需要共享數(shù)據(jù)，這極有可能造成隱私的泄露和數(shù)據(jù)的濫用，進(jìn)一步加劇倫理和法律風(fēng)險(xiǎn)。最后，“身體”與大模型具有邊界不一致性，大模型通常依賴(lài)云端計(jì)算并基于全局?jǐn)?shù)據(jù)進(jìn)行推理，而“身體”則主要是本地實(shí)體，用于感知并響應(yīng)局部環(huán)境。當(dāng)網(wǎng)絡(luò)狀況受限或計(jì)算資源不足時(shí)，這種架構(gòu)差異可能導(dǎo)致信息滯后、決策偏差，甚至增加系統(tǒng)被惡意篡改的風(fēng)險(xiǎn)，從而對(duì)具身智能的穩(wěn)定性和安全性構(gòu)成威脅。

四、AI機(jī)器人的具身賦能

經(jīng)過(guò)“身體”預(yù)裝以及“身體”與大模型的融合，具身智能有望得以實(shí)現(xiàn)。目前學(xué)界以“身體”為標(biāo)準(zhǔn)，認(rèn)為智能包含離身向度和具身向度，人類(lèi)智能便是這二者的統(tǒng)一體。那么，在具身智能中，具身向度究竟賦予了AI機(jī)器人哪些關(guān)鍵能力？綜合學(xué)界的討論，可以發(fā)現(xiàn)“身體”主要賦予了具身智能以下四大核心能力：感知能力、空間能力、交互能力和情感能力。

感知能力即具身智能通過(guò)“身體”感官獲取并理解環(huán)境信息的能力，AI機(jī)器人可通過(guò)視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、力覺(jué)等多模態(tài)傳感器主動(dòng)感知外部物理世界，并將感知信息轉(zhuǎn)化為可用于推理和決策的認(rèn)知表征?！吧眢w”可以提供直接的感知通道，通過(guò)動(dòng)作與反饋之間的循環(huán)使感知具有能動(dòng)性和動(dòng)態(tài)性，實(shí)現(xiàn)從被動(dòng)接收向主動(dòng)探測(cè)的轉(zhuǎn)變，能夠極大提升AI機(jī)器人的環(huán)境適應(yīng)性以及任務(wù)執(zhí)行精度。例如，達(dá)芬奇手術(shù)機(jī)器人依靠高精度攝像頭和力反饋系統(tǒng)，能夠輔助外科醫(yī)生完成微創(chuàng)手術(shù)，極大提高手術(shù)精度。相比之下，智身智能主要依賴(lài)大規(guī)模數(shù)據(jù)訓(xùn)練和離線(xiàn)推理，其感知方式往往是靜態(tài)的、間接的，難以完全模擬物理世界的復(fù)雜性和實(shí)時(shí)變化。

空間能力即具身智能識(shí)別物理空間、控制“身體”姿態(tài)并實(shí)現(xiàn)空間運(yùn)動(dòng)的能力，具體涵蓋路徑規(guī)劃、障礙躲避、目標(biāo)定位、物體操作等方面，這些能力使AI機(jī)器人能夠在三維空間中高效執(zhí)行任務(wù)。AI機(jī)器人的空間認(rèn)知依賴(lài)其“身體”的空間體驗(yàn)并基于此構(gòu)建空間模型，同時(shí)通過(guò)“身體”控制實(shí)現(xiàn)空間運(yùn)動(dòng)和操作。總體而言，空間能力為AI機(jī)器人自主導(dǎo)航和路徑優(yōu)化賦能，使其能夠預(yù)測(cè)空間可行性并動(dòng)態(tài)調(diào)整路徑。例如，自動(dòng)駕駛機(jī)器人使用計(jì)算機(jī)視覺(jué)、激光雷達(dá)和地圖數(shù)據(jù)，能夠預(yù)測(cè)其他車(chē)輛、行人和障礙物的運(yùn)動(dòng)軌跡并進(jìn)行規(guī)避。同時(shí)，它還能在不同城市、天氣、路況下進(jìn)行道路識(shí)別，實(shí)時(shí)調(diào)整路徑規(guī)劃，靈活適應(yīng)駕駛規(guī)則。

交互能力即具身智能通過(guò)“身體”與環(huán)境、其它智能體以及人類(lèi)進(jìn)行多模態(tài)交流的能力，涵蓋語(yǔ)言交流、“身體”姿態(tài)、觸覺(jué)反饋、環(huán)境感知以及社交行為等方面。“身體”之所以對(duì)機(jī)器人的交互能力至關(guān)重要，是因?yàn)榻换グ鞣N非語(yǔ)言因素，需要通過(guò)“身體”進(jìn)行展示和傳遞。換言之，“身體”能夠提供許多額外信息，使交互更加自然、深入。此外，交互能力對(duì)于具身智能的重要之處在于，其能夠使智能體之間、人機(jī)之間的協(xié)作更加流暢和高效。例如，軟銀Pepper機(jī)器人能夠識(shí)別他者的面部表情和語(yǔ)音情緒，并動(dòng)態(tài)調(diào)整自身語(yǔ)調(diào)和肢體語(yǔ)言，以便進(jìn)行更自然的社交互動(dòng)。在日本，Mizuho銀行使用Pepper機(jī)器人作為接待助手，為客戶(hù)導(dǎo)航和辦理業(yè)務(wù)。

情感能力即識(shí)別、表達(dá)和響應(yīng)情感的能力，它不僅源于認(rèn)知計(jì)算，還高度依賴(lài)具身體驗(yàn)。身體狀態(tài)是情感的重要影響因素，如身體疲勞時(shí)更容易感到憤怒和煩躁。此外，在情感智能中聯(lián)想能力至關(guān)重要。當(dāng)一個(gè)人感受到輕微的觸摸時(shí)，他的聯(lián)想中心便會(huì)根據(jù)經(jīng)驗(yàn)進(jìn)行推斷：如果聯(lián)想到的是伴侶在撓癢癢，便會(huì)產(chǎn)生愉悅和親密之感；如果聯(lián)想到的是蜘蛛在爬，便會(huì)產(chǎn)生恐懼或厭惡情緒。這種情感歸因的聯(lián)想過(guò)程，是人類(lèi)基于經(jīng)驗(yàn)、情境、記憶和身體感知的高度復(fù)雜的認(rèn)知活動(dòng)。然而，對(duì)于具身智能而言，如何實(shí)現(xiàn)類(lèi)似的聯(lián)想能力仍是一個(gè)重大挑戰(zhàn)。人類(lèi)的聯(lián)想方式受到文化背景、個(gè)性化經(jīng)歷、社會(huì)環(huán)境的深刻影響，但具身智能缺乏真正的個(gè)性化體驗(yàn)和長(zhǎng)期情感記憶，無(wú)法真正建立像人類(lèi)一樣的聯(lián)想記憶庫(kù)。如今，情感能力能夠提升具身智能在老年護(hù)理、心理疏導(dǎo)、兒童陪伴、人機(jī)戀愛(ài)等方面的互動(dòng)質(zhì)量和用戶(hù)體驗(yàn)，潛在的應(yīng)用價(jià)值巨大。因此，在未來(lái)應(yīng)引導(dǎo)情感智能的發(fā)展朝著健康、安全、負(fù)責(zé)任的方向推進(jìn)，從而使具身智能真正成為人類(lèi)社會(huì)的可靠助手和溫暖陪伴者。

責(zé)任編輯：龔思量

圖片編輯：張穎

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#具身智能 #身體與大模型融合