辛頓、姚期智等聯(lián)名簽署“上海共識”，呼吁給AI確立行為紅線

澎湃新聞記者喻琰

2025-07-25 20:53

來源：澎湃新聞

“國際社會應(yīng)確立具體、可操作、受全球認(rèn)可的紅線，確保人工智能系統(tǒng)在任何情況下均不得逾越?！?月25日，由杰弗里·辛頓（Geoffrey Hinton）、姚期智、本吉奧（Yoshua Bengio）、斯圖爾特·羅素（Stuart Russell）等20余位行業(yè)專家、學(xué)者共同簽署的AI安全國際對話上海共識（以下簡稱“上海共識”）正式對外公開。

參與簽署的部分中外科學(xué)家來源：IDAIS官網(wǎng)

此次對話是“AI安全國際對話”（International Dialogues on AI Safety - IDAIS）系列的一部分”。作為本次共識發(fā)起方之一，圖靈獎得主、上海期智研究院的院長姚期智當(dāng)日表示，“我越來越相信，人類終將找到解決方案?！?/p>

聯(lián)名簽署現(xiàn)場

2024年3月，辛頓、姚期智、羅素、本吉奧等專家曾共同簽署“北京共識”，主張限制AI系統(tǒng)復(fù)制、欺騙、武器開發(fā)等行為，尤其呼吁行業(yè)為AI的研發(fā)和應(yīng)用戴上“緊箍咒”，避免相關(guān)技術(shù)被濫用，推動全球治理機(jī)構(gòu)構(gòu)建。姚期智透露，18個月前舉辦第一次安全共識會議時，AGI強(qiáng)大的破壞力就已經(jīng)顯現(xiàn)，人類甚至難以闡明其失控機(jī)制，不過隨著相關(guān)會議的推進(jìn)，已經(jīng)看到若干有關(guān)基于“設(shè)計的安全”（Safe by design）提案，這意味著實際上人類可以找到確保AI安全的可行路徑。

此次“上海共識”指出，當(dāng)前人類正處于一個關(guān)鍵轉(zhuǎn)折點(diǎn)：人工智能系統(tǒng)正迅速接近并可能超越人類智能水平。這些未來的系統(tǒng)可能在操作者毫不知情的情況下，執(zhí)行并非操作者所期望或預(yù)測的行動。這可能導(dǎo)致失控，即一個或多個通用人工智能系統(tǒng)脫離任何人的控制，從而帶來災(zāi)難性甚至是生存層面的風(fēng)險。當(dāng)前，對于能夠在更高級的通用人工智能超越人類智能水平后，仍可靠地確保其對齊，并保持人類的有效控制尚無可行方法。

多位與會專家在參與討論時也提及，當(dāng)前構(gòu)建真正有約束力且值得信賴的國際AI安全框架難度高、風(fēng)險大。

上海人工智能實驗室主任周伯文教授指出，目前Make AI Safe（使得AI安全）最大的問題在于它是事后價值對齊、修補(bǔ)的、被動回應(yīng)的，通常是防御成本過高而攻擊成本過低。而Make Safe AI（構(gòu)建安全的AI）是主動的、在線共同演進(jìn)的，同時防御成本低，能夠在各級風(fēng)險上都保持應(yīng)變能力。

周伯文認(rèn)為，在一定程度上，訓(xùn)練一個模型變得友善和訓(xùn)練一個模型變得聰明可能是兩條不同的技術(shù)路徑。但當(dāng)性能發(fā)展到某個程度，這兩種能力可能很難分開處理——就像經(jīng)典牛頓定律可以有效解釋靜止或慢速物體的運(yùn)動，但是一旦逼近光速，這套理論就失效了。所以他認(rèn)為，下一代模型的“善”與“智”未必能完全獨(dú)立、分開發(fā)展，而是相互影響、共同進(jìn)化的。

參與簽署的專家之一，擔(dān)任約翰·霍普金斯大學(xué)人工智能對齊與治理方向杰出教授吉莉恩·哈德菲爾（Gillian Hadfield）在接受包括澎湃科技在內(nèi)的媒體采訪時指出，必須通過設(shè)立AI“紅線”來推動Make AI Safe（使得AI安全），全世界需要跨國界合作。此外，要建立相應(yīng)的AI安全合規(guī)系統(tǒng)。

為防范與糾正此類行為的技術(shù)路徑與治理機(jī)制，“上海共識”提出應(yīng)對策略，并呼吁采取三項關(guān)鍵行動：要求前沿人工智能開發(fā)者提供安全保障、通過加強(qiáng)國際協(xié)調(diào)，共同確立并恪守可驗證的全球性行為紅線、投資基于設(shè)計的安全人工智能研究。

其中，對于開發(fā)者來說，“上海共識”要求開發(fā)者在模型部署前應(yīng)先進(jìn)行全面的內(nèi)部檢查和第三方評估，提交高可信的安全案例，以及開展深入的模擬攻防與紅隊測試。若模型達(dá)到了關(guān)鍵能力閾值（比如檢測模型是否具備幫助沒有專業(yè)知識的非法分子制造生化武器的能力），開發(fā)者應(yīng)向政府（在適當(dāng)時亦可向公眾）說明潛在風(fēng)險。

此外，呼吁國際社會需要合作劃出人工智能開發(fā)不可以逾越的紅線（即“高壓線”），這些紅線應(yīng)聚焦于人工智能系統(tǒng)的行為表現(xiàn)，其劃定需同時考量系統(tǒng)執(zhí)行特定行為的能力及其采取該行為的傾向性。為落實這些紅線，各國應(yīng)建立一個具備技術(shù)能力、具有國際包容性的協(xié)調(diào)機(jī)構(gòu)，匯聚各國人工智能安全主管機(jī)構(gòu)，以共享風(fēng)險相關(guān)信息，并推動評估規(guī)程與驗證方法的標(biāo)準(zhǔn)化。

“上海共識”指出，短期內(nèi)亟須建立可擴(kuò)展的監(jiān)管機(jī)制以應(yīng)對人工智能的欺騙問題、提升模型對“越獄”等攻擊手段的抵御能力、強(qiáng)化信息安保投入等，而長期則需要一個“基于設(shè)計的安全”的架構(gòu)，而非問題出現(xiàn)后才被動應(yīng)對。

責(zé)任編輯：宦艷紅

圖片編輯：蔣立冬

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#AI安全 #辛頓