中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

辛頓、姚期智等聯(lián)名簽署“上海共識”,呼吁給AI確立行為紅線

澎湃新聞記者 喻琰
2025-07-25 20:53
來源:澎湃新聞
? 未來2% >
字號

“國際社會應(yīng)確立具體、可操作、受全球認(rèn)可的紅線,確保人工智能系統(tǒng)在任何情況下均不得逾越?!?月25日, 由杰弗里·辛頓(Geoffrey Hinton)、姚期智、本吉奧(Yoshua Bengio)、斯圖爾特·羅素(Stuart Russell)等20余位行業(yè)專家、學(xué)者共同簽署的AI安全國際對話上海共識(以下簡稱“上海共識”)正式對外公開。

參與簽署的部分中外科學(xué)家 來源:IDAIS官網(wǎng)

此次對話是“AI安全國際對話”(International Dialogues on AI Safety - IDAIS)系列的一部分”。作為本次共識發(fā)起方之一,圖靈獎得主、上海期智研究院的院長姚期智當(dāng)日表示,“我越來越相信,人類終將找到解決方案?!?/p>

聯(lián)名簽署現(xiàn)場

2024年3月,辛頓、姚期智、羅素、本吉奧等專家曾共同簽署“北京共識”,主張限制AI系統(tǒng)復(fù)制、欺騙、武器開發(fā)等行為,尤其呼吁行業(yè)為AI的研發(fā)和應(yīng)用戴上“緊箍咒”,避免相關(guān)技術(shù)被濫用,推動全球治理機(jī)構(gòu)構(gòu)建。姚期智透露,18個月前舉辦第一次安全共識會議時,AGI強(qiáng)大的破壞力就已經(jīng)顯現(xiàn),人類甚至難以闡明其失控機(jī)制,不過隨著相關(guān)會議的推進(jìn),已經(jīng)看到若干有關(guān)基于“設(shè)計的安全”(Safe by design)提案,這意味著實際上人類可以找到確保AI安全的可行路徑。

此次“上海共識”指出,當(dāng)前人類正處于一個關(guān)鍵轉(zhuǎn)折點(diǎn):人工智能系統(tǒng)正迅速接近并可能超越人類智能水平。這些未來的系統(tǒng)可能在操作者毫不知情的情況下,執(zhí)行并非操作者所期望或預(yù)測的行動。這可能導(dǎo)致失控,即一個或多個通用人工智能系統(tǒng)脫離任何人的控制,從而帶來災(zāi)難性甚至是生存層面的風(fēng)險。當(dāng)前,對于能夠在更高級的通用人工智能超越人類智能水平后,仍可靠地確保其對齊,并保持人類的有效控制尚無可行方法。

多位與會專家在參與討論時也提及,當(dāng)前構(gòu)建真正有約束力且值得信賴的國際AI安全框架難度高、風(fēng)險大。

上海人工智能實驗室主任周伯文教授指出,目前Make AI Safe(使得AI安全)最大的問題在于它是事后價值對齊、修補(bǔ)的、被動回應(yīng)的,通常是防御成本過高而攻擊成本過低。而Make Safe AI(構(gòu)建安全的AI)是主動的、在線共同演進(jìn)的,同時防御成本低,能夠在各級風(fēng)險上都保持應(yīng)變能力。

周伯文認(rèn)為,在一定程度上,訓(xùn)練一個模型變得友善和訓(xùn)練一個模型變得聰明可能是兩條不同的技術(shù)路徑。但當(dāng)性能發(fā)展到某個程度,這兩種能力可能很難分開處理——就像經(jīng)典牛頓定律可以有效解釋靜止或慢速物體的運(yùn)動,但是一旦逼近光速,這套理論就失效了。所以他認(rèn)為,下一代模型的“善”與“智”未必能完全獨(dú)立、分開發(fā)展,而是相互影響、共同進(jìn)化的。

參與簽署的專家之一,擔(dān)任約翰·霍普金斯大學(xué)人工智能對齊與治理方向杰出教授吉莉恩·哈德菲爾 (Gillian Hadfield)在接受包括澎湃科技在內(nèi)的媒體采訪時指出,必須通過設(shè)立AI“紅線”來推動Make AI Safe(使得AI安全),全世界需要跨國界合作。此外,要建立相應(yīng)的AI安全合規(guī)系統(tǒng)。

為防范與糾正此類行為的技術(shù)路徑與治理機(jī)制,“上海共識”提出應(yīng)對策略,并呼吁采取三項關(guān)鍵行動:要求前沿人工智能開發(fā)者提供安全保障、通過加強(qiáng)國際協(xié)調(diào),共同確立并恪守可驗證的全球性行為紅線、投資基于設(shè)計的安全人工智能研究。

其中,對于開發(fā)者來說,“上海共識”要求開發(fā)者在模型部署前應(yīng)先進(jìn)行全面的內(nèi)部檢查和第三方評估,提交高可信的安全案例,以及開展深入的模擬攻防與紅隊測試。若模型達(dá)到了關(guān)鍵能力閾值(比如檢測模型是否具備幫助沒有專業(yè)知識的非法分子制造生化武器的能力),開發(fā)者應(yīng)向政府(在適當(dāng)時亦可向公眾)說明潛在風(fēng)險。

此外,呼吁國際社會需要合作劃出人工智能開發(fā)不可以逾越的紅線(即“高壓線”),這些紅線應(yīng)聚焦于人工智能系統(tǒng)的行為表現(xiàn),其劃定需同時考量系統(tǒng)執(zhí)行特定行為的能力及其采取該行為的傾向性。為落實這些紅線,各國應(yīng)建立一個具備技術(shù)能力、具有國際包容性的協(xié)調(diào)機(jī)構(gòu),匯聚各國人工智能安全主管機(jī)構(gòu),以共享風(fēng)險相關(guān)信息,并推動評估規(guī)程與驗證方法的標(biāo)準(zhǔn)化。

“上海共識”指出,短期內(nèi)亟須建立可擴(kuò)展的監(jiān)管機(jī)制以應(yīng)對人工智能的欺騙問題、提升模型對“越獄”等攻擊手段的抵御能力、強(qiáng)化信息安保投入等,而長期則需要一個“基于設(shè)計的安全”的架構(gòu),而非問題出現(xiàn)后才被動應(yīng)對。

    責(zé)任編輯:宦艷紅
    圖片編輯:蔣立冬
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋