中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

復(fù)雜決策|ABM+機器學(xué)習(xí):如何理解終局之戰(zhàn)?

唐世平/復(fù)旦大學(xué)復(fù)雜決策分析中心主任
2024-09-15 05:30
來源:澎湃新聞
? 澎湃研究所 >
字號

現(xiàn)實世界中的諸多場景,從古代的田忌賽馬到現(xiàn)代的核威懾、越南戰(zhàn)爭及俄烏沖突,都可以認為是典型的博弈場景。在馮·諾伊曼和奧斯卡·摩根斯特恩的《博弈論與經(jīng)濟行為》奠定其理論研究基礎(chǔ)之后,博弈論作為一個重要的分析工具,在眾多學(xué)科和領(lǐng)域中都得到了廣泛的應(yīng)用。

不過,即便在“玩”博弈模型的專業(yè)人士看來,目前絕大部分的博弈論模型都只是具有啟發(fā)作用的“玩具”。這其中核心的原因是博弈論通常研究的都是高度簡化了的“常規(guī)博弈”問題,而真實世界里的博弈情形卻是非常復(fù)雜的。

“常規(guī)博弈”場景所描繪的是相對簡單、規(guī)則明確的場景,通常包含2到3個行為體,在享有“共同知識”(common knowledge)的情景下進行博弈。從各種棋類游戲(象棋、圍棋),到“囚徒困境”等等,都是規(guī)則確定的常規(guī)博弈。對于這類博弈問題,我們通常的做法是去求它們數(shù)學(xué)上的均衡解,從而幫助我們理解這些問題。在均衡解下,每個行為體的行為都是最優(yōu)策略,即任何一方都不可能通過單方面改變策略而獲得更好的結(jié)果。

但是,一旦博弈場景變得非常復(fù)雜,特別是博弈規(guī)則不太明確時,“常規(guī)博弈”的求解就會十分復(fù)雜——沒有均衡解或者有太多的均衡解,因而難以理解。

以田忌賽馬的故事為例。如果田忌和齊威王各自有15匹馬,可以任意組合,但不能重復(fù)使用。比賽分為五輪,而且每一輪之后雙方都可以根據(jù)上一輪的結(jié)果來調(diào)整策略,則該博弈的復(fù)雜度將呈指數(shù)級增長。但這也僅僅是一個稍顯復(fù)雜的博弈問題,而且是有雙方均接受的明確規(guī)則作為“共同知識”的博弈問題。

何謂“非常規(guī)復(fù)雜戰(zhàn)略博弈”?

現(xiàn)實國際政治中的博弈場景,遠遠比傳統(tǒng)博弈復(fù)雜得多。絕大多數(shù)時候,這些博弈不僅涉及多個行為體、多種行為和行為規(guī)則,行為交互作用規(guī)則也呈多樣話(比如,不一定是你來我往),甚至由于行為體需要考慮多個方面的得失,因此權(quán)衡得失也非常困難。

最為重要的是,這類博弈問題通常還缺乏“共同知識”。也就是說,博弈的規(guī)則是不確定的,至少是不完整的。我們知道,任何棋類都是規(guī)則非常明確而且雙方必須遵守的。這些非常明確且雙方必須遵守的規(guī)則就是這類博弈問題中的核心的“共同知識”,也是這類博弈得以進行的核心基礎(chǔ)。

相比之下,國際關(guān)系博弈往往不那么明確,不論過去朝鮮戰(zhàn)爭的停戰(zhàn)談判、越南戰(zhàn)爭的日內(nèi)瓦談判,還是眼下俄烏戰(zhàn)爭可能的和談,都是多方多輪的博弈。參與各方均有“陰謀”與“陽謀”,而且手段大概率是“灰色”的(例如爾虞我詐、盟友背后捅刀等等),甚至談判參與方也會發(fā)生變化。各方都試圖“出奇制勝”,甚至可以說毫無規(guī)則可言,導(dǎo)致博弈更具不確定性。

顯然,國際政治的博弈場景和博弈論通常討論的博弈情形和模型有著天壤之別。這樣的博弈問題幾乎不可能有一個完整的數(shù)學(xué)刻畫,因而也不可能有數(shù)學(xué)均衡解。我們將這類博弈稱為“非常規(guī)復(fù)雜戰(zhàn)略博弈”。而戰(zhàn)爭是最為復(fù)雜的非常規(guī)博弈問題,《孫子兵法》所謂“兵者,詭道也”恰恰道出了非常規(guī)博弈的核心原則。

需要特別指出的是,非常規(guī)博弈與受同一行為體(或者指揮官)指揮的個體或者智能體(如無人機)之間的“協(xié)同”也是非常不同的。

總之,傳統(tǒng)博弈論是無法有效解決“非常規(guī)復(fù)雜戰(zhàn)略博弈”問題的。面對“非常規(guī)復(fù)雜戰(zhàn)略博弈”問題,我們亟需超越傳統(tǒng)博弈論的框架,探索新的理論工具與分析方法。

ABM+機器學(xué)習(xí):非常規(guī)復(fù)雜博弈的解決方案

我們認為,要處理“非常規(guī)復(fù)雜戰(zhàn)略博弈”問題,以基于行為體的建模(Agent-Based Modelling,ABM)系統(tǒng)為核心,再結(jié)合強化學(xué)習(xí)以及其他的機器學(xué)習(xí)技術(shù),可能是一種可行的解決方案。

ABM模型擅長模擬多個行為體之間復(fù)雜的互動導(dǎo)致的涌現(xiàn)性結(jié)果,而強化學(xué)習(xí)則為ABM中的行為體提供了更加有效的自我學(xué)習(xí)的基礎(chǔ),因而有助于我們更好地理解和預(yù)測博弈的可能結(jié)果。

事實上,ABM從一開始就受到了博弈論和演化思想的影響。馮·諾伊曼不僅是博弈論的奠基人之一,還發(fā)展了第一個ABM系統(tǒng)的雛形——“通用構(gòu)造器”(Universal Constructor)或“元胞自動機”(Cellular Automata)。

世界上第一個社會科學(xué)領(lǐng)域的ABM系統(tǒng),是1971年托馬斯·謝林關(guān)于種族隔離的著名研究。而謝林本人因為對非合作博弈論的貢獻,于2005年與羅伯特·奧曼一起獲得諾貝爾經(jīng)濟學(xué)獎?;谝粋€簡單的ABM模型,謝林發(fā)現(xiàn),在一個有多個行為體(住戶)的社區(qū)中,盡管各自的行為相對簡單,且每個行為體都不是“種族主義者”,但種族隔離現(xiàn)象仍然會產(chǎn)生。這樣的涌現(xiàn)性結(jié)果顯然是常規(guī)博弈模型無法呈現(xiàn)的。

受此啟發(fā),我們認為可行的研究路徑是:可以秉承某些常規(guī)博弈論的思想,為非常規(guī)復(fù)雜戰(zhàn)略博弈進行建模,然后主要依賴ABM來探索其可能的結(jié)果,即通過多次(大于100次,甚至更多)模擬,基于不同的參數(shù)甚至方程系統(tǒng),模擬不同行為、行為規(guī)則、互動規(guī)則的多種組合下的復(fù)雜博弈結(jié)果,來獲得不同博弈結(jié)果及中間狀態(tài)的概率分布,從而加深對博弈系統(tǒng)的理解。

與絕大多數(shù)其他社會科學(xué)方法或技術(shù)相比,ABM具有極高的靈活性。在構(gòu)建ABM時,研究者一般會對行為體、行為、行為規(guī)則、互動規(guī)則、系統(tǒng)環(huán)境等先做設(shè)定,而且這些設(shè)定通常都不是固定數(shù)值,而是某個區(qū)間。在經(jīng)過多輪模擬之后,我們可以通過更改這些設(shè)定來創(chuàng)建數(shù)量巨大的相鄰模型,然后基于驗證(validation)和校準(zhǔn)(calibration),ABM可以靠修改方程和參數(shù)調(diào)參來迅速篩選出更符合實際世界的模型。

針對非常規(guī)復(fù)雜戰(zhàn)略博弈的ABM建模思路大致如下:我們首先需要基于相應(yīng)的歷史或現(xiàn)實案例,從中抽象、提煉出行為體特征、環(huán)境特征和其他初始設(shè)定;其次結(jié)合專家知識,大致明確行為矩陣;然后是讓系統(tǒng)在各種行為規(guī)則、互動規(guī)則的制約下不斷運行,系統(tǒng)狀態(tài)也會隨之不斷更新;通過多次模擬和不斷驗證和校準(zhǔn),最終獲得可靠的不同博弈結(jié)果及中間狀態(tài)的概率分布。有了這樣的結(jié)果,我們便能倒推在特定博弈場景中,博弈各方的行為策略和特定的行為。

構(gòu)建ABM基礎(chǔ)系統(tǒng)之后,我們還可以納入“部分可觀測馬爾可夫決策過程(POMDP)”來刻畫行為體與環(huán)境(包括系統(tǒng)中其他所有的行為體)的交互關(guān)系,并用強化學(xué)習(xí)技術(shù)來評估行為體策略價值,擬合優(yōu)化行為體決策偏好。

部分可觀測馬爾可夫決策過程是一類復(fù)雜的決策模型,往往用于在不確定性情境中生成決策。其主要組成要素包括:環(huán)境狀態(tài)、行為體的行為空間、 狀態(tài)轉(zhuǎn)移概率、行為獎勵、觀測空間、獎勵的衰減系數(shù)等。

強化學(xué)習(xí)是使行為體通過與環(huán)境的互動來學(xué)習(xí)最佳策略的方法。與其他機器學(xué)習(xí)技術(shù)不同,強化學(xué)習(xí)特別關(guān)注不確定和動態(tài)環(huán)境下的決策,所以特別適用于探索模擬博弈場景中的策略。其基本邏輯是:在每個時間點中,行為體接收到當(dāng)前的狀態(tài)St和獎勵Rt;行為體從可做出的行為列表中,根據(jù)策略函數(shù)選擇出行為At,接著發(fā)送給環(huán)境模型;然后環(huán)境模型根據(jù)接收的行為通過轉(zhuǎn)移函數(shù)轉(zhuǎn)移到下一狀態(tài)St+1和獎勵Rt+1,以此循環(huán)往復(fù)。

強化學(xué)習(xí)的目的是讓行為體學(xué)習(xí)并找到最優(yōu)或接近最優(yōu)的行為策略方法,以此最大化獎勵收益。強化學(xué)習(xí)的演化性和動態(tài)性使我們能夠探索行為體在復(fù)雜博弈場景中的決策及策略偏好變化,并為ABM的驗證與校準(zhǔn)提供支持。這種結(jié)合將幫助我們更好地把握系統(tǒng)的不同狀態(tài)及其概率分布。

值得一提的是,非常規(guī)復(fù)雜戰(zhàn)略博弈幾乎不可能存有大量數(shù)據(jù),因此,高度依賴大規(guī)模數(shù)據(jù)的機器學(xué)習(xí)的做法并不適用。針對這類博弈問題,我們需要的不是“大數(shù)據(jù)”而是“全數(shù)據(jù)”計算的思路,即基于問題來思考數(shù)據(jù)和技術(shù)路徑的思路。

總之,對于多個國家之間戰(zhàn)略層面的多回合博弈,常規(guī)博弈論的數(shù)學(xué)求解方法已經(jīng)顯得力不從心。因此,針對這樣的復(fù)雜場景,我們只能發(fā)展基于博弈論核心思想的大規(guī)模高性能ABM系統(tǒng),來捕捉復(fù)雜博弈所導(dǎo)致的各種復(fù)雜狀態(tài)及其概率分布,并進一步反推不同行為體的行為、行為規(guī)則等等,從而實現(xiàn)對非常規(guī)復(fù)雜戰(zhàn)略博弈的更全面的理解與應(yīng)對。

總結(jié)

國家在國際大環(huán)境下面對的博弈基本都是多方多輪的非常規(guī)復(fù)雜戰(zhàn)略博弈問題。要更好地應(yīng)對這些博弈問題,我們需要突破傳統(tǒng)的博弈建模方法,特別是突破“共同知識”對傳統(tǒng)博弈建模的禁錮,從而構(gòu)建非常規(guī)復(fù)雜戰(zhàn)略博弈的模型,并運用大規(guī)模高性能的ABM來推演這類非常規(guī)復(fù)雜戰(zhàn)略博弈問題。這樣才能夠最終實現(xiàn)讓博弈建模從理論模型(“玩具”)到真實場景應(yīng)用的決定性轉(zhuǎn)變。

-----

唐世平,系復(fù)旦大學(xué)教授、復(fù)雜決策分析中心主任。

    責(zé)任編輯:單雪菱
    校對:姚易琪
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋