中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

AI打麻將出道!AI“絕藝”成新一代雀神

2023-07-14 18:07
來源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

麻將起源于中國(guó),是國(guó)粹。雖然各地的麻將玩法各不相同,比如云貴川地區(qū)的缺一門打法;廣東麻將流行“雞平和”和“推倒胡”,東北麻將則一門都不能缺......但無論什么玩法都飽受大眾喜愛。

要論一個(gè)地道的四川人對(duì)麻將的喜愛,不能說有癮,畢竟“競(jìng)技場(chǎng)上的事情,怎能說是癮呢?”

逢年過節(jié)不是在牌桌子上,就是在去打牌的路上。

上學(xué)“多動(dòng)癥”,打牌“坐如鐘”,坐個(gè)通宵都是灑灑水。

“我真的不知道為什么打麻將會(huì)有癮,我天天打,也不見得有癮啊”

“人生最大憾事不過三缺一”

(無非就是以上所描述的此類程度罷了)

在四川要是有人罵你“你打麻將永遠(yuǎn)三缺一”,大家都會(huì)覺得這人罵的是真毒?。?/p>

但是,你或許不知道AI也能打麻將,要是人人都能和AI在牌桌子上一決高下,不僅“三缺一”魔咒不復(fù)存在,社恐麻將愛好者也或許能迎來福音,“我社恐,一缺三,來三個(gè)AI”(這不是幻想)。

鵝廠AI“絕藝”成新一代雀神

7月11日,騰訊最新消息,旗下棋牌類AI“絕藝”LuckyJ在知名日本麻將平臺(tái)“天鳳”上,刷新AI在麻將領(lǐng)域最好成績(jī)(達(dá)穩(wěn)定段位10.68段)

10.68段是什么概念?天鳳則按照1段—11段來進(jìn)行排位,利用科學(xué)的段位和 Elo Rating 體系,根據(jù)參與的局?jǐn)?shù)和不斷累積的積分,來判定段位。(越是和高水平牌手對(duì)局,獲勝后 Rate 增加越多,失敗后 Rate 減少越少: 越是和低水平牌手對(duì)局,獲勝后 Rate 增加越少,失敗后 Rate 減少越多。)最終段位和 Rate 值的穩(wěn)定值就代表了牌手的真實(shí)實(shí)力。

目前,在平臺(tái)上,7段以上3037人,約占百分之一,而能達(dá)到 10 段的只有 27 人(含AI),只占不到萬分之一。

(天鳳穩(wěn)定段位bootstrap的分布,絕藝LuckyJ顯著強(qiáng)于之前最強(qiáng)的兩個(gè)日本麻將AI(Suphx,NAGA)LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05)

絕藝LuckyJ不僅達(dá)到日本麻將天鳳十段,而且之前還在國(guó)標(biāo)麻將線下邀請(qǐng)賽中戰(zhàn)勝了6位國(guó)標(biāo)麻將職業(yè)選手。成為首個(gè)戰(zhàn)勝國(guó)標(biāo)麻將頂尖職業(yè)選手的麻將AI。

騰訊AI進(jìn)軍麻將

棋牌游戲AI其實(shí)早已經(jīng)不是什么新鮮事了,繼象棋,跳棋,圍棋之后,AI麻將又一次進(jìn)入大眾視野,但其實(shí)AI麻將早在2015年就有發(fā)跡。

2015年,東京大學(xué)開發(fā)的“爆打”,9 月,爆打達(dá)到天鳳麻雀“四段,12 月一度沖進(jìn)天鳳七段,穩(wěn)定段位均6段左右。

2018年,Dwango 公司于開發(fā)的基于深度學(xué)習(xí)模型的“NAGA25”,天鳳穩(wěn)定段位均6.5左右。

2019年,微軟開發(fā)的Suphx于3月登陸天鳳,短短幾個(gè)月內(nèi),Suphx在該平臺(tái)上與人類選手展開了5000余場(chǎng)四人麻將對(duì)局,達(dá)到了十段,超越了99%人類玩家,這是世界上第一個(gè)達(dá)到天鳳10段水平的人工智能。

至于騰訊的AI“絕藝”,它的開發(fā)始于2016年,最早是從圍棋起步。那么問題來了,為什么這么長(zhǎng)時(shí)間,騰訊AI才進(jìn)軍麻將?

一個(gè)字——難。

首先,麻將是一個(gè)“不完美信息博弈”,共有 136 張牌,除了對(duì)手打出來的牌之外,對(duì)手的手牌、游戲的底牌、以及對(duì)手的牌型組合都是未知的,而圍棋、象棋雙方在每一次決策前后都能看到全局信息,是“完美信息博弈”。

其次,對(duì)戰(zhàn)過程中也涉及了大量的決策,麻將的隨機(jī)性很高,發(fā)牌的結(jié)果、玩家行為都是隨機(jī)的,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌,任意一位玩家的吃碰杠都會(huì)改變摸牌的順序。

此外,麻將的牌型非常多,同時(shí)每個(gè)牌型還有不同的組合方式,還有許多復(fù)雜的規(guī)則和策略,需要建立一個(gè)大規(guī)模的知識(shí)庫。棋牌游戲一直以來都是 AI 技術(shù)的優(yōu)質(zhì)試驗(yàn)場(chǎng),而“非完美信息” 游戲存在著大量的隱藏信息,給游戲帶來了更高的不確定性,對(duì) AI 的博弈能力提出更高要求,所以麻將AI需要更強(qiáng)大的決策能力。

更大規(guī)模的“非完美信息博弈”

麻將相較于圍棋、象棋、橋牌以及德州撲克來說是一類更大規(guī)模的非完美信息博弈問題。對(duì)AI來說具有更大的挑戰(zhàn)性,如果說圍棋的可觀測(cè)狀態(tài)信息是10的172次方,隱藏的不確定信息為0,那么,麻將的可觀測(cè)狀態(tài)信息則是10的121次方,隱藏的不確定信息(信息集的平均數(shù))則為10的48次方。

鑒于傳統(tǒng)的強(qiáng)化學(xué)習(xí)針對(duì)非完美信息游戲沒有收斂到最強(qiáng)策略的理論保證,而有理論保證的遺憾值最小化算法(表格型)計(jì)算復(fù)雜度太高。騰訊 AI Lab 的研究員提出了一種新型的策略優(yōu)化算法—ACH(actor critic hedge)采用了基于強(qiáng)化學(xué)習(xí)和遺憾值最小化的自我博弈技術(shù),使得AI能從零開始自我學(xué)習(xí)和提高,最終收斂到一個(gè)最強(qiáng)的混合策略。同時(shí)基于“樂觀價(jià)值估計(jì)的思想”,提出了一種高效的“非完美搜索方法”,使深度強(qiáng)化學(xué)習(xí)結(jié)合非完美信息搜索成為可能。

騰訊稱,訓(xùn)練麻將 AI,其實(shí)就是在訓(xùn)練 AI 更好地去認(rèn)識(shí)人類的世界。 最終讓 AI 解決真實(shí)世界的復(fù)雜問題。

鵝廠絕藝LuckyJ達(dá)日本麻將天鳳十段,還戰(zhàn)勝了國(guó)標(biāo)麻將職業(yè)選手,是目前最強(qiáng)的麻將AI。到這里,不可否認(rèn)AI已經(jīng)在麻將領(lǐng)域戰(zhàn)勝了人類,但還是有不少網(wǎng)友不買賬,

不一定,AI不會(huì)沒事去杠開,更不會(huì)沒事七對(duì)子。我們玩的不是牌,是信仰

AI讀不懂兩口子使眼色的牌和女婿急著輸給丈母娘的心

如果人類牌手作弊,麻將 AI 則無法戰(zhàn)勝人類。

游戲作為生成式 AI 首要試驗(yàn)田,這些或許還只是開端,想要讓AI在牌桌子上讀懂人類選手的心思,還有很長(zhǎng)的路要走,但要是真和AI一起打麻將,輸贏可能就不再是人類牌手的執(zhí)念了(除非你是發(fā)哥)畢竟我們玩的真不是牌,是信仰。

但值得思考的是,圍棋、麻將之后,下一個(gè)會(huì)是誰?

原標(biāo)題:《AI打麻將出道!鵝廠AI“絕藝”成新一代雀神》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋