- +1
調(diào)戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什么?
夢(mèng)晨 蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
聽(tīng)說(shuō)微軟搞了個(gè)AI翻譯文言文?
趕緊來(lái)試試,先來(lái)一段《曹劌論戰(zhàn)》的開(kāi)頭:

我震驚了,居然能把“我”翻譯成“魯國(guó)”,“公”翻譯成“魯莊公”。
難道AI除了學(xué)習(xí)文言文詞匯和語(yǔ)法,還熟讀了《左傳》?
換成詩(shī)表現(xiàn)又將如何?

雖然翻譯出來(lái)不是很有文學(xué)性,但AI正確理解到了“望著同一個(gè)月亮”這層意思。
嚯,這個(gè)翻譯極大地引起了我的興趣。
如果百度和微軟一起上考場(chǎng)
既然翻譯出正確詞意不是太難,那文言文中的特殊語(yǔ)法AI能否掌握?
為了更好地評(píng)估微軟翻譯的能力,這里請(qǐng)出老牌選手百度翻譯,讓它們比試一下。
第一題:秦時(shí)明月漢時(shí)關(guān)
這里考點(diǎn)是互文的修辭方法,應(yīng)該理解成秦漢時(shí)期的明月、秦漢時(shí)期的關(guān)口。
百度的答案是:

看來(lái)百度沒(méi)理解到位,再看看微軟的答案:

微軟正確理解了互文,率先拿下1分。
第二題:春風(fēng)又綠江南岸
這句的考點(diǎn)是詞類活用,綠本來(lái)是個(gè)形容詞,在這里用作動(dòng)詞。
還是百度先來(lái):

沒(méi)問(wèn)題,接下來(lái)是微軟:

等一下,雖然綠用作動(dòng)詞翻譯對(duì)了,可是后面怎么多了一個(gè)“可是”?
難道……把后半句詩(shī)也輸進(jìn)去試試:

果然如此,看來(lái)微軟翻譯在用整句進(jìn)行訓(xùn)練的時(shí)候掌握了句與句之間的轉(zhuǎn)折關(guān)系,后來(lái)不知怎么又算到前半句里了。

這次百度扳回一局,1:1平。
最后一題考驗(yàn)一下文言文中的另一個(gè)常見(jiàn)語(yǔ)法現(xiàn)象——倒裝
比如《鄒忌諷齊王納諫》中的“我孰與城北徐公美?”
按慣例百度先:

然后是微軟:

看來(lái)兩個(gè)AI都學(xué)會(huì)了倒裝句的用法,最終結(jié)果2:2平,各有千秋。
微軟翻譯雖然多學(xué)會(huì)了一個(gè)互文,但畢竟還是年輕選手,對(duì)句子之間關(guān)系的處理需要再練習(xí)。
接下來(lái)挑戰(zhàn)一下微軟文言文翻譯的極限。
比如維基百科其實(shí)就有個(gè)文言文版叫維基大典,里面剛好有微軟的詞條。

來(lái)試試讓微軟AI翻譯一下自己公司的介紹:

看起來(lái)現(xiàn)代的偽文言文對(duì)于這個(gè)剛出生的小AI來(lái)說(shuō)還是太苛刻了。
雖然也特別訓(xùn)練了“微軟”和“電腦”這種現(xiàn)代才出現(xiàn)的名詞,但遇到“一九七五年”這種古代不用的表達(dá)就不行了,前老板比爾蓋茨的名字也沒(méi)認(rèn)出來(lái)。
“立之者”這里還按古文的語(yǔ)境腦補(bǔ)出一個(gè)“國(guó)君”,可能這就是過(guò)擬合吧。
說(shuō)到現(xiàn)代的表達(dá)方式,其實(shí)這個(gè)翻譯工具還可以倒過(guò)來(lái)用,把白話文譯成文言文。
比如諸葛丞相那句“我從未見(jiàn)過(guò)有如此厚顏無(wú)恥之人!”要是用文言文說(shuō)出來(lái)是不是就更對(duì)味了?

那么,這樣的模型是怎么“煉成”的呢?
Transformer加成,專攻訓(xùn)練數(shù)據(jù)
用AI搞文言文翻譯,確實(shí)不是頭一回見(jiàn)。
百度是最早用機(jī)器學(xué)習(xí)做文言文翻譯的,還申請(qǐng)過(guò)相關(guān)專利:「一種在白話文與文言文之間進(jìn)行文體轉(zhuǎn)換的方法和設(shè)備」。
相關(guān)文言文翻譯的模型也不少,從機(jī)器學(xué)習(xí)、RNN到Transformer都有,像微軟這次采用的,就是Transformer模型:

△圖源:微軟研究院AI頭條
不過(guò),文言文翻譯中的訓(xùn)練數(shù)據(jù),卻一直是個(gè)難點(diǎn)。
相比于其他主流語(yǔ)言(中文現(xiàn)代文、英文等),文言文可以說(shuō)是訓(xùn)練數(shù)據(jù)極少,同時(shí)還存在句式變換、繁簡(jiǎn)混合等問(wèn)題,造成翻譯的生硬。
這次微軟的文言文翻譯,主要就解決了四個(gè)方面的數(shù)據(jù)問(wèn)題:
其一,針對(duì)數(shù)據(jù)量不足,利用相同字詞進(jìn)行數(shù)據(jù)合成和增強(qiáng)。文言文和現(xiàn)代文有一些相同含義的字詞,如果對(duì)這些詞語(yǔ)進(jìn)行召回、對(duì)齊,再擴(kuò)展到短詞短句,就能合成大量可用的訓(xùn)練數(shù)據(jù)。
其二,針對(duì)句式變換不靈活,對(duì)數(shù)據(jù)格式進(jìn)行變形,提升魯棒性。文言文斷句和現(xiàn)代文不太一樣,為此研究人員通過(guò)數(shù)據(jù)格式變形,來(lái)擴(kuò)大訓(xùn)練數(shù)據(jù)量,讓模型也學(xué)會(huì)翻譯類似語(yǔ)句。
其三,針對(duì)字體識(shí)別不力,用簡(jiǎn)繁混合數(shù)據(jù)訓(xùn)練,提升模型識(shí)別能力。為了讓機(jī)器學(xué)習(xí)能同時(shí)識(shí)別簡(jiǎn)繁混合的文言文,研究人員在訓(xùn)練模型時(shí)會(huì)將簡(jiǎn)體中文和繁體中文數(shù)據(jù)混合在一起進(jìn)行訓(xùn)練,確保翻譯模型不出錯(cuò)。
其四,針對(duì)現(xiàn)代文的“新詞”,專門建立相關(guān)數(shù)據(jù)集和識(shí)別模型,確保不“亂翻譯”。為了避免模型在遇到現(xiàn)代文中的“高鐵、電腦、互聯(lián)網(wǎng)”這種詞時(shí)出現(xiàn)混亂(例如將高鐵翻譯成高處的鐵塊),研究人員建了一個(gè)模型,專門用來(lái)識(shí)別這些新詞。除了新詞,也針對(duì)博客、論壇、微博等新文體進(jìn)行訓(xùn)練。

然而這都還只是文言文和中文之間的互譯,整點(diǎn)英文試試?
英譯中,bug藏不住了
這次微軟的文言文翻譯是直接整合到了Bing翻譯里,難道還可以把文言文翻譯成外語(yǔ)?
先挑戰(zhàn)一下單個(gè)的英文句子:
Never gonna give you up


看來(lái)簡(jiǎn)單句沒(méi)有難倒AI,我們提升一下難度,用一首比較著名的英文詩(shī)「當(dāng)你老了」試試:

等等,“灰暗”、“陰景深”、“彎下腰在酒邊”……這都是什么鬼?
簡(jiǎn)單的句子似乎還好,然而一到長(zhǎng)句子,怎么就翻譯成這樣了?
不過(guò),微軟也說(shuō)過(guò),這次主要實(shí)現(xiàn)的是文言文和現(xiàn)代文互譯,說(shuō)明其他語(yǔ)言在翻譯成文言文之前,應(yīng)該也需要先翻譯成現(xiàn)代文。
那來(lái)看看微軟的英譯中效果怎么樣:

破案了,微軟的英譯中確實(shí)不太行……可能也是導(dǎo)致英文翻譯成文言文出現(xiàn)失誤的原因。
相比之下,從文言文翻譯現(xiàn)代文、再翻譯到中文的效果要稍微好一點(diǎn)。

順帶一提,雖然正經(jīng)的英文字句翻譯得不太行,不過(guò)在這種字詞的翻譯上……竟然還有點(diǎn)文藝?

看來(lái)以后可以和翻譯模型學(xué)習(xí)如何優(yōu)雅地罵人了。(手動(dòng)狗頭)
如果大家還調(diào)戲出了什么好玩的翻譯,歡迎留言~
微軟文言文翻譯地址:
https://cn.bing.com/translator
參考鏈接:
[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811
[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
「智能汽車」交流群招募中!
歡迎關(guān)注智能汽車、自動(dòng)駕駛的小伙伴們加入社群,與行業(yè)大咖交流、切磋,不錯(cuò)過(guò)智能汽車行業(yè)發(fā)展&技術(shù)進(jìn)展。加好友請(qǐng)務(wù)必備注您的姓名-公司-職位 哦~
原標(biāo)題:《調(diào)戲微軟文言文AI翻譯:“永不舍汝”、“其母之”是什么鬼???》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司