- +1
曾被ICLR拒稿,字節(jié)跳動今斬獲最佳論文,ACL2021各大獎項揭曉
機(jī)器之心報道
機(jī)器之心編輯部
被頂會拒稿請不要灰心,說不定你的論文會成為另一個頂會的最佳。
昨日,NLP 領(lǐng)域國際頂會 ACL 2021 公布獲獎?wù)撐男畔ⅲ簛碜宰止?jié)跳動火山翻譯的一篇神經(jīng)機(jī)器翻譯工作被評為最佳論文。此外,最佳主題論文、杰出論文也揭曉。
ACL,是計算語言學(xué)和自然語言處理領(lǐng)域的頂級國際會議,由國際計算語言學(xué)協(xié)會組織,每年舉辦一次。
一直以來,ACL 在 NLP 領(lǐng)域的學(xué)術(shù)影響力都位列第一,它也是 CCF-A 類推薦會議。

今年的 ACL 大會已是第 59 屆,計劃于 8 月 1-6 日在泰國曼谷舉行。
不久之前,ACL 2021 官方發(fā)布了關(guān)于本屆大會接收結(jié)果:本屆 ACL 共計收到 3350 篇論文投稿,最終有 21.3% 的論文錄用到主會(Main Conference),并額外接收了 14.9% 的論文到 Findings 子刊,綜合錄用率為 36.2%。我們可以從被接收的論文作者與機(jī)構(gòu)中發(fā)現(xiàn),有大量的國內(nèi)論文被接收。
除了接收論文之外,今年的 ACL 的組織成員里面也有大量的華人面孔,特別是今年的年會主席是中科院自動化研究所的宗成慶老師,程序主席包括華盛頓大學(xué)的 Fei Xia 教授、香港理工大學(xué) Wenjie Li 教授。
昨天,大家最為關(guān)注的 ACL 2021 獲獎?wù)撐墓迹钊梭@喜的是這些獲獎?wù)撐睦锩嬉舶嗥獓鴥?nèi)研究成果:如來自字節(jié)跳動火山翻譯的機(jī)器翻譯研究獲得最佳論文,來自港中文、騰訊 AI Lab 合作的論文也入選杰出論文。
最佳論文:字節(jié)跳動火山翻譯
ACL 2021 的最佳論文來自字節(jié)跳動火山翻譯團(tuán)隊,該研究提出了一種新的詞表學(xué)習(xí)方案 VOLT,在多種翻譯任務(wù)上取得了優(yōu)秀的結(jié)果。

標(biāo)題:Vocabulary Learning via Optimal Transport for Neural Machine Translation
作者:許晶晶、周浩、甘純、鄭在翔、李磊
論文地址:https://arxiv.org/pdf/2012.15671.pdf
代碼地址:https://github.com/Jingjing-NLP/VOLT
對于從業(yè)者來說,大家無時無刻不在使用詞表對語言進(jìn)行向量化表示。在深度學(xué)習(xí)時代,詞表構(gòu)建基本上是所有自然語言處理任務(wù)的第一步工作。盡管現(xiàn)今也有了一些比較通用的詞表處理方法,但是仍然沒有辦法回答最基礎(chǔ)的問題:什么是最優(yōu)詞表,如何生成最優(yōu)詞表?
為了回答該問題,本論文嘗試提出一種無需訓(xùn)練的詞表評價指標(biāo)和針對該評價指標(biāo)的詞表學(xué)習(xí)方案 VOLT。該方案在常用的英德翻譯、英法翻譯、低資源翻譯、多語言翻譯上都取得了相比傳統(tǒng)詞表解決方案更好的結(jié)果。

表 1:使用 VOLT 與廣泛使用的 BPE 詞表進(jìn)行詞匯搜索的結(jié)果比較。VOLT 得到了更高的 BLEU 分?jǐn)?shù),同時大大減少了詞匯量。此處采用的是 X-En 設(shè)置下的詞匯量。
使用 VOLT 生成詞匯,簡單的基線方法就能夠?qū)崿F(xiàn) SOTA 結(jié)果。該研究在 En-De 數(shù)據(jù)集上測試了 VOLT 和其他幾種方法的性能,結(jié)果如表 5 所示。與其他方法相比,VOLT 以更少的詞匯量實現(xiàn)了幾乎最佳的性能。這些結(jié)果表明,簡單的基線方法使用定義明確的詞表就能夠獲得良好的結(jié)果。

表 5:VOLT 和強(qiáng)基準(zhǔn)之間的比較結(jié)果。VOLT 在詞匯量較少的情況下取得了幾乎最好的表現(xiàn)。
值得一提的是,該研究修改前的版本曾投至另一個機(jī)器學(xué)習(xí)頂會 ICLR 2021。在 Openreview 網(wǎng)站上現(xiàn)在還能看到該論文及匿名評審的結(jié)果。當(dāng)時四名評審給出的意見是 3、3、4、4——未達(dá)到接收標(biāo)準(zhǔn),作者做了rebuttal之后撤稿投了ACL。
論文作者之一的周浩在社交網(wǎng)絡(luò)中表示:「關(guān)于從 ICLR 到 ACL 的轉(zhuǎn)投當(dāng)時情況是這樣的,我們在投 ICLR 的時候花了太多時間在實驗上,在 writing 上花的時間很不夠,整個 paper 顯地平鋪直敘,Intuition 沒有說出來,且有部分重要的實驗沒有補(bǔ)充。結(jié)果大家也看到了,我覺得這是一個重要的 lesson,也歡迎大家對比我們兩個版本的論文?!?/p>
論文一作許晶晶則總結(jié)了經(jīng)驗與教訓(xùn):「我學(xué)到的最重要教訓(xùn)是一定要把東西寫清楚。雖然寫作不是最重要的,idea 才是,但是寫清楚是讓評審評價工作的前提。其實 ICLR 的評審和 ACL 的評委都對我們的 Idea 做了肯定,新穎性和有趣性都是被承認(rèn)的,我們給出的基于最大邊際效應(yīng)的解釋,和把詞表學(xué)習(xí)建模成一個最優(yōu)運輸問題都是全新的一套想法。ICLR 對 idea 沒有太多問題,問題主要是在寫作上,后來我們把寫作改進(jìn)之后,能拿到高分雖然意料之外,倒也在情理之中。有一說一,我們 ICLR 那篇工作確實寫的不好。評審的反饋主要在以下幾個方面:實驗做的不夠充分,方法介紹的不夠清楚,動機(jī)也缺乏直接證據(jù)。后來的這幾點,我們在 ACL 版本都做了大量的改進(jìn)。我們補(bǔ)充了很多后續(xù)實驗,寫作也推倒重來,一遍遍推敲邏輯是否合理,實驗是不是嚴(yán)謹(jǐn)和充分等等,整個過程是很痛苦的。所以后來我們得到 ACL 的評審認(rèn)可的時候非常激動,畢竟投入了很多心血的工作終于得到了回報。」
這篇論文在一番改進(jìn)之后獲得了另一個頂會的最佳獎項,過程可謂大起大落。
最佳主題論文:CMU
今年的最佳主題論文(Best theme paper)研究來自卡耐基梅隆大學(xué)、巴伊蘭大學(xué)、加勞德特大學(xué)與艾倫人工智能研究所等機(jī)構(gòu)。第一作者殷綺妤(Kayo Yin)本科畢業(yè)于巴黎綜合理工學(xué)院,目前是卡耐基梅隆大學(xué)的在讀研究生。

標(biāo)題:Including Signed Languages in Natural Language Processing
作者:Kayo Yin、Amit Moryossef、Julie Hochgesang、Yoav Goldberg、Malihe Alikhani
機(jī)構(gòu):CMU、巴伊蘭大學(xué)、加勞德特大學(xué)、艾倫人工智能研究所、匹茲堡大學(xué)
鏈接:https://arxiv.org/abs/2105.05222
論文摘要:手語是許多聾啞人和重聽人交流的主要手段。由于手語表現(xiàn)了自然語言的所有基本語言特性,該研究認(rèn)為自然語言處理的工具和理論對其建模至關(guān)重要。然而,現(xiàn)有的手語處理 (SLP) 研究很少嘗試探索和利用手語的語言結(jié)構(gòu)組織。該研究呼吁 NLP 社區(qū)將手語作為具有高度社會和科學(xué)影響的研究領(lǐng)域。該研究首先討論了手語在建模過程中要考慮的語言屬性;然后回顧了當(dāng)前 SLP 模型的局限性,并確定了將 NLP 擴(kuò)展到手語的開放挑戰(zhàn);最后,該研究建議以下幾點 (1) 采用一種有效的 tokenization 方法 (2) 語言信息模型的發(fā)展 (3) 真實世界的手語數(shù)據(jù)的收集(4) 將當(dāng)?shù)厥终Z社區(qū)納入到積極而主導(dǎo)話語權(quán)研究方向中。
六篇杰出論文
除最佳論文以外,今年的 ACL 還評出了六篇杰出論文(Outstanding papers),其中包括港中文、騰訊 AI Lab、斯坦福大學(xué)(李飛飛、曼寧等人團(tuán)隊)的研究。
論文 1:All That’s ‘Human’ Is Not Gold: Evaluating Human Evaluation of Generated Text

作者:Elizabeth Clark、Tal August、Sofia Serrano、Nikita Haduong、Suchin Gururangan、Noah A. Smith
機(jī)構(gòu):華盛頓大學(xué)、艾倫人工智能研究所
論文地址:https://arxiv.org/abs/2107.00061
論文摘要:人類評估通常被認(rèn)為是自然語言生成的黃金標(biāo)準(zhǔn),但隨著模型流暢程度的提升,評估者能夠檢測、判斷出機(jī)器生成的文本嗎?在這項研究中,研究者評估了非專家在故事、新聞、食譜三個領(lǐng)域中區(qū)分人工與機(jī)器(GPT-2、GPT-3)撰寫文本的能力。他們發(fā)現(xiàn),未經(jīng)過訓(xùn)練的評估者區(qū)分 GPT-3 與人類生成文本的概率是隨機(jī)的。研究者探索了三種快速訓(xùn)練評估者的方法以更好地識別 GPT-3 生成的文本(詳細(xì)說明、附加注釋的例子和配對例子) ,并發(fā)現(xiàn)其準(zhǔn)確率提高了 55%,但在上面提到的三個領(lǐng)域仍然沒有顯著改善??紤]到文本域的結(jié)果不一致,以及評估者給出的判斷常常相互矛盾,研究者檢驗了未經(jīng)訓(xùn)練的人類評估者在自然語言生成評估中所起的作用,并為自然語言生成的研究者們提供了改進(jìn)人類評估文本生成結(jié)果的最新模型建議。
論文 2:Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

作者:Armen Aghajanyan、Sonal Gupta、Luke Zettlemoyer
機(jī)構(gòu):Facebook
論文地址:https://arxiv.org/abs/2012.13255
論文摘要:盡管可以通過對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),來為廣泛的語言理解任務(wù)產(chǎn)生 SOTA 結(jié)果,但該過程的具體原理還沒有得到很好的解釋,尤其是在低數(shù)據(jù)范圍內(nèi)。為什么使用相對普通的梯度下降算法(例如不包含強(qiáng)大的正則化)就能在只有數(shù)百或數(shù)千個標(biāo)記樣本的數(shù)據(jù)集上調(diào)整具有數(shù)億個參數(shù)的模型?在該論文中,研究者認(rèn)為從內(nèi)在維度的角度分析微調(diào),能夠得到解釋上述現(xiàn)象的實驗和理論依據(jù)。該研究通過實驗表明,常見的預(yù)訓(xùn)練模型具有非常低的內(nèi)在維度;換句話說,存在與完全參數(shù)空間一樣有效的微調(diào)低維重參數(shù)化。例如,通過僅優(yōu)化隨機(jī)投射回完全空間的 200 個可訓(xùn)練參數(shù),研究者可以調(diào)整 RoBERTa 模型以在 MRPC 上實現(xiàn) 90% 的完全參數(shù)性能水平。此外,該研究通過實驗表明,預(yù)訓(xùn)練隱式地最小化了內(nèi)在維度,也許令人驚訝的是,經(jīng)過一定數(shù)量的預(yù)訓(xùn)練更新,較大的模型往往具有較低的內(nèi)在維度,這在一定程度上解釋了它們的極端有效性。最后,研究者將內(nèi)在維度與低維任務(wù)表征和基于壓縮的泛化邊界聯(lián)系起來,以提供基于內(nèi)在維度的,與完全參數(shù)數(shù)量無關(guān)的泛化邊界。
論文 3:Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering

作者:Siddharth Karamcheti、Ranjay Krishna、Li Fei-Fei、Christopher Manning
機(jī)構(gòu):斯坦福大學(xué)
目前,這篇論文的 PDF 和網(wǎng)站還未公開,之后將持續(xù)關(guān)注。
論文 4:Neural Machine Translation with Monolingual Translation Memory

作者:Deng Cai、Yan Wang、Huayang Li、Wai Lam、Lemao Liu
機(jī)構(gòu):香港中文大學(xué)、騰訊 AI Lab
論文地址:https://arxiv.org/pdf/2105.11269.pdf
論文摘要:先前的研究證明翻譯記憶 (TM) 可以提高神經(jīng)機(jī)器翻譯 (NMT) 的性能。與使用雙語語料庫作為 TM 并采用源端相似性搜索進(jìn)行記憶檢索的現(xiàn)有工作相比,該研究提出了一種新框架,該框架使用單語記憶并以跨語言方式執(zhí)行可學(xué)習(xí)的記憶檢索,該框架具有獨特的優(yōu)勢。首先,跨語言記憶檢索器允許大量的單語數(shù)據(jù)成為 TM。第二,記憶檢索器和 NMT 模型可以為最終的翻譯目標(biāo)進(jìn)行聯(lián)合優(yōu)化。實驗表明,該方法得到了顯著的改進(jìn)。值得注意的是,它甚至優(yōu)于使用雙語 TM 的「TM-augmented NMT」基線方法。由于能夠利用單語數(shù)據(jù),該研究還證明了所提模型在低資源和領(lǐng)域適應(yīng)場景中的有效性。
論文 5:Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

作者:Benjamin Marie、Atsushi Fujita、Raphael Rubino
機(jī)構(gòu):NICT(日本)
論文地址:https://arxiv.org/pdf/2106.15195.pdf
論文摘要:本文提出了首個大規(guī)模機(jī)器翻譯 (MT) 元評估(metaevaluation)。該研究對 2010 年至 2020 年發(fā)表的 769 篇研究論文進(jìn)行了機(jī)器翻譯評估。研究表明,MT 自動評估的實踐在過去的十年中發(fā)生了巨大的變化,并遵循相關(guān)的趨勢。越來越多的 MT 評估僅依靠 BLEU 得分之間的差異得出結(jié)論,而不進(jìn)行任何統(tǒng)計意義測試或人為評價,而至少有 108 個指標(biāo)聲稱優(yōu)于 BLEU。在最近的論文中,MT 評估傾向于復(fù)制和比較以前工作中的自動度量得分,以聲稱一種方法或算法的優(yōu)越性,而沒有確認(rèn)使用過完全相同的訓(xùn)練、驗證和測試數(shù)據(jù),度量得分不具有可比性。此外,報告標(biāo)準(zhǔn)化度量得分的工具還遠(yuǎn)未被 MT 社區(qū)廣泛采用。在展示了這些缺陷累積導(dǎo)致可疑的評估后,該研究提出了一個準(zhǔn)則,以鼓勵更好的自動 MT 評估以及一個簡單的元評估得分方法來評估其可信度。
論文 6:UnNatural Language Inference

作者:Koustuv Sinha、Prasanna Parthasarathi、Joelle Pineau、Adina Williams
機(jī)構(gòu):麥吉爾大學(xué)、MILA、FAIR
論文地址:https://arxiv.org/pdf/2101.00010.pdf
GitHub 地址:https://github.com/facebookresearch/unlu
論文摘要:近期基于 Transformer 的自然語言理解研究表明,這些大規(guī)模預(yù)訓(xùn)練 SOTA 模型似乎能夠在某種程度上理解類人的語法。在這篇論文中,研究者提供了一些新的證據(jù),從更復(fù)雜的維度闡釋了這一問題。他們發(fā)現(xiàn)當(dāng)前的自然語言推理 SOTA 模型能夠給重新排列的示例打上與此前相同的標(biāo)簽,也就是說,它們在很大程度上對隨機(jī)的詞序排列具有不變性。為了度量這個問題的嚴(yán)重性,研究者提出了一套度量方法,并研究了特定排列中的哪些特質(zhì)使得模型具備詞序不變性。例如在 MNLI 數(shù)據(jù)集中,研究者發(fā)現(xiàn)幾乎所有 (98.7%) 的示例都至少包含一個引發(fā)黃金標(biāo)簽的序列。模型有時候甚至能為它們最初未能正確預(yù)測的序列分配黃金標(biāo)簽。在進(jìn)行了全面的實驗評估以后,結(jié)果表明這個問題存在于 Transformer 和基于 pre-Transformer 架構(gòu)的編碼器,在跨多種語言時也會出現(xiàn)。
ACL 獲獎?wù)撐耐暾斜恚篽ttps://2021.aclweb.org/program/accept/
參考內(nèi)容:
https://www.zhihu.com/question/470224094
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
原標(biāo)題:《曾被ICLR拒稿,字節(jié)跳動今斬獲最佳論文,ACL 2021各大獎項揭曉》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




