中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

為什么復旦MOSS大模型的中文水平不如英文?

澎湃新聞記者 邵文
2023-02-21 10:33
來源:澎湃新聞
? 未來2% >
字號

·“數(shù)據(jù)質量的差別是主要瓶頸之一。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開源程度較低,導致中文數(shù)據(jù)集的規(guī)模相對較小。此外,英文作為科研主流語言,在學術界和工業(yè)界中得到廣泛應用,積累了大量高質量的語料數(shù)據(jù),這為英文自然語言處理的研究提供了極大的優(yōu)勢?!?/u>

2月20日晚間,復旦大學邱錫鵬教授團隊發(fā)布國內首個類ChatGPT模型MOSS,引發(fā)各界人士參與內測的熱情。一個顯著的反饋是,MOSS的英文回答水平比中文高,這在公眾與ChatGPT的互動中也有類似體現(xiàn)。為何如此?

位于深圳的粵港澳大灣區(qū)數(shù)字經濟研究院(IDEA)認知計算與自然語言中心文本生成算法團隊負責人王昊對澎湃科技(m.dbgt.com.cn)表示,“數(shù)據(jù)質量的差別是主要瓶頸之一。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開源程度較低,導致中文數(shù)據(jù)集的規(guī)模相對較小。此外,英文作為科研主流語言,在學術界和工業(yè)界中得到廣泛應用,積累了大量高質量的語料數(shù)據(jù),這為英文自然語言處理的研究提供了極大的優(yōu)勢。”

MOSS研究團隊也坦承,“MOSS的英文回答水平比中文高,因為它的模型基座學習了3000多億個英文單詞,中文詞語只學了約300億個。”

王昊認為,對于中文來說,高質量無監(jiān)督語料和指令數(shù)據(jù)尤其嚴重不足。因此,中文自然語言處理領域需要更多的投入和努力來積累高質量的數(shù)據(jù),并將其開源,以促進中文自然語言處理的發(fā)展。

清華大學計算機科學與技術系長聘副教授、聆心智能創(chuàng)始人黃民烈曾制定了全球首個《AI對話系統(tǒng)分級定義》,他在接受澎湃科技(m.dbgt.com.cn)采訪時表示,“從數(shù)據(jù)和應用的角度來說,中國的科技企業(yè)目前來看有比較大的優(yōu)勢。從數(shù)據(jù)角度來說,國內其實是產出了大量數(shù)據(jù)的,而數(shù)據(jù)的準確性和可靠性如果能夠提上去,對于模型的學習和生成來說都會幫助很大?!?/p>

“而國內的應用場景和市場其實是更加廣闊的,在新聞、廣告、教育等領域,而應用市場越廣帶來的優(yōu)質數(shù)據(jù)也會越多,這樣其實是能夠實現(xiàn)雙飛輪的運轉,從而加速AIGC領域的成長?!秉S民烈接著說道。

2月20日晚,MOSS發(fā)布至公開平臺(https://moss.fastnlp.top/),邀公眾參與內測。當晚,社交媒體上出現(xiàn)截圖,顯示該平臺“服務器流量過載,請明天上午重試”。隨后,該平臺官網(wǎng)發(fā)布一則公告,解釋稱“計算資源不足以支持如此大的訪問量”,“給大家造成非常不好的體驗和第一印象”,并致以真誠的歉意。

復旦MOSS團隊回應體驗“非常不好”:距離ChatGPT還有很長的路。

在公告中,MOSS研究團隊稱,“MOSS只是想在百億規(guī)模參數(shù)上探索和驗證ChatGPT的技術路線,并且實現(xiàn)各種對話能力?!?/p>

那么AI對話技術發(fā)展到今天經過了哪些關鍵節(jié)點,當下的“技術路線”又是什么?

黃民烈解答道,回顧早期聊天機器人的對話,大部分都是基于規(guī)則的,第二代在技術上混合了一些規(guī)則和機器學習的方法。到了第三代,就是以Transformer為基本架構的大模型作為技術底座,實際上還是在一個新的神經網(wǎng)絡架構下,結合大量的數(shù)據(jù)和算力優(yōu)化去做到的,所以技術上有了顯著的一些進步。由于對話本身就是在語言處理中最重要也是最難的任務,也就是最近一兩年,才因為大模型的發(fā)展使得聊天機器人在性能上有接近人類的表現(xiàn)。

復旦大學計算機科學技術學院教授邱錫鵬此前在接受澎湃新聞采訪時表示,“GPT-3的In-context learning是一個我覺得有變革性的范式。不再需要調參,給一些提示,就可以去做任務了。這個目前雖然說質量并沒有調參的好,但也能達到一個不錯的效果,這個會讓大模型看起來更加智能?!?/p>

什么是In-context learning(上下文學習)?“以前的方式是基于模型參數(shù)調整的,比如說要識別貓,然后看模型能不能檢測到貓的位置。如果標的不對,再通過誤差反過來去調整參數(shù),使得預測和正確位置對應起來。上下文學習則是圈出來貓的位置,然后再給它一張另外的圖片,問它貓在哪里?它就能夠正確圈出來。這個任務它之前沒有見過,但是通過這樣的方式就學會了?!鼻皴a鵬講解道。

調參極耗費人力和時間成本,尤其是GPT-3這樣的超大模型。碳同化系統(tǒng)Carbontracker估計,訓練GPT-3一次所需的電量與丹麥126戶家庭每年使用的電量相同。而In-context learning可以讓一個未經進一步調參的預訓練大模型,通過給其恰當?shù)膁emonstration(示例)學會完成目標任務。

黃民烈也提到上下文理解技術?!癈hatGPT最大的特點是通用任務助理,也就是在一個模型之內可以完成如此之多的開放任務,同時它在生成任務、上下文理解、安全倫理方面也有相當好的表現(xiàn)?!笨偨Y而言,黃民烈認為,這里面的技術突破是一個技術、工程、數(shù)據(jù)的綜合性工程創(chuàng)新,是一個長期積累從量變到質變的過程。比如從GPT-3到代碼,到加instruct,到RL,以及數(shù)據(jù)和模型之間的飛輪,造成了這些質變。

 

    責任編輯:鄭潔
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務許可證:31120170006

            增值電信業(yè)務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋