中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

南農(nóng)大團隊研發(fā)“古籍版ChatGPT”,為何取名“荀子”

澎湃新聞記者 王奕澄
2023-12-11 18:52
來源:澎湃新聞
? 長三角政商 >
字號

“荀子”古籍大語言模型示意圖 微信公眾號@南農(nóng)信管之窗CIM 圖

澎湃新聞(m.dbgt.com.cn)12月11日從南京農(nóng)業(yè)大學獲悉,該校信息管理學院王東波團隊日前研發(fā)出國內(nèi)首個專門用于古籍處理與研究的智能工具——“荀子”古籍大語言模型,包含《四庫全書》在內(nèi)的古籍文獻超20億字大型語料庫,具備自然語言理解、自動翻譯、自動標引等功能。該模型已在GitHub、ModelScope等網(wǎng)站開源。

王東波表示,荀子不僅是先秦偉大的樸素唯物主義思想家和散文家,對語言學理論的闡述也是開拓者,如此命名是紀念這位語言學先驅(qū),“普通受眾要走近繁體、豎版、沒有句讀的古文不是容易的事,‘荀子’上線,意味著在智媒時代與古籍對話成為可能,古文閱讀理解、標點添加、譯為現(xiàn)代漢語——這些難啃的‘硬骨頭’,‘荀子’可以輕松拿下?!睂<覄t可借助“荀子”完成古籍詞法分析、實體識別、關(guān)系抽取、文本分類與匹配、文本摘要等。

據(jù)介紹,“荀子”的問世離不開高性能算力基礎(chǔ)設(shè)施,也離不開團隊長期積累精加工語料庫,投喂了40億字的混合語料數(shù)據(jù)?!澳P偷臉?gòu)建受算力、場景應(yīng)用等影響,但精準度高的優(yōu)質(zhì)數(shù)據(jù)是關(guān)鍵?!蓖鯑|波說,團隊2008年接觸古籍,2013年至今一直專注于人工精標注數(shù)據(jù)工作,“比如《岳陽樓記》,要訓練機器標注其中的形容詞,先要訓練相關(guān)人員標注形容詞,在大量人工標注的基礎(chǔ)上讓機器學習”。

王東波表示,期待通過“荀子”大語言模型,將古籍的智能化研究與跨學科人才培養(yǎng)結(jié)合,讓學生既有前瞻的科研視野,又積累較深厚的人文底蘊,同時讓更多受眾接觸、品讀、傳播古籍,喚活“故紙堆”。

    責任編輯:謝春雷
    圖片編輯:蔣立冬
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋