南農(nóng)大團隊研發(fā)“古籍版ChatGPT”，為何取名“荀子”

澎湃新聞記者王奕澄

2023-12-11 18:52

來源：澎湃新聞

? 長三角政商 >

“荀子”古籍大語言模型示意圖微信公眾號@南農(nóng)信管之窗CIM 圖

澎湃新聞（m.dbgt.com.cn）12月11日從南京農(nóng)業(yè)大學獲悉，該校信息管理學院王東波團隊日前研發(fā)出國內(nèi)首個專門用于古籍處理與研究的智能工具——“荀子”古籍大語言模型，包含《四庫全書》在內(nèi)的古籍文獻超20億字大型語料庫，具備自然語言理解、自動翻譯、自動標引等功能。該模型已在GitHub、ModelScope等網(wǎng)站開源。

王東波表示，荀子不僅是先秦偉大的樸素唯物主義思想家和散文家，對語言學理論的闡述也是開拓者，如此命名是紀念這位語言學先驅(qū)，“普通受眾要走近繁體、豎版、沒有句讀的古文不是容易的事，‘荀子’上線，意味著在智媒時代與古籍對話成為可能，古文閱讀理解、標點添加、譯為現(xiàn)代漢語——這些難啃的‘硬骨頭’，‘荀子’可以輕松拿下?！睂＜覄t可借助“荀子”完成古籍詞法分析、實體識別、關(guān)系抽取、文本分類與匹配、文本摘要等。

據(jù)介紹，“荀子”的問世離不開高性能算力基礎(chǔ)設(shè)施，也離不開團隊長期積累精加工語料庫，投喂了40億字的混合語料數(shù)據(jù)?！澳Ｐ偷臉?gòu)建受算力、場景應(yīng)用等影響，但精準度高的優(yōu)質(zhì)數(shù)據(jù)是關(guān)鍵?！蓖鯑|波說，團隊2008年接觸古籍，2013年至今一直專注于人工精標注數(shù)據(jù)工作，“比如《岳陽樓記》，要訓練機器標注其中的形容詞，先要訓練相關(guān)人員標注形容詞，在大量人工標注的基礎(chǔ)上讓機器學習”。

王東波表示，期待通過“荀子”大語言模型，將古籍的智能化研究與跨學科人才培養(yǎng)結(jié)合，讓學生既有前瞻的科研視野，又積累較深厚的人文底蘊，同時讓更多受眾接觸、品讀、傳播古籍，喚活“故紙堆”。

責任編輯：謝春雷

圖片編輯：蔣立冬

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#南農(nóng)大 #古籍 #ChatGPT