- +1
南農(nóng)大團隊研發(fā)“古籍版ChatGPT”,為何取名“荀子”

“荀子”古籍大語言模型示意圖 微信公眾號@南農(nóng)信管之窗CIM 圖
澎湃新聞(m.dbgt.com.cn)12月11日從南京農(nóng)業(yè)大學獲悉,該校信息管理學院王東波團隊日前研發(fā)出國內(nèi)首個專門用于古籍處理與研究的智能工具——“荀子”古籍大語言模型,包含《四庫全書》在內(nèi)的古籍文獻超20億字大型語料庫,具備自然語言理解、自動翻譯、自動標引等功能。該模型已在GitHub、ModelScope等網(wǎng)站開源。
王東波表示,荀子不僅是先秦偉大的樸素唯物主義思想家和散文家,對語言學理論的闡述也是開拓者,如此命名是紀念這位語言學先驅(qū),“普通受眾要走近繁體、豎版、沒有句讀的古文不是容易的事,‘荀子’上線,意味著在智媒時代與古籍對話成為可能,古文閱讀理解、標點添加、譯為現(xiàn)代漢語——這些難啃的‘硬骨頭’,‘荀子’可以輕松拿下?!睂<覄t可借助“荀子”完成古籍詞法分析、實體識別、關(guān)系抽取、文本分類與匹配、文本摘要等。
據(jù)介紹,“荀子”的問世離不開高性能算力基礎(chǔ)設(shè)施,也離不開團隊長期積累精加工語料庫,投喂了40億字的混合語料數(shù)據(jù)?!澳P偷臉?gòu)建受算力、場景應(yīng)用等影響,但精準度高的優(yōu)質(zhì)數(shù)據(jù)是關(guān)鍵?!蓖鯑|波說,團隊2008年接觸古籍,2013年至今一直專注于人工精標注數(shù)據(jù)工作,“比如《岳陽樓記》,要訓練機器標注其中的形容詞,先要訓練相關(guān)人員標注形容詞,在大量人工標注的基礎(chǔ)上讓機器學習”。
王東波表示,期待通過“荀子”大語言模型,將古籍的智能化研究與跨學科人才培養(yǎng)結(jié)合,讓學生既有前瞻的科研視野,又積累較深厚的人文底蘊,同時讓更多受眾接觸、品讀、傳播古籍,喚活“故紙堆”。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




