- +1
南農(nóng)大團(tuán)隊(duì)研發(fā)“古籍版ChatGPT”,為何取名“荀子”

“荀子”古籍大語(yǔ)言模型示意圖 微信公眾號(hào)@南農(nóng)信管之窗CIM 圖
澎湃新聞(m.dbgt.com.cn)12月11日從南京農(nóng)業(yè)大學(xué)獲悉,該校信息管理學(xué)院王東波團(tuán)隊(duì)日前研發(fā)出國(guó)內(nèi)首個(gè)專(zhuān)門(mén)用于古籍處理與研究的智能工具——“荀子”古籍大語(yǔ)言模型,包含《四庫(kù)全書(shū)》在內(nèi)的古籍文獻(xiàn)超20億字大型語(yǔ)料庫(kù),具備自然語(yǔ)言理解、自動(dòng)翻譯、自動(dòng)標(biāo)引等功能。該模型已在GitHub、ModelScope等網(wǎng)站開(kāi)源。
王東波表示,荀子不僅是先秦偉大的樸素唯物主義思想家和散文家,對(duì)語(yǔ)言學(xué)理論的闡述也是開(kāi)拓者,如此命名是紀(jì)念這位語(yǔ)言學(xué)先驅(qū),“普通受眾要走近繁體、豎版、沒(méi)有句讀的古文不是容易的事,‘荀子’上線,意味著在智媒時(shí)代與古籍對(duì)話(huà)成為可能,古文閱讀理解、標(biāo)點(diǎn)添加、譯為現(xiàn)代漢語(yǔ)——這些難啃的‘硬骨頭’,‘荀子’可以輕松拿下?!睂?zhuān)家則可借助“荀子”完成古籍詞法分析、實(shí)體識(shí)別、關(guān)系抽取、文本分類(lèi)與匹配、文本摘要等。
據(jù)介紹,“荀子”的問(wèn)世離不開(kāi)高性能算力基礎(chǔ)設(shè)施,也離不開(kāi)團(tuán)隊(duì)長(zhǎng)期積累精加工語(yǔ)料庫(kù),投喂了40億字的混合語(yǔ)料數(shù)據(jù)。“模型的構(gòu)建受算力、場(chǎng)景應(yīng)用等影響,但精準(zhǔn)度高的優(yōu)質(zhì)數(shù)據(jù)是關(guān)鍵。”王東波說(shuō),團(tuán)隊(duì)2008年接觸古籍,2013年至今一直專(zhuān)注于人工精標(biāo)注數(shù)據(jù)工作,“比如《岳陽(yáng)樓記》,要訓(xùn)練機(jī)器標(biāo)注其中的形容詞,先要訓(xùn)練相關(guān)人員標(biāo)注形容詞,在大量人工標(biāo)注的基礎(chǔ)上讓機(jī)器學(xué)習(xí)”。
王東波表示,期待通過(guò)“荀子”大語(yǔ)言模型,將古籍的智能化研究與跨學(xué)科人才培養(yǎng)結(jié)合,讓學(xué)生既有前瞻的科研視野,又積累較深厚的人文底蘊(yùn),同時(shí)讓更多受眾接觸、品讀、傳播古籍,喚活“故紙堆”。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




