- +1
信息時代的古史研究:不打開數(shù)據(jù)庫都無法找課題
互聯(lián)網(wǎng)和計算機技術現(xiàn)在不僅改變著生活的諸多方面,也為文史哲的學術研究帶來了一場變革。如果說老一輩的文史哲學者不做卡片就不能開始學術研究,現(xiàn)在的學者可能不打開數(shù)據(jù)庫就無法尋找選題。
2017年5月19日,上海師范大學古籍整理研究所所長張劍光、華東師范大學古籍研究所所長顧宏義、華東師范大學錢幣博物館館長陳江、上海師范大學歷史系教授范兆飛同中華書局總編輯顧青一起在上海靜安書友匯進行了以“信息時代:古史研究的新思路”為主題的研討會。

離不開數(shù)據(jù)庫的學術研究
數(shù)據(jù)庫檢索功能帶給學術研究的便利可謂今非昔比。上海師范大學歷史系教授范兆飛回憶起自己16年前在沒有檢索系統(tǒng)的情況下,收集碩士論文資料時的艱辛:
“當時我在山西大學的碩士論文題目為《北朝的九品中正制研究》。做這個題目首先要做兩項工作:第一:先把在北朝擔任中正的人找出來。當時山西大學是沒有檢索系統(tǒng)的,我用了整整一個學期的時間把北朝的史書和墓志材料全部翻了一遍,把擔任北朝中正的人找出來?,F(xiàn)在如果用中華書局的‘經(jīng)典古籍庫’,這項工作只需一到兩天就能完成。第二,需要找出北朝中正制的相關研究成果,當時沒有檢索條件,只能整天泡圖書館,翻過刊、人大復印過刊資料、全國報刊索引等。我用了整整兩年時間才把這項工作做完。但即便如此,我還是擔心遺漏了重要的研究成果。但在現(xiàn)在的技術條件下,這些都不是問題了?!?/p>
上海師范大學古籍整理研究所所長張劍光講到現(xiàn)在做學問和以前不太一樣,“以前每天都要去資料室,而現(xiàn)在因為電子資料非常豐富,所以除了要核對古籍的版本問題,平時都可以在家中做研究?!?/p>
華東師范大學古籍研究所所長顧宏義也經(jīng)常對學生講,“如果不打開數(shù)據(jù)庫,我都不知道該怎樣進行研究、設計課題。現(xiàn)在不管是我自己寫文章也好,還是看學生的作業(yè)也好,只要手上有東西,就會把數(shù)據(jù)庫打開?!?/p>

“因為我們現(xiàn)在的記憶力不如前輩的老先生了,他們有童子功,四書五經(jīng)都背得很熟,我們背不出來,而只是模糊記憶,所以要有檢索的幫助?!?/p>
在顧宏義看來,檢索首先能夠彌補精確記憶的缺失,“有些原文即使能背出也會有出入,就像古人寫書引用時也會與原文有一兩字的出入。而按照現(xiàn)在的學術要求,只要加引號的引用,和原文相差一個字也不行?!?/p>
“我們現(xiàn)在做學術研究要用數(shù)據(jù)庫,這同我們的前輩學者相比是一種革命性的變化。過去幾年我寫了幾本小書,讓我有一個清醒的認識,我能夠?qū)懗鲞@幾本書,就是靠數(shù)據(jù)庫?,F(xiàn)在很少有一條很冷僻的史料沒有被發(fā)現(xiàn)的情況;如果有,也是因為沒有充分利用各種查詢路徑而已,而研究的差異可能產(chǎn)生于史料的辨別之上?!?/p>
以前的問題是史料太少,現(xiàn)在的問題是史料太多
數(shù)據(jù)庫的使用為學術研究帶來了便利,但也帶來了新的煩惱。老一輩的學者在做學術研究時可能擔心史料不夠豐富,而現(xiàn)在的學者則要面臨如何處理海量的史料和數(shù)據(jù)的問題。
顧宏義講到現(xiàn)在能夠查詢到的信息量太大。“以前老先生會表揚文章引用的史料豐富,而我們現(xiàn)在就怕看到史料太豐富的文章。因為都是從數(shù)據(jù)庫中尋找到的史料,有些史料一看就知道是從《四庫全書》中‘拉出來’的。這樣就產(chǎn)生了一些問題,需要辨別哪些是更重要的數(shù)據(jù),哪些是一般重要的?!?/p>

華東師范大學錢幣博物館館長陳江也講到,“20世紀早期的大師包括呂思勉、錢穆、陳寅恪等人在內(nèi),所利用的古籍以正史為主,而我們現(xiàn)在所利用的古籍范圍可能是他們的50倍、100倍以上?!?/p>
面對這些問題,顧宏義希望能在今后的數(shù)據(jù)庫開發(fā)中標出文獻的區(qū)分度?!氨热缍氖肥腔镜奈墨I,而在其基礎上產(chǎn)生了很多文獻,很多筆記和野史的內(nèi)容都直接抄自二十四史。希望數(shù)據(jù)庫能夠把最基本、最重要的史料放在最前面,不像現(xiàn)在查詢出來,很多要重要的史料都在列表的后面。”
而張劍光希望數(shù)據(jù)庫能在逐字檢索之上提供主題檢索的功能,例如搜索“節(jié)度使”后出現(xiàn)即使字詞不匹配但依然相關的內(nèi)容。
顧宏義認為如果數(shù)據(jù)庫能夠提供主題檢索,則功莫大焉,但這個問題也不能僅僅靠數(shù)據(jù)庫的開發(fā)者來解決,更需要研究者的工作。
對此,陳江也持類似的觀點,“主題檢索的方法其實古人一直在用,就是使用類書。包括上個世紀50年代的一些學者在收集史料時的一個訣竅也是先看類書。但類書就不僅僅涉及古籍的整理了,它們本身就是已經(jīng)花大力氣編撰過的著作。如果我們的數(shù)據(jù)庫能實現(xiàn)主題檢索的話,那就必須先把所有的數(shù)據(jù)重新按主題編纂”。
將古籍整理工作也搬到線上
除了數(shù)據(jù)庫逐字檢索的結(jié)果數(shù)量龐大之外,有些古籍數(shù)據(jù)庫還存在著其他問題。
張劍光講到,現(xiàn)在一些數(shù)據(jù)庫中提供的古籍是沒有經(jīng)過整理的,也不能提供版本的選擇,“這樣的數(shù)據(jù)庫只能是聊勝于無”?!坝袝r候會發(fā)現(xiàn)在學生的論文中,有的引文沒有標點,有的引文繁簡字體都有,有的引文是自己標點的,都存在很多問題。如果數(shù)據(jù)庫里的古籍是經(jīng)過整理的,有標點并且有??保梢詾閷W術工作提供很好的參考作用。”
中華書局全資子公司古聯(lián)公司于2014年推出了“中華經(jīng)典古籍庫”,收錄了中華書局以及天津古籍出版社、齊魯書社、遼海出版社、華東師范大學出版社、鳳凰出版社和巴蜀書社共七家出版社已出版的整理本古籍圖書。目前收錄的古籍已達1274種,合計7.5億字。除了全文、書目和一些分類檢索功能之外,“中華經(jīng)典古籍庫”還提供圖文對照——在文本旁可顯示原書掃描圖片,省去與紙書核對的功夫、自動生成引用格式、人名異稱關聯(lián)檢索等功能。

中華書局總編輯顧青講到現(xiàn)在“中華經(jīng)典古籍庫”的可信度得到了普遍的認可,但被吐槽最多的問題是數(shù)據(jù)太少。顧青表示,再過兩三年“中華經(jīng)典古籍庫”計劃收集3000到4000種整理的古籍,總字數(shù)計劃達到30億字,而中最終的目標是覆蓋文史哲所有重要的古代典籍。
在現(xiàn)場,四位教授也根據(jù)自己的研究領域和目前關注的問題舉出一些希望被數(shù)據(jù)化或整理的史料,包括《宋元方志叢刊》等已整理方志、明清史料的數(shù)據(jù)化,天一閣所藏方志、宋代的書信、中古史研究需要的墓志、造像記和神道碑等史料的整理和數(shù)據(jù)化。

相對于史料的數(shù)據(jù)化來說,史料的整理更是一項耗時耗力的龐大工程。據(jù)顧青所述,中華書局所有的古籍編輯室目前一年能夠完成出版的數(shù)字量最多能達到1億,如果大家都能持續(xù)做一輩子編輯,大概一共能處理20億到30億的數(shù)字量,但即使如此,還是遠遠小于目前古籍的整理需要。
在未來,古籍的數(shù)據(jù)化和整理或也將成為相互促進或者同時發(fā)生的過程。顧青告訴澎湃新聞(m.dbgt.com.cn)記者,現(xiàn)在古聯(lián)公司也正在搭建一個國家級的“中華古籍整理出版資源平臺”,在此平臺上能進行古籍整理,把線下的古籍整理平臺搬到線上,呈現(xiàn)的形態(tài)首先是在線的電子版;同時讀者也能查詢和閱讀;此外還提供版權交易的功能。
利用數(shù)據(jù)庫的前提是要有扎實的基本功
數(shù)據(jù)庫的使用為學術研究帶來了莫大的便利,但即使如此,仍然不能忽視對經(jīng)典文獻和最新學術成果的閱讀和了解。
對此,陳江講到:“數(shù)據(jù)庫的使用不能取代基本古籍的閱讀。我是做歷史學研究的,如果沒有一定的閱讀量,則沒有辦法去評估任何一件事情在整個歷史長河中的意義,面對海量的數(shù)據(jù)也沒有辦法產(chǎn)生研究成果?!?/p>
而針對這一問題,顧青也反復強調(diào)閱讀古籍的重要性?!扒f不要以為不讀書,只用數(shù)據(jù)庫就能獲得好的成果。不把基本的工作做好,不把該讀的書都讀過,對于數(shù)據(jù)庫里的海量信息就無法辨別。數(shù)據(jù)庫可以給我們插上翅膀,但能飛上天的一定是下過苦功的人?!?/p>
同時,范兆飛也強調(diào),“必須要擺正海量數(shù)據(jù)和的傳統(tǒng)閱讀的關系,傳統(tǒng)閱讀可能是‘體’,數(shù)據(jù)庫則是‘用’。如果我們把數(shù)據(jù)庫的史料價值形容為冰山的話,檢索的途徑可能只是冰山的一角,我們只有帶著通過閱讀所獲得的問題意識去檢索,才可能探尋到冰山的真面目。”





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




