- +1
包弼德談哈佛中國歷代人物數(shù)據(jù)庫:谷歌學(xué)術(shù)和中國知網(wǎng)過時(shí)了
歷史學(xué)研究的量化趨勢已經(jīng)越來越明顯。這種量化趨勢,不僅體現(xiàn)在經(jīng)濟(jì)史、社會(huì)史等涉及統(tǒng)計(jì)學(xué)知識(shí)和數(shù)據(jù)語言的領(lǐng)域中,而且已經(jīng)滲透進(jìn)傳統(tǒng)的制度史、軍事史、政治史研究。在這種滲透中,量化史學(xué)一方面以其實(shí)證性和數(shù)據(jù)挖掘的大樣本優(yōu)勢,取得了優(yōu)勢地位;另一方面,它在定性問題上的局限性和計(jì)算機(jī)深度學(xué)習(xí)的未知,受到了不少質(zhì)疑指摘。
近日,筆者受澎湃新聞“私家歷史”頻道所邀,前往美國哈佛大學(xué)的量化社會(huì)科學(xué)學(xué)院,參觀了由哈佛大學(xué)費(fèi)正清中國研究中心和東亞燕京學(xué)社運(yùn)營維護(hù)的中國歷代人物傳記資料庫(China Biographical Database,下文簡稱CBDB)辦公室,向負(fù)責(zé)CBDB的項(xiàng)目經(jīng)理王宏甦先生,牛津大學(xué)博士、CBDB項(xiàng)目博士后徐力恒先生了解數(shù)據(jù)庫的運(yùn)營情況,并就相關(guān)議題采訪了哈佛大學(xué)東亞系包弼徳(Peter K.Bol)教授。

可視化技術(shù)展示歷史人物關(guān)系網(wǎng)絡(luò)
CBDB數(shù)據(jù)庫由哈佛大學(xué)費(fèi)正清研究中心、北京大學(xué)中國古代史研究中心、臺(tái)灣“中研院”史語所合作開發(fā)。它以單一人物的生平紀(jì)錄為核心,并通過字號(hào)、親屬關(guān)系、生卒年份等項(xiàng)目,展開個(gè)人與其他人物的關(guān)系網(wǎng)絡(luò),形成所謂的“關(guān)系型”資料庫。雖然CBDB通過個(gè)體檢索實(shí)現(xiàn),但這種個(gè)體不是獨(dú)立存在的,數(shù)據(jù)庫通過搜索搭建了這些歷史人物之間的關(guān)系網(wǎng)絡(luò)。正如數(shù)據(jù)庫負(fù)責(zé)經(jīng)理王宏甦先生所言,“我們數(shù)據(jù)庫展現(xiàn)的人,是群體的人,是大數(shù)據(jù)系統(tǒng)下的人,而不是每一個(gè)單一個(gè)人的資料。個(gè)體的呈現(xiàn),通過整個(gè)關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn),體現(xiàn)的也就是‘群體下的個(gè)體’。”
這種網(wǎng)絡(luò)結(jié)構(gòu),顯然需要通過可視化展示才能呈現(xiàn)。為此CBDB嘗試了多平臺(tái)合作,比如通過和北京大學(xué)中國古代史研究中心的合作,借助北大歷史系師生扎實(shí)的學(xué)術(shù)訓(xùn)練,進(jìn)行CBDB的文本分析校對(duì)檢驗(yàn)工作。這種合作絕無僅有:借助北大師生的歷史學(xué)功底,對(duì)數(shù)據(jù)庫的每一個(gè)記錄都進(jìn)行了歷史學(xué)家的考訂,可謂史無前例;另外,CBDB和GIS(地理信息系統(tǒng))等平臺(tái)實(shí)現(xiàn)了數(shù)據(jù)對(duì)接,對(duì)于CBDB得出的數(shù)據(jù),可以借助地理信息系統(tǒng)實(shí)現(xiàn)真正的可視化。這種可視化帶來的沖擊,無論是視覺還是范式上,都是相當(dāng)可觀的。
CBDB數(shù)據(jù)庫與萬方、中國知網(wǎng)有何不同?
同為歷史檔案資料庫,哈佛大學(xué)CBDB數(shù)據(jù)庫專注于歷史人物傳記的梳理工作。那么,這和大陸的萬方、知網(wǎng)等數(shù)據(jù)庫相比,具有什么特殊優(yōu)勢?它為何能比一般全文錄入(或全文掃描)數(shù)據(jù)庫更易于維護(hù)和更新?換句話說,CBDB數(shù)據(jù)庫最大的特色是什么?
從采訪中得知,CBDB的差異化優(yōu)勢大致有以下三點(diǎn):
(1)能識(shí)別相同含義的不同詞匯
CBDB最初由哈佛大學(xué)教授郝若貝( Robert M. Hartwell)和其夫人在1970年代建立。其性質(zhì)和當(dāng)今大多數(shù)歷史數(shù)據(jù)資料庫相仿,即以全文未分析的形式錄入資料,并通過關(guān)鍵詞的方式來進(jìn)行搜索。這種數(shù)據(jù)庫最大的弊端在于無法識(shí)別許多同一漢語名詞的不同表述。舉一個(gè)不成熟的例子,比如在搜索王安石之“母”時(shí),便有可能因?yàn)槭妨夏承┰~條記載中用了“娘”、“媽”等等其他詞匯而無法顯示出來。因此,對(duì)于這些不同文本進(jìn)行編碼化,避開漢語言文字的多樣化表達(dá),完整呈現(xiàn)史料信息,就是數(shù)據(jù)庫持續(xù)發(fā)展的必然趨勢。
而CBDB,正好處于這一趨勢的最前沿。相比于其他數(shù)據(jù)庫,它的最大優(yōu)勢,也是對(duì)郝若貝版數(shù)據(jù)庫最大的提升,便在于其實(shí)現(xiàn)了文本的編碼化:將一個(gè)個(gè)單獨(dú)的詞條,通過編程的方式,形成了所謂的“關(guān)系型”數(shù)據(jù)庫(relation database)。
關(guān)于這一點(diǎn),王宏甦進(jìn)行了詳細(xì)的闡釋:“別的數(shù)據(jù)庫是一種純粹的文本展示,我們會(huì)對(duì)文本進(jìn)行簡化解讀,把很多意思相同,但中文表達(dá)不一樣的詞匯編成同一數(shù)據(jù)代碼,尤其是對(duì)親屬關(guān)系的梳理。比如像‘后母’、‘養(yǎng)母’、‘庶母’、‘嫡母’這幾個(gè)詞,差異很多,包括‘嫡母’,也可以代表不同的人。我們就需要把整理成同一編碼結(jié)構(gòu),才能方便閱讀。這些細(xì)節(jié),在其他數(shù)據(jù)庫里我基本沒發(fā)現(xiàn)到這一點(diǎn)。”

(2)通過多方爭吵、相互攻擊實(shí)現(xiàn)創(chuàng)新
除了通過編碼的方式,實(shí)現(xiàn)了歷史文本的初步挖掘和分析外,CBDB相比于其他數(shù)據(jù)庫,還特別看重相互間的不斷攻擊。事實(shí)上,在許多軟件開發(fā)的大企業(yè)里,通常會(huì)設(shè)置開發(fā)組和市場組,前者負(fù)責(zé)軟件生產(chǎn)和開發(fā)工作,而后者主要從事市場調(diào)研和用戶體驗(yàn)反饋工作。好的產(chǎn)品最終得以形成,需要企業(yè)的這兩個(gè)組別不斷互動(dòng)和攻擊。市場組根據(jù)市場經(jīng)驗(yàn)不斷給開發(fā)組提意見,開發(fā)組也會(huì)就自己的開發(fā)難度對(duì)市場組提出質(zhì)疑。但只有在這種雙方不斷相互攻擊的前提下,產(chǎn)品才能不斷創(chuàng)新,提升其質(zhì)量和用戶體驗(yàn)。
而CBDB顯然吸收了這一經(jīng)驗(yàn),在日常運(yùn)營維護(hù)中,CBDB強(qiáng)調(diào)多方爭吵,一方是加州大學(xué)爾灣分校的傅君勱(Micheal Fuller)教授帶領(lǐng)的歷史學(xué)家、社會(huì)學(xué)家團(tuán)隊(duì),第二方是真正在一線做數(shù)據(jù)的工作人員,第三方就是設(shè)計(jì)數(shù)據(jù)架構(gòu)的設(shè)計(jì)者。三方會(huì)代表各自群體的一個(gè)視角進(jìn)行討論,以達(dá)成數(shù)據(jù)的最優(yōu)化呈現(xiàn)。王宏甦舉了一個(gè)例子:“比如做一個(gè)數(shù)據(jù)表,歷史學(xué)家會(huì)說,我要加20個(gè)表,我這邊就會(huì)說加20個(gè)表難度太大,做數(shù)據(jù)結(jié)構(gòu)的就會(huì)說我熟悉這個(gè)結(jié)構(gòu),我們可以通過壓縮合并把這20個(gè)表縮小到一半不到的規(guī)模,滿足雙方的需求。這種良性的爭吵,會(huì)使得數(shù)據(jù)庫不斷在變?!?/p>
(3)對(duì)量化和質(zhì)性研究同等看重
CBDB作為純歷史文本領(lǐng)域的數(shù)據(jù)化和量化嘗試,在政治制度史、軍事史等領(lǐng)域帶來的范式?jīng)_擊是前所未有的。這些舊有領(lǐng)域過去強(qiáng)調(diào)純粹的質(zhì)性研究,并不存在數(shù)據(jù)分析和挖掘的空間。而CBDB帶來的量化的可能,也自然而然出現(xiàn)了非常多以往質(zhì)性研究中所無法觸及的成果。
徐力恒博士重點(diǎn)提到了文欣的學(xué)術(shù)成果。在研究中,他創(chuàng)新使用《唐折沖府匯考》和地理信息系統(tǒng)來觀察府兵制下的籍貫分布。按照徐的說法,“文欣僅僅將數(shù)據(jù)放在地圖上,就已經(jīng)能直觀地看到了衛(wèi)士產(chǎn)生和地域、地理環(huán)境等變量的相關(guān)性。他通過可視化,就打破了原有唐史研究中,認(rèn)為軍事分布位于長安、洛陽兩個(gè)點(diǎn)的說法,發(fā)現(xiàn)其實(shí)它是在全國呈現(xiàn)三角分布。如果沒有可視化和圖形分析,我們基本很難發(fā)現(xiàn)這一結(jié)論?!?/p>

需要注意到,這種創(chuàng)新不應(yīng)被過度解讀。它并沒有因此得出“量化研究比質(zhì)性研究更加優(yōu)越”的結(jié)論。事實(shí)上,文本挖掘的創(chuàng)新性意義和傳統(tǒng)史學(xué)研究并沒有什么差異。因?yàn)樵谑妨蠈W(xué)研究中,創(chuàng)新點(diǎn)就是能看到別人看不到的東西。而文本挖掘和可視化看到了新的東西,并不代表比前人更加聰明或者厲害,兩者不過各有千秋。
反思:人才缺口和機(jī)器思考的局限性
在文本編碼轉(zhuǎn)化和多方互動(dòng)的基礎(chǔ)上,CBDB的可持續(xù)更新得到了保障,這使得它超過了絕大多數(shù)的數(shù)據(jù)庫,獲得了不斷的生命力。但這是否就真的就預(yù)示CBDB在歷史學(xué)科研究未來的一片坦途?
并不見得。雖然有著種種令人羨慕的先天優(yōu)勢和創(chuàng)新思維,但CBDB的發(fā)展還存有很多障礙。有些是暫時(shí)性的,隨著時(shí)間的推移和時(shí)代的發(fā)展,最終能得到妥善解決;也有一些深層次、更為宏觀的障礙,甚至涉及到整個(gè)人工智能、機(jī)器學(xué)習(xí)以及量化研究領(lǐng)域的局限性,需要得到重新認(rèn)識(shí)。
最直觀的障礙是人才。CBDB學(xué)科要求橫跨文理,目前進(jìn)行數(shù)據(jù)庫正常運(yùn)營工作的王宏甦和徐力恒都有歷史學(xué)科訓(xùn)練背景且精通編程和數(shù)據(jù)操作,但像他們這樣具備雙重背景的人才少之又少。徐力恒直言“人才缺口非常大,國內(nèi)幾乎沒有任何學(xué)科專門做歷史學(xué)文本的數(shù)據(jù)化研究。兩種才能兼?zhèn)涞娜瞬盘倭恕薄?/p>
但徐力恒認(rèn)為這不是一個(gè)學(xué)術(shù)范式滯后的問題,“而是超前的問題”。因?yàn)闅v史文本挖掘,在全球范圍內(nèi)都是一個(gè)全新的學(xué)科,遠(yuǎn)遠(yuǎn)沒有達(dá)到成熟的階段。如王宏甦所言,“即使大家都知道,這是歷史學(xué)未來發(fā)展的趨勢之一;但也正因?yàn)槠涮幱谑穼W(xué)研究的最前沿,沒有先例可循,所以大家都很難預(yù)測這一學(xué)科未來的走向?!?/p>
既然領(lǐng)先,沒有經(jīng)驗(yàn)可考,相關(guān)人才出現(xiàn)短暫的缺口也就不難理解??深A(yù)計(jì)的是,隨著這一學(xué)科的逐步成熟和學(xué)術(shù)界對(duì)此重視程度的加深,人才的缺口遲早會(huì)得到填補(bǔ)。但另一種障礙,似乎在更為宏觀的層面上,暗示著機(jī)器思考的某種先天不足。
機(jī)器思考真的是無所不能的嗎?電腦真的就比人腦更好用?
事實(shí)上,這一問題早已被廣泛討論。因?yàn)樗婕暗搅巳四X和電腦的極限,在大數(shù)據(jù)時(shí)代,人思維固有的局限性在計(jì)算機(jī)下尤為突出,人們都在思考,人腦在未來,是否會(huì)被機(jī)器思考所取代?
兩位青年學(xué)者對(duì)此均表示否定。徐力恒認(rèn)為,“人力的作用在于深度,而電腦的作用在于廣度。兩者本來就是各有優(yōu)勢并互補(bǔ)的,我們應(yīng)該去避免兩者的沖突,盡力將他們的長處都發(fā)揮出來?!倍鹾戤d則舉出一例:“比如有人之前埋怨數(shù)據(jù)庫中關(guān)于鄭和的數(shù)據(jù)不足,但我們數(shù)據(jù)庫建立在關(guān)系鏈的基礎(chǔ)上,所要展示的是一種廣度,而他要求鄭和個(gè)體的數(shù)據(jù)豐富度,這不是我們數(shù)據(jù)庫所要提供的,CBDB是一個(gè)工具,工具就有局限性,挖掘深度的工作應(yīng)該交由人力完成,而不應(yīng)該埋怨一個(gè)數(shù)據(jù)系統(tǒng)?!?/p>
雖然機(jī)器思考存在固有的弊端,但一定程度上的人工智能是否有可能?未來的CBDB數(shù)據(jù)庫,是否有望實(shí)現(xiàn)自主學(xué)習(xí)、自主分析數(shù)據(jù)的功能,甚至最終懂得對(duì)數(shù)據(jù)自主發(fā)問,繼續(xù)壓縮著質(zhì)性研究的空間?
王宏甦對(duì)此持保留意見,“我不排除這種可能。但,我們需要非常謹(jǐn)慎,計(jì)算機(jī)在做歷史分析上充滿未知。況且人工智能是為了解決問題,而不是為了制造問題?!?/p>
徐力恒的回答則更直接:“這恐怕還不是可能性,而更多是必要性的問題”。在他看來,大量數(shù)據(jù)堆砌下形成的計(jì)算機(jī)分析,雖然可能出現(xiàn)少量創(chuàng)新成果,但效率實(shí)在太低,根本無法和具備靈活性(reflexibility)的人腦相比。至少在可以預(yù)見的將來,對(duì)大量歷史數(shù)據(jù)的計(jì)算機(jī)自主分析并沒有必要。
為了佐證自己的觀點(diǎn),王宏甦提到了一個(gè)很有意思的反例:“哈佛商學(xué)院之前做了一個(gè)很有意思的內(nèi)部測試,就是想去試著在數(shù)據(jù)庫測試計(jì)算機(jī)自主提問和自主分析的可能。當(dāng)然結(jié)果是非?;闹嚨?。你可以看看這個(gè)網(wǎng)站的表格,做的是一個(gè)無關(guān)關(guān)系的分析。計(jì)算機(jī)通過所謂的數(shù)據(jù)分析,展示兩個(gè)沒有關(guān)聯(lián)的變量間因?yàn)樽兓厔菹嗨贫旁谝黄鸱治龅膱D,看上去很有道理,比如這張:雞肉的消耗和美國石油進(jìn)口數(shù)量的分析,變化都是一樣的,數(shù)據(jù)相關(guān)性達(dá)到了89.99%,但這說明什么問題呢?如果數(shù)據(jù)全讓計(jì)算機(jī)來資助提問,就很有可能得雞肉和美國石油進(jìn)口有關(guān)系這樣荒謬的結(jié)論了”。

面對(duì)CBDB的優(yōu)勢和局限性,徐力恒給出了自己的總結(jié),“我們還是要認(rèn)識(shí)到定性和定量各自的限制,誰也不能否定誰,同時(shí)誰都應(yīng)該努力去做到相輔相成。因此,CBDB最讓我們自豪的,就是這一點(diǎn),兩者并重,人文和數(shù)位,都在其中發(fā)揮了重要作用,這是別的數(shù)據(jù)庫做不到的,也是我們相信我們數(shù)據(jù)庫能繼續(xù)很好發(fā)展最重要的一個(gè)原因?!?/p>
專訪包弼徳:將中國每一個(gè)有史可載的個(gè)人都錄入這個(gè)系統(tǒng)
對(duì)于數(shù)據(jù)庫和量化史學(xué)研究的宏觀解讀,筆者有幸邀請(qǐng)到了哈佛大學(xué)東亞系著名的包弼徳教授,為我們在一個(gè)更為廣闊的層面認(rèn)識(shí)CBDB數(shù)據(jù)庫。

澎湃新聞:您作為一名研究宋朝思想史的教授,按理說應(yīng)該更接近傳統(tǒng)人文研究的套路??蓮哪霸诰W(wǎng)絡(luò)公開課平臺(tái)coursera開設(shè)中國歷史課《ChinaX》開始,我就發(fā)現(xiàn)您對(duì)于互聯(lián)網(wǎng)、技術(shù)與內(nèi)容傳播敏感度要超出了絕大多數(shù)學(xué)者。當(dāng)然,也是在您的《ChinaX》課上,我第一次知道了CBDB數(shù)據(jù)庫。我的問題是,您為何對(duì)于新技術(shù)那么感興趣?這和您的研究有什么關(guān)聯(lián)?
包弼德:很難說。一開始,當(dāng)郝若貝先生將他自己的數(shù)據(jù)庫捐給哈佛大學(xué)時(shí),當(dāng)時(shí)我就承擔(dān)了維護(hù)和升級(jí)這一數(shù)據(jù)庫的義務(wù)。但后來,當(dāng)我看到如此數(shù)量龐大的數(shù)據(jù)庫時(shí),尤其這些數(shù)據(jù)可以通過空間的方式展現(xiàn)出來時(shí),比如一些歷史上的數(shù)據(jù)可以通過地理信息系統(tǒng)(GIS)可視化展現(xiàn),并因此發(fā)現(xiàn)很多以往研究無法呈現(xiàn)的要素:比如地質(zhì)、氣候分布等等對(duì)于歷史的影響。要知道,當(dāng)我們有機(jī)會(huì)通過大數(shù)據(jù)來挖掘大多數(shù)民眾的歷史時(shí),它會(huì)呈現(xiàn)一種和過去局限在“極少數(shù)掌控權(quán)力的精英群體研究”完全不同的視角。統(tǒng)計(jì)學(xué)的一個(gè)常識(shí)就是,大量的數(shù)據(jù)會(huì)比少量數(shù)據(jù)更有利于回歸分析。所以,我相信這個(gè)數(shù)據(jù)庫會(huì)對(duì)拓寬我的研究領(lǐng)域有用。
但需要說明的是,這個(gè)數(shù)據(jù)庫并非獨(dú)立服務(wù)于我的興趣。這是一個(gè)對(duì)很多研究有參考與引用價(jià)值的數(shù)據(jù)庫,它能發(fā)展起來,也不是源于我個(gè)人的學(xué)術(shù)興趣,大家都在努力著。你可以把我對(duì)數(shù)據(jù)庫的工作看成是“基礎(chǔ)設(shè)施建設(shè)”。(Infrastructure Building)

澎湃新聞:回到這個(gè)CBDB系統(tǒng)本身,您覺得這個(gè)系統(tǒng)和其他數(shù)據(jù)庫相比,最大的優(yōu)勢在什么地方?
包弼德:很簡單,這個(gè)系統(tǒng)是獨(dú)一無二的。這個(gè)世界上,還沒有第二個(gè)歷史數(shù)據(jù)庫像CBDB一樣獨(dú)特。首先,其他數(shù)據(jù)庫也許會(huì)做部分的圖表展示和分析,但大多還是最基礎(chǔ)的全文錄入,比如像Google Scholar, 包括中國的知網(wǎng),都是全文的基礎(chǔ)上,用關(guān)鍵詞搜索的方式來展示,沒有任何進(jìn)一步解讀和分析,但像CBDB這樣的關(guān)系型數(shù)據(jù)庫,通過對(duì)一些變化詞語的編程,使其變得更簡化,也因?yàn)檫@種簡化,CBDB可以很方便地和其他系統(tǒng)互動(dòng),比如地理信息系統(tǒng),從而很快實(shí)現(xiàn)可視化的效果。第二,其他的數(shù)據(jù)庫會(huì)有登錄權(quán)限,很多文件都是付費(fèi)的,但CBDB完全免費(fèi),所有內(nèi)容,包括整個(gè)數(shù)據(jù)庫都可以免費(fèi)下載。我們不以盈利為目的,完全以推動(dòng)歷史學(xué)量化研究這樣純粹的學(xué)術(shù)目標(biāo)進(jìn)行數(shù)據(jù)庫運(yùn)營,別的數(shù)據(jù)庫基本做不到這一點(diǎn)。

澎湃新聞:依托于CBDB數(shù)據(jù)庫,現(xiàn)在有什么最新的成果展示嗎?
包弼德:自然有很多,但我無法一一解答出來。因?yàn)閷?duì)于我們而言,重點(diǎn)在于維護(hù)這套系統(tǒng)而不是關(guān)注這套系統(tǒng)帶來多少新的成果。但當(dāng)然,依托于大數(shù)據(jù),我們肯定能發(fā)現(xiàn)非常多過去無法得出的成果,這不僅僅是數(shù)量差異,更多的是維度差別。
澎湃新聞:如此說來,這種維度差別是否說明歷史學(xué)研究將要進(jìn)入一個(gè)更加新的維度?或者換句話說,量化研究開始進(jìn)入政治史、思想史領(lǐng)域,是否說明其將在未來成為歷史學(xué)研究的主流?
包弼德:這種說法需要警惕。因?yàn)闅v史未來的面向是多元的,量化自然是其中一個(gè),但并不是唯一的趨勢。對(duì)我而言,量化于歷史學(xué)研究的最大意義,在于其豐富了歷史學(xué)的研究方法。它作為一種研究工具出現(xiàn),大大擴(kuò)展了舊有歷史學(xué)研究的領(lǐng)域。但這并不能因此推斷出,歷史學(xué)未來的趨勢就是量化研究,至少我希望不會(huì)出現(xiàn)量化研究一家獨(dú)大的情況。
量化為歷史學(xué)研究提供一個(gè)新的角度,但這并不代表需要對(duì)舊有研究方式進(jìn)行取代。每種研究方式都有自己的優(yōu)勢和限制,量化也不例外。因此,我相信傳統(tǒng)的大部頭歷史原著閱讀,還是能發(fā)揮其展現(xiàn)觀點(diǎn)的連續(xù)性優(yōu)勢,而數(shù)據(jù)庫則在發(fā)掘新觀點(diǎn)上提升了速度,兩者其實(shí)不矛盾,反而能互補(bǔ)和共同促進(jìn)。
要知道,量化研究的出現(xiàn)從來不是為了去擠壓任何其他歷史研究的空間,即使客觀出現(xiàn)了某種空間的擠壓,那也不是有意為之。量化的目的,是開辟新領(lǐng)域,而不是擠壓舊有領(lǐng)域。
澎湃新聞:談?wù)勯T檻問題吧。CBDB數(shù)據(jù)庫的出現(xiàn),似乎在一方面降低了對(duì)歷史愛好者進(jìn)入研究領(lǐng)域的門檻,更多人可以在不接受,或者不完全接受嚴(yán)格的學(xué)術(shù)訓(xùn)練下研究歷史;但在另一方面,這對(duì)于很多沒接受過數(shù)據(jù)分析或計(jì)算機(jī)培訓(xùn)的傳統(tǒng)的歷史人文研究學(xué)者來說,這種數(shù)據(jù)庫的出現(xiàn)似乎又增加了不少門檻難度?
包弼德:首先,關(guān)于降低門檻,如果這是真的,我會(huì)非常樂意見到;雖然至少到現(xiàn)在,這種情況還沒有出現(xiàn),但如果出現(xiàn)了,也會(huì)是CBDB的一大貢獻(xiàn);其次,關(guān)于提高傳統(tǒng)學(xué)者的門檻,我覺得這只是短暫的。現(xiàn)在確實(shí)很多學(xué)者不會(huì)用數(shù)據(jù)庫,但我覺得未來會(huì)改變的。因?yàn)閿?shù)據(jù)庫的優(yōu)勢就擺在那里,如果你想發(fā)現(xiàn)新的角度,你就會(huì)努力去學(xué)。當(dāng)然我也不否認(rèn),很多學(xué)者其實(shí)并不愿意去學(xué)數(shù)據(jù)庫,就個(gè)人而言,這完全沒有問題。我也覺得,當(dāng)這個(gè)問題對(duì)于他們研究而言不那么重要時(shí),他們自然不會(huì)去挖掘,人之常情。但就整個(gè)歷史學(xué)研究而言,一種開放式的態(tài)度還是很重要的。對(duì)我來說,歷史研究永遠(yuǎn)不止一種研究方式,用任何你覺得有用的方式來完成研究,只要有助于你理解歷史,這就足夠了。前提是,你要有發(fā)現(xiàn)問題的能力,和清晰知道哪種方式,哪種工具能有助于你解決問題。
澎湃新聞:現(xiàn)在CBDB,包括許多歷史數(shù)據(jù)庫均停留在簡單的歷史數(shù)據(jù)展示階段,但根據(jù)以往其他領(lǐng)域大數(shù)據(jù)挖掘的經(jīng)驗(yàn)來看,這種數(shù)據(jù)的關(guān)系式挖掘和展示的現(xiàn)狀,很可能會(huì)往更深一步的智能分析甚至機(jī)器學(xué)習(xí)取代。您覺得未來CBDB會(huì)有真正的深度挖掘甚至機(jī)器自主學(xué)習(xí)分析嗎?
包弼德:就目前而言,CBDB已經(jīng)可以通過其他分析工具的輔助,比如地理信息系統(tǒng),來實(shí)現(xiàn)數(shù)據(jù)分析的工作。我覺得在CBDB系統(tǒng)內(nèi)部建立自主分析可能不是一個(gè)好主意,不僅因?yàn)樗苜F,很困難,更因?yàn)槲覀儸F(xiàn)在的工作是做到數(shù)據(jù)庫的進(jìn)一步龐大和精細(xì)?,F(xiàn)在CBDB數(shù)據(jù)庫內(nèi)容還不是特別豐富,而可以借助的分析工具已經(jīng)很多,所以我們的工作更多在于可以導(dǎo)出足夠多的數(shù)據(jù)用來分析?,F(xiàn)在就考慮自主分析可能有些過早。
至于CBDB未來會(huì)有什么的走向,我覺得最宏大的愿景,就是將中國每一個(gè)有史可載的個(gè)人都錄入進(jìn)這個(gè)系統(tǒng)里。當(dāng)然我知道這是一個(gè)幾乎不可能短期完成的任務(wù),但我們至少可以不斷接近它。至于最近可以用到的資源,我們會(huì)盡量搜集各地的地方志資料,因?yàn)樗容^詳實(shí)齊全,對(duì)我們擴(kuò)充數(shù)據(jù)庫意義重大。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司