人工智慧與數位人文 - 中國歷代人物傳記資料庫同仁（2024-2025）第一場報告

中國歷代人物傳記資料庫（CBDB）專案同仁於2025年5月15日至16日在波士頓劍橋發表了他們的研究成果。

5月15日的發表會在CGIS Knafel大樓K354舉行。當天共分為兩個場次。第一場的主題是社會網絡分析（SNA），本場次的發表內容包括：

書寫如何建構佛教歷史記憶：以唐代僧人數據爲中心的反思 投影片下載
熊钿（中國歷代人物傳記資料庫訪問學者，來自河南大學）
本次彙報以唐代僧人群體爲切入點，通過對2800餘條數據的梳理，分析佛教史書寫中存在的類型選擇、性別排除與敘事結構變遷。以馬祖道一及“洪州宗”爲例，探討禪宗如何通過“祖師譜系”式的單一線性敘事，取代早期“十科分類”的多元結構，從而確立起宗派話語地位的。

明代結社文人地理分佈與構成研究 投影片下載
伏虹晓（中國歷代人物傳記資料庫訪問學者，來自浙江大學）
本研究首次採用大語言模型（LLM）進行數據提取，實踐表明該方法兼具準確性與高效性，不僅大幅提升了結構化數據的處理效率，還爲CBDB拓展了新的數據來源渠道。
明代文人結社規模堪稱歷代之最。本研究選取其中與CBDB匹配的一千餘位人物作爲樣本，通過分析其地理分佈特徵及在社中佔比，深入探討文人結社與鄉黨關係之間的內在關聯；同時考察結社時間分佈與朝代更迭的潛在聯繫。基於社會網絡關係圖譜，本研究進一步揭示了明代文學人物的結社偏好，由此窺見明人如何通過結社構建“文權”與“政權”。

第二場的主題是「書信」：

階層·地方·文本：明代實物書信中的關係網絡 投影片下載
韩明亮（中國歷代人物傳記資料庫訪問學者，來自浙江大學）
大批量的明代實物書信是理解文本與世界關係的重要窗口。可視化工具讓書信分析得以從整體上展開比較考察，由此看到明代實物書信在文化與文獻層面的獨特景觀。明代實物書信中一個突出的角色是以方用彬爲收信人的800餘通書信，這批書信寫信人的空間分佈與寫信數量構成的頻次比較，系統展現了晚明徽州商人在精英社會中的活躍程度，並藉助這一社會切片理解不同階層之間密切互動的晚明景觀。在這一批獨特的文獻之外，蘇州群體內部的書信集群呈現出均勻且密切的分佈特徵。蘇州內部圈層化的多元溝通網絡有三方面的社會動力：家族、師徒和文化活動。以上兩大文獻集群構成對中晚明理解的兩大歷史切片。掌控數以千計實物文獻重塑理解歷史新視角，在生髮快感的同時，也帶給我們一種歷史的文獻迷思。我們藉助實物書信生產與收藏的歷史語境、辨僞、文物流轉與檔案管理等多重文獻脈絡梳理，嘗試揭示這種歷史切片被選擇的必然。

明代核心人物群：“名公”群體通信與時空分析
陈泓安（中國歷代人物傳記資料庫訪問學者，來自浙江大學）
本次彙報以《國朝名公翰藻》書信總集（明萬曆十五年刻本）爲基礎，選取截至萬曆十五年的明代文學、文化、思想界核心人物——“名公”群體作爲研究核心，通過整理其書信往來中的書信作者與收信人信息，構建出一幅初步的明代名公社會關係網絡與地理分佈圖譜。在尚未完成全部收信人身份識別的基礎上，本研究聚焦於名公彼此之間的通信，分析其在時空維度上的聯繫與演化特徵，揭示其背後的歷史與社會背景，作爲後續深入研究的基礎。此外，本次還將展示LLM在收信人身份識別方面的輔助作用。

如何脫穎而出：明代藝術家的交往圖譜
庄宇宁（中國歷代人物傳記資料庫訪問學者，來自東南大學）
本研究以《中國美術家大辭典》爲數據基礎，構建了一套處理現代出版物中複雜版式內容的標準化流程，並結合“明代書信計劃”中的通信數據，提取具備書信記錄的藝術家群體，探討藝術家如何通過交往建構聲望與文化地位。研究發現，社交網絡中的核心人物多爲政治家或文人，而非典型的藝術創作者，且藝術家的地理分佈與明代進士高度重合。這一結果引發了對《中國美術家大辭典》在界定“藝術家”身份時標準是否過於寬泛的反思。爲進一步探討藝術家在交往互動中如何確立其審美權威，本文以文徵明爲個案，結合《甫田集》、《雅債》、CBDB等多源數據重構其社會關係網絡與交往形式。儘管不同數據源所生成的網絡圖在結構上存在顯著差異，但它們從不同角度拓展了對藝術家群體的觀察和思考。

5月16日的發表會在CGIS S050舉行。當天同樣分為兩個場次。第一場的主題是：沒有專業領域知識的技術學者如何為人文研究專案做出貢獻：

複雜親屬關係網絡可視化
Luo, Queenie（中國歷代人物傳記資料庫研究助理，哈佛大學東亞系博士生）
本次報告將介紹一款專爲中國歷代人物傳記資料數據庫（CBDB）設計的新型親屬關係網絡可視化工具。CBDB 包含數百萬條人物傳記記錄，其中包括諸如父子關係及擴展家族聯繫等詳細的親屬關係數據。儘管該數據庫的數據極爲豐富，目前卻缺乏能夠有效體現其複雜歷史親屬結構的可視化工具。現有的家譜可視化方案往往過於簡化，難以展現 CBDB 中多代、多向的親屬關係。本工具通過構建一個可擴展、聚焦於家譜學的可視化框架，克服了上述侷限，顯著提升了 CBDB 親屬數據的可達性與可讀性。報告將展示該工具的具體使用方法，並徵求公衆意見，以進一步完善與擴展該平臺的功能。

基於大語言模型的明代人物消歧模型構建研究
刘贞伶（中國歷代人物傳記資料庫訪問學者，來自北京大學）
本研究聚焦於歷史人物記錄中的姓名消歧問題，旨在構建一個基於人物消歧的判別模型，以識別這對同名者是否爲同一人物。以《明代職官年表》爲數據基礎，每條人物記錄以結構化格式呈現。以維基百科作爲人物消歧的參考，並藉助大語言模型將人物記錄與維基百科內容進行語義匹配。在此框架下，研究構建成對樣本集，結合文本相似度、任職時間差異、官職層級等多維特徵，訓練二分類模型以輸出相似度得分。所構建模型支持對能鑲嵌進此空間的同名人物進行消歧判斷。

《四庫全書》數據挖掘中得出的發現 投影片下載
郑钰骐（中國歷代人物傳記資料庫研究助理，哈佛大學本科生）
本次彙報將介紹我學習數據挖掘的三個階段。我首先復現了已處理的蘇州數據。這一過程幫助我覈對了第一批四庫全書的內容，並將類似的分類方法應用於第二批內容。我將討論在處理過程中遇到的挑戰，例如縮進、格式和顏色上的差異，以及我們如何根據每批數據的特點制定個性化的解決方案。爲提升內容導向型標註的準確性，我引入了“標題”和“副標題”等新標籤。彙報還將評估在追求標註精度與代碼複用性之間所需的平衡，重點分析在第二批數據中按樣式排序的侷限性。最後，我將比較 docx 和 pypandoc 等工具包各自的優劣，並分享一些可能對未來項目有參考價值的模式識別技巧。

第二場的主題是地理信息系統（GIS）：

大語言模型時代的中國古代戲曲作家數據挖掘與研究 投影片下載
陈红艳（中國歷代人物傳記資料庫訪問學者，來自湖北大學）
本次彙報聚焦元、明、清三代中國古代戲曲作家的數據挖掘與分析，探索在大語言模型（LLMs）快速發展背景下，數字技術如何助力戲曲作家群體研究。通過地理可視化與統計分析，系統揭示戲曲作家籍貫分佈的空間格局及其歷史演變特徵，剖析其與區域社會文化結構的互動關係。在整體分析的基礎上，本報告以江南地區爲個案，深入探討其成爲戲曲創作中心的時空路徑與機制。

歷代中國翻譯家數據挖掘與研究
胡伊伊（中國歷代人物傳記資料庫訪問學者，來自復旦大學）
本研究以中國歷代翻譯家爲研究對象，立足於數字人文的跨學科視角，綜合運用數據挖掘、地理信息系統（GIS）與可視化技術，系統分析不同時期翻譯家的數量分佈、空間格局及其歷史演變特徵。研究首先構建包含生卒年、籍貫、譯作等多維度要素的翻譯家數據集，基於歷代統計數據考察翻譯家在地域上的集聚與遷移趨勢，揭示政治、文化、宗教、制度等多重因素對翻譯活動空間分佈的影響。在總體分析的基礎上，研究進一步聚焦唐、遼、宋、西夏、元、明、清等具有代表性的歷史階段，選取上述階段典型翻譯家群體並開展個案研究，探索在特定歷史語境下翻譯活動的制度安排、跨文化互動路徑與知識傳播機制。通過宏觀趨勢與微觀實例的結合，旨在爲中國翻譯史的時空結構研究提供新的數字證據與解釋框架。

誰推動了改革——試論晚清地方大幕的成員結構及地域分佈 投影片下載
闫力元（中國歷代人物傳記資料庫訪問學者，來自復旦大學）
我的報告聚焦晚清改革的核心問題：“誰在推動改革？”。我的研究將以曾國藩、張之洞、李鴻章三位重臣的幕府爲中心，運用群體傳記學和數據可視化方法，系統考察幕僚的籍貫地域、社會階層、及其參與的幕府活動（如軍事、政事，特別是洋務）。通過量化分析與思想史解讀相結合，期望能更清晰地描繪出晚清改革力量的構成、地域分佈特徵及其背後的思想動因，爲理解晚清變革提供一個基於數據的新視角。在本次報告中，除了基本的數據介紹，我會先回顧學界在晚清幕府、改革動力及參與主體等方面的研究成果，明確本研究的切入點，並介紹目前這一研究的進展。

中國歷代人物傳記資料庫（CBDB）專案主任包弼德教授；Digital China Initiative(DCI) 專案執行主任鄧國亮博士；CBDB 專案經理李倚天；以及各位發表人皆為此次豐富且深入的討論做出了貢獻。

CBDB助理專案經理潘小莹；哈佛藝術與人文研究運算（Harvard Arts & Humanities Research Computing）部門的資深軟體工程師 Kevin Lin; 東亞語言與文明系訪問學者林文州；哈佛大學訪問學者楊玉娟；以及CBDB數據科學貢獻者 Cheng, Chao 亦參加會議。CBDB資深專案經理王宏甦主持了所有發表會議程。