#  数据分析和中国历代人物传记资料库(Python and CBDB) 

 



## **CBDB Seminar**

## **November, 22, 2019**


##  2019年11月22日，CBDB2019届访问学者——来自北京大学信息管理系的严承希博士带来了题为“数据挖掘和中国历代人物传记资料库”的报告，旨在指导大家更好地运用计算机手段在CBDB数据库上作文本挖掘与处理，完善和推进相关研究。

##  由于这是一场面对文史哲专业的讲座，大部分在座的听众对数据挖掘和编程十分陌生，甚至从未有过接触。所以在一开始，严承希博士就细致耐心地向大家介绍了Python的基本理念和流程：安装与配置——包管理——变量与运算——条件与循环——函数与模块——正则表达式。并介绍了学界相关研究的最新进展，以及相关应用Jupyter。随后大家在他的指导下成功安装了软件，并跟着严承希博士开始尝试初步的应用。在程序运行中，严承希博士详细介绍了几个常用的公式和其对应含义，如“if”“in”“and”等，以及如何用表达式提取学术研究中需要的数据库文献的信息。以CBDB数据库为例，运用Jupyter将CBDB导入后，可以运用拟定好的程序批量、快速地获取文史学者在研究中所需要的各类要素信息，并对其进行分析，如面对唐代墓志铭文献，在完成脚本化处理以后，如果以数据挖掘的角度介入，可以批量识别出墓志铭中出现的三种信息要素：人名、官职和地点，并找出他们之中的联系。同时，面对社交网络分析，可以在CBDB中导入某个人的全部社会关系，通过Python来计算、展现他们的社交关系远近，如：A是通过几个中间人而和B产生联系的，A和B两人有什么共同的社会关系，和A交往最密切的人是谁？这些都对文史工作者研究古代文人的文学交游、师承关系和文学谱系有着十分重要的帮助。

##  此外，为了让大家以更简单地方式掌握社交网络分析的相关应用，严承希博士还介绍了Rawgraphs应用，这是一款可以网页版使用的社交网络分析运用，操作更简单上手，在导入需要分析的文件后，可以选择应用程序中合适的模板作为模型，如波浪图、扇形图、网络图等，并根据自己的文件中内容的实际情况设定X坐标和Y坐标，调整模型的颜色、大小和比例，将其更好地呈现出来。

##  严承希博士本月的讲座让在座的聽眾都产生了耳目一新的感觉，第一次接触数据挖掘的应用，大家上手的过程都比较慢，但是严承希博士十分耐心讲解，大家慢慢都能运算出一些简单地程序，对Python和Jupyter的运作有了初步的了解，相信在之后的学习和研究中，能够运用一些简单的数据挖掘方式介入自己的研究和CBDB的工作。

 ![yanchengxi](/sites/g/files/omnuum3101/files/cbdb/files/yan_cheng_xi_zhao_pian_.jpg)

 

###  Writer: Huang Yimei

###  Editor: Liu Yunou