܄

大数据看历史:中国皇帝非正常死亡率比普通人高一千倍

【数据猿导读】 大数据发现从汉朝初期到清朝,330多名皇帝中有35%的皇帝是死于非命,也就是说非正常死亡,这个概率比普通人非正常死亡大概要多一千倍左右

大数据看历史:中国皇帝非正常死亡率比普通人高一千倍

“量化研究发现,中国皇帝的非正常死亡率比普通人高一千倍左右”

以下为澎湃新闻专访陈志武实录:

问:近几年您开始办量化历史讲习班,您为什么关注这个领域?黄仁宇先生说中国缺乏“数目字”管理,做量化历史研究的时候是不是面临数据缺乏的问题?

陈志武:很多人可能有这样的想法和印象。实际情况是,可以用量化的方法来研究的中国历史课题,远远超出我们的想象。最近几年,乃至未来,我会重点推动量化研究方法在历史研究中的应用,特别是在中国历史研究中的应用,主要有以下几方面的考虑:

第一,从90年代初到现在,现代经济学、金融学已经比较系统的深入到国内主要大学的经济系和金融系。尽管还是有很多的经济系、金融系尚未和国际接轨,但是有相当多的经济学、金融学老师至少知道好的经济学、金融学研究是什么样子,该用什么样的方法。所以对我来说,如果我继续致力于推动国内的经济学、金融学研究国际化,边际价值可能不是最高的,因为已经有很多人都可以做这样的事。相比之下,中国历史研究的方法论太落后了,基本上几百年来都没有太大的变化,主要是做史料考据,研究个案细节,猜想一些可能的因果关系等等,没有更进一步的把猜想做一些证明、证伪的举措。

第二,我们看到在二十世纪,经济学、心理学、社会学等的社会科学领域的发展非常丰富,尤其是方法论、统计研究方法等融入到社会科学,进入到经济学已经是根深蒂固了。二十世纪社会科学领域大发展之后,方法论和分析框架方面提供那么多的新工具,但是到目前为止,还没有在历史研究领域得到更广泛的应用。

这是两大背景,第一个背景是就我个人而言,继续去做经济、金融方面的推广,边际价值是比较有限的;第二个背景是二十世纪社会科学在研究方法和分析框架方面有非常多的进展,但历史学界对于这些进展的了解和接受度是比较有限的。

第三,历史档案的电子化、数据化的程度是前所未有的。现在我们都强调这个大数据,那个大数据,但是实际上可能很多人没有注意到历史资料的大数据是非常实实在在的。比如说,我们做研究用得比较多的是中国清代刑科题本,这个数据库将近五十万份题本档案,平均每份档案有三十来页。也就是说,清代两百多年的史料中,单就刑科留下来的重案、要案,特别是命案的细节材料就有一千五百多万页。这是一个什么概念呢?比如说一个人每天可以读一千页,就要一万五千天,大概40多年才能看完。这样大数据库,靠个人去找是不可能的。因此最近几年,我每天会安排五六个,甚至七八个助研在中国第一历史档案馆里面搜集资料,并建立数据库,每天八个人要做好几年才能够做完这样一个工作量。所以,大数据时代带来的研究方面的挑战,表现在要用原来读历史资料去研究历史的方法是很难行得通的。因为这么多的资料,如果不能够利用上现在的统计、计量方法,那么研究根本没有办法做。这是为什么量化研究方法在历史大数据时代,不是一个选择,而是一个必须要采用的方法,否则没有办法开展研究。

第四,中国的历史研究一直是过度意识形态化,也是非常的定性化。这种定性的研究、意识形态化的研究,在历史研究方法上基本跟我们一直强调的科学方法相违背。所以,我们在推动量化历史研究方法的时候,实际上一个最根本的目标就是让历史研究尽量按照科学研究方法来做,而不是原来说的“历史像姑娘一样,可以随便地打扮”。任何一个国家,尤其是像中国这样的一个大国,特别是现在强调中国文化影响世界,如果中国自己的历史研究状况没有办法改变,我们在这边随便说、随意定性,充满意识形态化的扭曲、篡改历史,那么中国文化本身的内涵,就很难让人去学习和接受的。而且这对于中国自己来说也是非常有必要的,过去几千年,中国社会、中国人是怎么走过来的,我们需要有更多的真实了解,这对整个社会未来的发展都是非常关键和重要的。

当然讲这些可能太抽象,我举一个具体研究的例子。最近我跟以前的学生林展做一项研究,就是把中国从汉朝初期一直到清朝各个皇帝的资料建立一个数据库,最初我们做这个研究的主要动机是想了解,过去两千多年不同的皇帝在什么时候、什么情况下,哪一种类型的皇帝更有可能去大刀阔斧地反腐,整治官员。我们在整理吏治数据库信息过程中,把皇帝各个方面的信息都搜集起来,比如哪一年出生,登基的时候多大,哪一年死的,怎么死的等等。结果我们发现从汉朝初期到清朝,330多名皇帝中有35%的皇帝是死于非命,也就是说非正常死亡,这个概率比普通人非正常死亡大概要多一千倍左右。我们在做的另一篇历史研究论文,发现从清朝的初期到末期,平均下来一年10万个人里面有约1.5个人会死于非命。而皇帝死于非命的概率比常人要高一千多倍,所以说做皇帝以后就不可能像正常人那么善良。这个道理很简单,你如果太手软,别人可能把你先杀掉了。

所以我们想通过尽可能大规模,最完整的数据搜集,通过量化的方法去做历史研究。这样我们就理解了,原来中国皇帝的行为之所以是那样的,是因为他们收益和成本之间的权衡和普通人是很不一样的。权力大了以后,掌握的资源也多,既然你掌握的资源多了,别人想要得到这个权力的兴趣也增加了很多。互相之间的竞争也很激烈。当然,这个研究现在我们还在继续做,有很多的细节要搞清楚,比如什么情况下、什么皇帝,可能会被谋杀掉,或者是说被别人下毒等等,还是蛮有意思的。

很多人觉得历史研究怎么可以量化,我们真正做起来以后,发现很多的研究实际上是可以量化的。比如关于什么皇帝一上来更有可能大刀阔斧的反腐,这个差别是很大的。雍正一上来就杀了很多官员,包括了他的弟弟,近亲也杀掉了很多。但是乾隆,自1736年登基以后一直到1745年,这十年里面基本上没有整治过官员。但是1745年以后,他就开始整治官员了,而且乾隆到中后期整治官员特别多。

我们有几个方面的原因可以分析:一个是新上任的皇帝,做皇帝是不是有争议,他是不是理所当然,按照以往的规矩是不是应该做太子,然后去做皇帝。如果说没有任何的争议,像乾隆做皇帝基本上没有谁挑战他,因为大家知道按照以往的规矩,他就应该做皇帝,所以大家就认了,但是雍正不是这样。另一个是,上一任皇帝治理能力怎么样,他的在位时间,年数长短等都是很重要的。如果上一任皇帝做的时间太久,而且长期不采取什么行动,那么积累下来的腐败就非常严重,这样新皇帝上位后要整治的必要性就上升了。

中国历史上有这么多的皇帝,跨越了两千多年的不同时期、不同的朝代,这样我们做大样本统计分析的基础也就有了。所以,这些研究对我们了解中国历史变迁、制度、文化、风俗等有重要的意义。很多人说中国皇帝历来就是这样,就是那样,有很多种说法,也许有些是成立的,有些是不成立的。比如中国历史朝代的更替,皇帝的行为方式,他们该怎么样做才会让自己的朝代更有可能繁荣昌盛下去等等,到底哪些说法具有统计意义上的真实性,哪些是根据个案得出来的不具有普遍规律的。这些是以前没有人去真正、系统的去做过研究,我们通过量化研究,通过大数据、大样本的统计分析,可以更准确的做出验证和判断。

做这项研究的时候,我越想越觉得不可思议。过去那么多人去研究二十四史,但没有人真正去做一个基本的数据库,统计有多少皇帝死于非命,还有年龄的分布。我们搜集整理后发现,大概55%的皇帝登基时不到23岁的,约34%是小于18岁。以前我们统计的时候,大概有一点印象,但到底哪些印象是真的,哪些是假的,这个数量是多少等等,以前是没有做过这样的事,现在有这么多的资料,只要在方法论上面稍微有一些训练的话,就会很自然的提出这些问题,并搜集数据做一些分析。

“量化历史研究不是要取代传统的历史研究方法”

问:您的数据库是公开的么,有专门的网站?

陈志武:谁都可以查,但网站建设还需要时间。我们把二十四史中和我们研究有关的资料全部找出来,其中明朝和清朝关于吏治反腐是最详细的。明朝以前,新皇帝上来以后,他的史官将上一个皇帝的历史给写下来,但史官将上一个皇帝做的哪些事写下来,哪些不写下来,这是很主观的,会有一些偏差。但从明朝开始,每年都会记录上一年发生的事,《明实录》、《清实录》的记录就很详细,量非常大。这部分的整理我们还在持续,目前已经花了几个月时间,但还没有整理完,因为五百多年的历史,每年反映上一年的经济、吏治、社会风俗和其他等内容,有很多本材料。大家去做研究时,现代社会科学和计量方法的训练就显得非常重要,不然这么多史料放在你眼前,你都不知道从哪里下手,需要搜集哪些内容和信息,对研究有什么用等等。

所以,用量化的方法对中国历史进行研究,是一件令人激动的事。现在我们通过量化历史讲习班来培养年轻的学者,未来十年,这些学者会从方方面面来开展研究。十年以后再做这种研究,难度可能要上升一些,因为最容易做的已经被我们这一批学者做的差不多了。我相信我们的研究,在未来几年对中国社会历史研究会增加许多新的内容。这一点我非常有信心。当然,目前有一点可能是一般年轻学者不太容易实现的,就是需要很多经费,因为这些数据量都太大,需要要花很多的钱去雇用研究生。人大和北大的历史系硕士研究生我们雇得比较多,这些研究生古文比较好,明朝、清朝的史料很多都是手写的毛笔字,而且没有标点符号,没有一定的古文基础是很难开展的。

问:他们是呈现出来结构化的数据吧。

陈志武:对。先提前设计好,用表格的形式,每个研究主题一般都是好几页。

问:用计量经济学的范式研究历史,在欧美有几十年历史。前段时间去世的诺斯是代表人物之一。目前无论是西方还是中国的主流学界对量化历史研究认可度如何?

陈志武:过去二十多年,诺斯所做的研究使用量化的统计方法还是相对少的,但他使用了很多的数据,统计方法也是比较基础,我们讲习班的课程更深一些。当然,很多年轻的学者比较喜欢,也很激动,但是年长的学者,包括一些年轻的历史系出身的学者也是反对或者排斥,甚至是讽刺和挖苦。我跟我的学生和年轻的学者说,这也挺好的,他们讽刺、挖苦甚至激烈的反对,说明这对他们的研究方法是一个很大的挑战。如果他们没有感觉到挑战的话,反应也不会这么激动,所以我觉得应该从正面看待他们的敌意或者排斥。我非常有信心的说,至少一部分学者态度发生了改变,开始的时候他们的反应可能也是反对或者排斥,但是接着下来他们自己也想要知道量化历史研究方法到底是怎么回事。我不好举名字,之前一些大学的历史系老师对我们办第一届量化历史讲习班持有很强烈的负面观点,然后第二届、第三届,他们开始派自己的学生来学习,这也是我意料之中的。所以我很有信心,量化研究最终对中国的历史研究可以产生一定影响。

当然,我并不是说量化历史研究方法要取代传统的历史研究方法。我在量化历史讲习班一再和学员们强调,我们不是排斥、替代传统的研究方法,而是觉得传统研究方法没有把整个的科学研究过程走完。一般的科学研究方法有如下几步,第一步提出问题,第二步根据掌握的资料提出假说,第三步搜集数据、搜集资料,第四步根据搜集的数据、资料进行统计和分析,并对假说进行检验,第五步将统计分析得出的结果整理、呈现为研究成果。这是过去几百年,从十六世纪物理等开始慢慢推出来的一个科学研究方法。这五步流程一直到现在,只要是经历过科学训练的人都应该了解。但是传统的历史研究方法,提出问题,搜集资料,得出假设,就没有下文了。搜集数据,利用大数据、大样本,传统的历史系学生没有受过这样的训练,利用量化研究的方法来检验假说更是现在的历史训练所没有的。

近十几年,像耶鲁大学、哈佛大学等在量化研究方面做得比较多的主要是在经济系,历史系也慢慢有一些人开始做。此外,用量化方法研究人类的暴力史、犯罪史也比较多,但是做这些研究的学者主要是欧洲和美国的犯罪学系。当然,这不是一个太奇怪的现象,因为在个人电脑、互联网出现之前,用大数据的方法去做研究的时机还不是很成熟。

问:传统史学的研究比较依靠人的记忆力。

陈志武:依靠人工去做大样本的量化统计分析难度太大了。过去十几年,随着互联网的普及,数据库管理的完善,为历史研究引入量化研究方法提供了可靠的基础。在这个背景下,首先是经济系的老师开始了这方面的研究。


来源:澎湃新闻网

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部