܄

澳大利亚国立大学教授朱俏俏:大数据时代,我们更需要“小数据”

【数据猿导读】 岁末,由复旦大学管理学院数据驱动管理决策研究中心主办的“基于中国大数据的市场洞察和管理启示”国际研讨会在复旦管院举行。澳大利亚国立大学金融系朱俏俏助理教授阐述了大数据时代金融行业挖掘信息、建立分析模型的重要意义和具体方式

澳大利亚国立大学教授朱俏俏:大数据时代,我们更需要“小数据”

近十年来,金融学最大的驱动进步就来自于数据,所以数据对我们来说并不是一件陌生的事情。大数据概念主要在于两方面:一方面是大,要么是有很多变量,要么有很多观察量,这就是所谓的大;另一方面则包含着算法、数据分类、统计方法等内容,这是金融学可以与大数据进一步相结合的重要方面。大数据概念热潮未退,我们更需要冷静思考一下大数据到底意味着什么,能给我们带来什么。

澳大利亚国立大学金融系助理教授朱俏俏

金融从来不是big data

金融里有一个最简单的结论,或者是最有名的结论就是有限市场里面所有的价格反应了所有的信息,这是对金融最基本的理解。翻译成大数据的话就是,拥有很多变量去预测prices,这里的变量就包括文本挖掘,行为信息。所有关于公司运行能够反应的信息,都能够作为一个业务变量在里面。

文本信息挖掘,就是怎样从文本中能够产生除了传统模型以外的其他信息量。信息量有两种,一种是如果对普遍的股价产生影响,就是所谓的定价因子,另一种是不对普遍的股价产生影响,传统的做法是基金公司里用专门的计算机挖掘这些信息。

我们很多时候希望能够把信息综合到一个综合变量,这很大程度上就是今天所说的情绪变量。从另外一个意义上来说,量化金融研究其实很少完全关于数据的,大部分用的数据,只是用在processing,先把数据准备好,再放到模型里检验。我们用的大多数还是传统的统计检验方法,很少用到所谓新的大数据的方法。

我们更需要小数据

在一定程度上来说,我们并不缺少数据,而是数据太多。数据并不是越大越好,而是要从大数据中进行筛选出真正重要的信息。现在数据越来越大,但对研究者来说,真正需要的并不是大数据,而是小数据。所有社交媒体数据都来自于简单概念,比如相关性、因果关系、预测性,这些都是小数据。

因此,并不是大数据本身给我们带来诸多启示,而是拥有大数据后,我们更加需要更好的数据模型。大数据对我们来说最大的好处,就是让我们能够提出新的问题。

数据再大,仍需取舍

大数据的收集,让我们拥有更多机会研究新的问题。首先,关于商学院,通常我们会问两个问题,一个是从哪个学院毕业,一个是之前做过什么。哪个学院毕业容易度量,但是以前的职业背景就很难度量。现在数据增多,就允许我们做这个问题的研究了。中国基金的发展非常惊人,从零发展至今,需要越来越多的基金经理。我们的研究把基金经理的简历数字化,从中分出几种职业来源,比如政府工作、研究工作、自营业务或者银行工作等等。研究表明,不同职业背景的基金经理对于基金的运行有着不同的影响,这就能够解释一大部分基金的performance和基金style。

第二个例子则是关于信用股。真正对股市两个字新闻的摄取,是从2014年底开始有一个高峰,另一个是2015年4月份。这两个高峰中新闻与股价是很吻合的,但是还不能确定到底是股价上升引起发布更多新闻,还是发了更多新闻引起股价上升。我们采用看AH的方法,同样一个股票在两个地方都有新闻,他们的真正公司背景是一样,他们股票来自两地,和在国内的区别,有人发现两个市场之间相对的舆论会影响两地相对价格的比较。

最后是关于新闻媒体,到底是谁给媒体新闻,这是一个很有意思的问题。因为媒体的新闻一大部分其实是公司自己掌控,所以如果是公司本身的话,他们能不能操作媒体?如果媒体想要利用影响因子来发表利好新闻,对于小公司来说要在市场上发布一个较差的报表,就需要在当天同时发布所有文本的信息给市场,这样股价的下降幅度会比没有发布消息来的小。这其中最关键的是,媒体报道新产品将会使股价下降幅度远远减小,因而公司可以利用舆情来达到新的目的。

大数据不是一切,所有big N的问题,对我们做研究的人来说数据既是我们最讨厌的,同时也是我们最喜欢的。没有数据,我们做研究的人会烦躁缺乏数据怎么办,有了数据我们却不知道真正需要什么样的数据。但即便如此,当我们拥有新的数据之后,我们就可以提出新的问题。

数据本身是需要取舍的,需要保留什么样的数据,需要什么数据能够对金融学、对营销学、对其他学科进行推进,这一方面需要更好的数据模型,另一方面就算我们目前尚不清楚如何使用这些数据,我们同样希望能够完好保留,为下一步的研究,尤其是现在比较前沿的行为金融研究和公司金融研究,都可以增加变量,增加提出新问题的机会。这就是一个大数据研究的最好机会。


来源:复旦管院

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部