程序员如何玩转“深不可测”的基因大数据：这个行业其实只是“数据大”丨数据猿专访聚道科技CEO李厦戎

专访聚道科技李厦戎基因数据大数据

大文 | 2016-12-26

【数据猿导读】随着基因测序成本持续降低以及国家精准医学计划的提出，基因数据重要性日益凸显，得到越来越广泛的应用。

程序员如何玩转“深不可测”的基因大数据：这个行业其实只是“数据大”丨数据猿专访聚道科技CEO李厦戎

（图为：聚道科技CEO李厦戎）

来源：数据猿记者：大文

基因数据带来的挑战

随着基因测序成本持续降低以及国家精准医学计划的提出，基因数据重要性日益凸显，得到越来越广泛的应用。基因测序产生的数据对于临床决策支持、疾病预防控制、新药研发和基础研究等方面都具有重大意义。

为了推动基因组研究在临床中的应用，多个国家层面的大规模研究项目已经开启。2014年英国发起了10万人基因组计划，美国和中国也宣布了百万人基因组数据相关计划。许多区域性的大数据计划也在进行中。随之而来的是基因数据产出量的剧增。2014年，美国一家研究所表示，一组人类基因组信息翻译出来的数据大小有200TB，而他们实验室在10月份的工作量相当于每32分钟就会处理出一组基因组数据，需要的数据容量存储空间对于一家研究所来说，将是个天文数字。这样的海量数据无论是从存储、挖掘还是协作来看，对于存储和计算资源都是个不小的挑战，而资源弹性、稳定低廉、简便易用的云计算正是应对挑战的最好模式。

2013年起，国际巨头亚马逊和谷歌相继推出了针对基因数据的产品，随后，国内以阿里云为代表的一批公有云服务商也纷纷加入了这个潜力巨大的市场，同时催生了一大批从事基因数据处理和挖掘的企业。其中，拥有云服务和大规模数据平台背景的新兴公司迅速崛起，成为基因行业产业链中重要的一环。

GeneDock（聚道科技）就是其中之一。聚道科技创始人李厦戎此前是阿里巴巴友盟的首席数据科学家，2014年9月创立了GeneDock。GeneDock是国内领先大领先的企业级组学数据管理分析平台，为用户提供专业的组学数据传输、生物信息分析、临床与科研数据管理与协作的整体解决方案。

基因数据有何特殊之处？科学家们是如何处理基因数据的？带着这些问题，数据猿对聚道科技CEO李厦戎进行了专访。

数据猿：为什么会选择从事基因数据行业？

李厦戎：2011年起，我在友盟负责数据挖掘团队。友盟是中国最大的移动互联网数据服务提供商之一，面向开发者提供移动APP的数据统计、社会化分享、社区和消息推送服务。我们的数据挖掘团队通过APP数据对移动设备日志进行分析，提供设备标签和用户画像。

这个过程利用到了很多大数据技术和系统，例如Hadoop、Spark、Hbase等，以及基于这些系统的机器学习算法和应用。之前的工作经历让我对互联网大数据处理流程，从原始数据ETL，建Data Warehouse，基于大规模数据训练模型，最后支持应用的整个数据生命周期过程有了更多认识，积累了丰富经验。

其实我这样的程序猿对生物学并不是特别了解，高考之后就基本不知道生物领域有什么进展。2013年末跟朋友聊天了解到了基因测序这个新技术方向，突然发现基因测序技术已经发展到了一个比较成熟的阶段，能够用较低的成本测出一个人的基因组数据。我当时就觉得非常神奇，而且也能感觉到基因数据在未来会扮演很重要的角色。毕竟，基因数据是生命体基础性的数据，能够帮助我们了解自己和其他个体的区别，帮助人类分析和解决疾病和环境问题，从而使生活得到改善。具体而言，在医疗过程中加入基因以及其他组学数据，丰富了数据的维度，也显著增强了医疗的个体化特性。你的基因数据能帮助你解决面临的疾病问题，直接对个体产生价值，这是基因数据非常简单而独特的价值链条。

因此，基因数据能真正造福每个人，而如果聚合更多的个体数据，会帮助我们了解群体面对的问题，造福整个世界，这是数据的更大价值。

面对海量的基因数据，其存储、处理、管理和协作同样需要之前我所熟悉的那套分布式计算系统和数据技术，因此我拉上了之前在阿里云工作的王乐珩，一起创立了聚道科技，致力于将这些技术应用到到基因数据领域来。

数据猿：这些技术能直接在基因领域进行应用吗？

李厦戎：一开始我们认为，Hadoop和Spark可以解决计算的问题， HDFS和Hbase可以解决存储的问题，但这些东西直接拼凑起来就能起作用吗？其实不然，基因数据存在特殊的性质。

首先，基因数据个体的数据量比较大。和互联网数据相比，互联网数据中个体数据量并不是很大，但数量会很大。几千万个用户里，每个用户贡献的数据量其实很小，只有几MB至几十MB。但是基因领域，单个个体的数据量就达到了几GB，甚至百GB级别。换句话说，互联网数据分析的过程中并不注重个体，而是注重群体；但基因数据处理过程中，更加强调每个个体的特异性。

第二，基因组数据在处理和应用方面需要更加严谨——尤其是在健康和临床方面的应用。因此，基因检测行业对于数据处理的要求会更高一些，比如分析结果的一致性、流程的规范程度、数据的隐私性和可追溯性等。

第三，基因组数据的时效性、生命周期非常长。你在刚出生时采集的基因数据，可能会对你整个人生过程都起到价值，甚至还能帮助到你的后代分析遗传特征。而互联网数据，几乎都是相对短的时效性的。

第四，基因组数据的累积对于整个群体是有巨大意义的。更多的样本意味着更多的差异，在对比个体差异的过程中科学家才能获得更深层次的信息。

数据猿：大数据是怎么应用到基因行业中的？

李厦戎：一方面，大数据处理常用的分布式计算能够很好的优化基因数据处理，或者我们称之为生物信息分析的过程，分布式存储也确实能够提高基因数据存取的效率和数据的稳定性。但因为上述基因数据的独特性质，我们更需要注重的是围绕基因数据的特性来设计更高效的计算和存储方式。

基因数据目前还不能算是真正的大数据，它其实只是数据大。目前基因数据的样本量并没有达到互联网那样覆盖几千万甚至上亿的人群规模，就多样性方面来说，目前处理的依然是单个样本的基因组数据，也就是一级分析，或者说是数据清洗和预处理。当我们能关联更多表型的数据、有更多样本量，基于应用持续大范围的产生更多数据的时候，这才是一个大数据的行业。

数据猿：基因数据处理的难点是什么？

李厦戎：数据处理流程太长了。长到什么程度呢？基因测序、分析、解读、应用的过程甚至都是在不同的组织和机构中完成的，而每个阶段都有不同的问题和需求。

我们需要的是一个能够覆盖整个数据生命周期的基因数据操作系统——从数据产生、传输、计算、储存、管理和应用都能够基于这个系统来完成。

所以我们面临的问题就是，如何用一套系统帮助这些组织、企业展开合作？如何理解不同角色对数据的需求？如何解决这些问题和需求？

我们是做企业级服务的，相对技术研发过程，如何看清楚不同环节和机构的场景需求并设计解决方案是一个更大的挑战。

数据猿：这个过程中有哪些地方是创业公司值得关注的呢？

李厦戎：

第一，如何提高数据处理速度、降低数据的处理成本，尤其是更好的基因数据压缩是非常有价值的技术点；

第二，数据安全和规范化也是可以着手的一方面。在这一点上，行业内目前没有特别完整的方案，尤其是对基因检测这样一个较为特殊的领域；

第三，行业中还需要更好的解读系统，能够帮助医生更好的去看数据——数据的可视化展示与操作也很重要。

数据猿：数据技术公司在基因行业是否有优势？

李厦戎：有数据技术背景和研发能力的公司，一定会有优势的。这个领域需要一些行业外的视角来观察，才能发现好的解决方案。基因技术领域有比较大的空间和潜力，会逐渐产出及处理更多的数据，需要完善的数据解决方案使整个行业数据链条更高效便捷的运转，这些都需要靠技术和产品驱动。所以，一个真正有核心技术能力的公司，在这个行业里一定会有一席之地。

数据猿：您是怎么看待本次数据猿主办的“2016基因大数据创业创新POG大赛”的？

李厦戎：我觉得这是一个很好的形式。一方面能够让行业内的企业关注这个领域面对的问题；另一方面竞赛这种形式能够吸引业界之外，尤其是学生群体的关注。通过比赛能够促进学生了解基因数据行业，可以为这个行业吸引更多人才。

（作者：大文微信：discoverier）

来源：数据猿