܄

精准分析智能索引 访搜狐大数据平台运营团队

【数据猿导读】 随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。本文是对搜狐大数据平台运营团队的一个采访,就当下大数据平台的解决方案以及未来的应用前景进行与在座的专家及媒体进行了分享

精准分析智能索引 访搜狐大数据平台运营团队

当下的互联网领域,大数据的应用已十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各个领域。而IT厂商也纷纷布局大数据,推出各自的大数据解决方案。近日,比特网记者走访了搜狐大数据平台核心负责人,包括搜狐大数据平台负责人、研发中心高级经理,以及英特尔搜狐创新实验室负责人彭毅;搜狐大数据平台核心技术人员、搜狐研发中心高级研究员王蕾;搜狐大数据平台核心技术人员、搜狐研发中心高级研究员王帅等多位负责人就当下大数据平台的解决方案以及未来的应用前景进行与在座的专家及媒体进行了分享。

搜狐大数据平台负责人、研发中心高级经理,以及英特尔搜狐创新实验室负责人彭毅

技术方案取决于业务需求

搜狐大数据平台负责人彭毅表示搜狐大数据平台隶属搜狐集团下北京研发中心的基础架构部门,主要负责搜狐的相关基础架构的技术研究工作,包括硬件、平台,包括底层技术相关的一些东西。随着大数据的热度越来越高,搜狐对于数据的价值越来越重视,力求运用数据指导业务的发展来满足用户不断的产生的新需求成为搜狐业务发展的新动力。这个项目在我们内部有一个代号“大耳狐”,在项目组成立初期主要是为了满足业务线对数据处理平台的计算需求。后续随着业务对各方面计算力,包括新的计算需求我们又提供了更多线上服务。

数量:针对服务的范畴,搜狐的产品非常多,包括新闻文案、广告、搜索、精准投放等等。技术团队需要分析海量信息,从中收集上千万的用户浏览记录,从用户不同维度分析,了解用户对每种产品的接受能力,从而为产品定出最佳体验。每天的应用会产生大量数据,“大耳狐”平台一天的原始日志20TB左右,目前收集到的各种应用,产生的各种数据在60TB-200TB之间,数据收集回来之后进行各种整合计算,包括清洗,然后根据需求导入Hive、HBase,做成各种各样需要的计算结果,最终把这个结果展现给用户。

多样性:技术团队除了分析了购买记录这种结构化的数据外,他们也利用社交媒体发帖这种新型的非结构化数据。由于用户需要在页面页上点赞或留言以获得更多服务,团队甚至可根据用户的喜好,从而判断他们对于当前的服务形式是否满意,并微调策略。

速度:为了实现数据价值最大化,技术团队对数据进行实时或近似实时的处理。他们可成功地根据一个用户既往的浏览习惯,为其推送相应的信息或是产品资讯,以此为客户带来更多的便与惊喜。

举个例子,精准投放,现在的客户越来越重视广告的精准投放,而互联网用户在使用各种产品的时候会产生各种行为数据,比如他点击了什么,浏览了什么,搜索了什么,“大耳狐”平台会对这些数据可以实时收集,经过卡夫卡集群做中间的数据调度,然后再把它放到Hadoop集群上,业务线会根据收集回来的数据做精准计算,为用户打标签,某个用户有什么特性,喜欢关注什么,平台所推送的广告与会与之相关联。透过这一系列的动作,业务团队不提高了推送与定价的准确度同时也将大幅改善整体业务的响应速度。

如何选择适合自身的解决方案

搜狐大数据平台在建立之初都是从基础服务开始,也就是基于最常见的Hadoop、Hive、HBase,这一方案更倾向于存储和统计。随着现在新技术不断地发展,像Spark的优势非常明显,但是由于技术比较新,所以各种技术稳定性、成熟度还没有达到在线应用要求。搜狐的技术团队要做的就是怎么让用户用的更好,在线应用要求不仅能用,还要稳定,还要保证不能影响别人。这包括现在大数据部门又提出要求更快速的查找结果,比如几百TB的数据,可能需要一秒钟内返回一个传输结果。这样的数据量在目前,无论是HBase还是Hive这种数据库的情况下无论如何完成不了。这时候搜狐研究了自己的技术“麒麟”,它是一套把Hive数据转成HBase,建立一种数据模型的方式,这种做法主要是牺牲空间换时间,为了超大数据量的查询,短时间内能够尽快地返回结果。这些技术现在已经上线了,持续跟进。技术团队会收集各个部门和各条业务线的需求作为自身的研究方向。

彭毅强调,在“大耳狐”平台的项目实施过程中,搜狐与英特尔有一个联合实验室,工作人员会对前沿的技术进行深入挖掘和探究。该平台在设计上采用基于开源做的搜狐自有版本,基于开源平台上做的大数据平台,搜狐与英特尔进行的合作主要是在底层硬件调优,包括计算力的更高效使用,以及在基于英特尔架构的硬件平台上如何把性能发挥到极致。

在基础硬件的选型过程中,“大耳狐”平台整个集群的硬件对比了Facebook、推特这种国际上广泛使用大数据技术的厂商。从这些厂商公开的资料可以看出,目前的硬件权衡工作基本上从CPU选型以后,基本是核数,然后内存大小、硬盘容量、硬盘个数、网络吞吐量等几个部分综合权衡集群计算能力。而“大耳狐”平台则是获得了英特尔大量的协助,从CPU型号的权衡上采用了基于英特尔至强E5v3处理器的硬件平台,提供了非常好的计算能力,采用英特尔万兆网卡在我们的主板上为我们的网络数据吞吐提供了有力支持。

自动分析、智能优化、大幅降低运维成本

目前,“大耳狐”平台已有30PB的数据量,在搜狐所有业务线的数据,每天都持续的存到这个平台,并通过该平台进行后续的数据分析与挖掘。,由于集群规模不断地增大,从之前的200套到目前的六七百台,估计今年上半年能到一千台左右。在规模不断增加之下,也会有性能的优化以及可流转性这也是我们的一个研究方向。还有面向用户的,虽然大数据提供的是最基本的计算和存储,在这之上我们对业务线对大数据的服务有不同的需求,比如对数据仓库、OLAP等等有相应需求,搜狐针对用户的具体需求,结合应用特性,把具体的需求接入到平台内。

“大耳狐”平台为搜狐集团下的所有业务线提供计算力的服务,并提供集中的管理。这个平台主要擅长Hadoop集群所有的资源调度,包括账户的管理,给业务线便捷的使用。而得益于自动化管理和智能优化的特性,“大耳狐”的运维团队的人数并不多,其中分为两部分,一部分人员负责平台研发,基于Hadoop大数据相关的技术研究目前比较成熟,但是不同版本的软件接口在具体实施过程中还是有各种各样问题,我们主要针对这些问题做软件架构的集成。而团队中的另一部分则是负责大数据相关的维修,大数据的用户能够有一个统一入口,能够看到它的作业状况。

“大耳狐”平台在产品设计上拥有很多便捷的地方,对于业务线来说,“大耳狐”方便灵活,使用中用户无需考虑太多细节的问题。在监控部分,相关业务问题能知道当下跑的任务的实时情况,资源的使用情况以及平台的安全可靠性。管理者能够提供基于业务线下属的二级用户的权限管理,对业务线提供技术服务的同时,“大耳狐”平台不断地收集用户业务线的需求,不断地对产品进行迭代,提供更新、更快的计算服务。

写在最后:

通过对搜狐“大耳狐”平台的了解我们不难发现,传统IT门户正加速向大数据方案提供商转型。大数据解决方案提供商面向企业用户提供大数据一站式部署方案,覆盖数据中心和服务器等硬件、数据存储和数据库等基础软件、大数据分析应用软件以及技术运维支持等方面内容。其中,大数据基础硬件和应用软件是否能真正适合企业自身的业务需求以及长远的发展才是大数据解决方案中的重点内容。

搜狐大数据平台负责人彭毅表示:在未来,通过用户使用我们的大数据产品,包括各种途径得到的大量数据,经过这些数据处理结合之后,对大数据集合的处理,能为用户提供更为精准、用户更想要得到的数据,相信这也是作为搜狐一直追求的目标。


来源:比特网

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

相关精彩内容推荐

我要评论

精品栏目

[2016/10/10]

大数据24小时

More>

[2016/09/26-7]

大数据周周看

More>

[2016/09/01-30]

大数据投融资

More>

[2016/11/04-11]

大咖周语录

More>

[2016/10/31-7]

大数据周聘汇

More>

[2016/11/01-6]

每周一本书

More>