܄

微票儿卖疯了!年增长4000%背后的大数据与云计算

【数据猿导读】 近期,一个票务平台火了,日出票达100万张,峰值200万张,年增长率超4000%的骄人成绩羡煞旁人。此次,微票儿技术VP杨淼淼做客“腾讯云会客厅”,解读微票儿成绩背后的大数据和云计算技术体系

微票儿卖疯了!年增长4000%背后的大数据与云计算

微票儿,一个近期特别引人关注的网上购票平台:估值近百亿、与格瓦拉合并、年增长率超4000%、月活突破2千万,覆盖全国500个城市4500多家影院,日出票达100万张,峰值200万张……

这一连串的数据背后,有着什么样的支撑技术?日前,微影时代研发中心技术副总裁杨森淼做客“腾讯云会客厅”,对话腾讯云副总裁曾佳欣,解读了微票儿年增长4000%背后的大数据和云计算技术体系。

杨森淼表示,微票儿的核心在于利用大数据做精准营销及服务,通过卷积神经网络(CNN)、奇异值分解(SVD)等算法对200TB用户数据和行业数据进行分析,微票儿得以精准地把握用户需求,提升了票房转化率;同时,面对用户量高速增长时期高峰值、大流量的挑战,云计算资源的高伸缩性、安全性也是支撑不间断运营的必备条件。

腾讯云副总裁曾佳欣(右)对话微票儿技术副总裁杨森淼(左)

腾讯云副总裁曾佳欣(右)对话微票儿技术副总裁杨森淼(左)

大数据与深度学习的应用

成立仅短短500多天,杨森淼认为,微票儿能够入驻“7亿活跃用户的微信、8亿活跃用户的QQ”,大数据是其核心优势。

微票儿会根据用户热度建议影院优化排片,首先通过数据分析用户位置和用户附近的影院,然后反哺上游,并为影院经理也开发微票专业版,帮助他们了解到自身影院数据,以确定排期和行业大盘。可以说我们的核心竞争力就是利用整个大数据来为电影行业、演出及体育行业去做服务、连接和营销。

具体而言,微票儿大数据分析的数据来源主要包括4大类:

微票儿服务器生产的日志,包括请求访问的数据、接口调用产生的各种日志;业务积累的数据,像影片排期、票房、交易订单的数据、每一项营销活动、评论等;行业大数据,主要是泛娱乐行业网站外部可查可统计的数据及报告;电影社区和用户互动数据。

目前微票儿产生的日志条目数上百亿条,业务累计的数据量不少于千万量级,行业大数据则是以爆炸性的速度不断扩展,目前微票儿的大数据的数据存储总量已达200T。

微票儿通过将这些数据充分融合,为每个用户、电影、演出、渠道实体构建完整的画像,这其中的难度主要在于不同来源的数据的关系建立,数据种类繁杂,来源不一导致很难构建统一的映射关系,目前微票儿通过不断完善匹配关系表再辅以匹配的模型,如语义匹配,海报或宣传照的相似度图像匹配等进行校正,不断的将数据融合满足业务上的拓展及应用。

算法

从逻辑上来看,这个过程又包含了两个部分的算法。

1.特征工程算法

特征工程是指为了提高算法准确性,对数据做的一系列数学变换。这部分工程尤为重要,不光考验算法工程师的数学能力,同样考验工程能力。

巨大的数据集合无法在单机上进行特征抽取的时候,就需要工程人员需要从单机算法设计成为并行特征抽取算法。微票儿特征抽取工程上多采用深度学习(Deep Learning)技术,这是因为深度学习天然的网络拓补结构更容易并行,并行存储也可以满足庞大数据量的存储需求。

当然,这些算法更多的是要去迎合使用场景。比如CNN(Convolutional Neural Network)和SVD(Singular Value Decomposition),这两种降维方法会因为业务场景不同而区分使用。

2.目标结果算法

通过特征工程算法得到的重要维度,交给“目标结果算法”来处理。

除了常规机器学习/深度学习算法以外,微票儿对于不确定数学的相关算法也有一些应用。因为许多场景下,精确估计表现并不是很理想,尤其当自变量解释能力不强的时候。

比如常用的Regression算法对于确定信息有着极高的预测能力,但是对于不确定信息来说显得比较无力。针对这类场景,微票儿采用了不确定信息的描述,诸如“Entrop(熵)”和“lyapunov”。

计算平台

计算架构上,由于深度学习技术的应用突破更多的是来源于模式识别,所依赖平台多为造价昂贵的CUDA平台(微票儿完成“图片特征抽取”这样的大型任务,会消耗掉500台左右的集群资源)。因此,除了日常所需的数据存储和抽取集群以外,微票儿把算法重点放在更远的并行内存计算技术上。

杨森淼希望可以把深度学习计算并行在造价低廉的内存计算平台上(如Spark集群),可以在不减少输入参数和神经网络规模的前提下,更优地完成任务。为了抵消与高速“GPU”的速度差,微票儿使用了众多集群,并采用“伸缩”模式,训练过程结束之后,集群自动伸缩为一般模式,这样避免了与“GPU”集群一样的硬件必须消耗问题。

很容易看到,大数据平台不完全在云上。杨森淼比较了自建大数据平台和云大数据平台的优劣:

1.自建大数据平台的优点

2.自建大数据平台的缺点

用户根据自身需求规划建设完全贴合业务需求的大数据平台,且平台建设与业务发展相互促进。技术机构版本的升级、新技术的引入,资产管理、自动化运维、权限认证等系统研发完全由用户自己决定,可控性强。大数据平台技术团队对架构中每项技术都会有持续深入的研究,保障了平台的稳定及不断创新,增强了公司的技术影响力。

3.云大数据平台的优点

对平台技术团队成员的综合能力(学习能力、创新能力)要求较高。IT行业的特殊性、对团队成员的稳定性要求较高。

4.云大数据平台的缺点

服务商有完善的解决方案体系,根据用户的具体需求及应用场景为用户提供合适的技术架构。每套技术架构又是一套完整的生态系统,除了大数据平台本身,还附有资产管理系统、自动化运维系统、监控报警系统、权限认证系统、安全保障系统、各层面HA等。

微票儿根据业务场景选择自建平台或者云平台:

后续努力的方向,杨森淼表示,是如何发挥好在“大数据和社交”两个方面的核心优势,用“懂社交的大数据”把电影演出等娱乐产业和观众更好的连接在一起,比如腾讯云的优图人脸识别有效帮助了微票儿的数据采集,而这个能够更加丰富自身大数据,实现更好的洞察。

云计算保障无缝扩容

作为网上购票平台,在用户量高速增长时期,都不可避免的会遇到高峰值、大流量的挑战,如何拥有一个稳定、安全的服务器,无疑是最关键的问题。今年国庆档,微票儿在中国电影票房的份额占比突破25%,日均出票量达到100多万,峰值甚至高于200多万储票量——服务流量较日常值最多增长四倍多,各个服务单元也需迅速扩容4-6倍的容量。

杨森淼表示,传统IDC机房方式在基础设施建设、安全管理、宽带和硬件快速扩容等多个方面有着很多的弊端,自主购买硬件设备也会带来大量IT成本投入,还需要一个巨大的运维团队。通过与腾讯云的合作,在购票高峰时段,微票儿迅速通过云去扩容。不仅如此,腾讯云的动态可扩展性有效帮助微票儿面对每日活动,快速扩展,并在高峰后及时退掉扩容设备,节约资源。

选择腾讯云,是微票儿基于详细考察和比较国内几家主流云服务公司,针对灵活度和扩展性、售后服务响应时间、平台服务器性能和价格等几个因素进行综合评判之后做出的决策。杨森淼表示,如此选择的原因,是比较看重腾讯云技术团队的专业性和技术性。

在腾讯云平台上,随着微票儿的服务极速扩张,从云主机云DB负载均衡CDN安全扫描分布式防御等平台提供的各个功能都迅速快捷的得到使用,但每种新鲜事物在初次使用的时候肯定都会碰到问题,加之个别服务的使用与传统IDC方式的区别,微票儿在使用过程中确实碰到了一些小问题,不过在腾讯云平台的强大的技术支持团队的快速高效的沟通下,都很快解决了。杨森淼表示,通过腾讯云的服务,微票儿的运维团队人并不多,但是每一次业务高峰期,都能迅速做出反应。

另外,微票儿在“云”上,DDOS攻击等外部攻击都无需自己担心。腾讯云有覆盖全国400+的网络节点,以及百G的DDOS防护能力,能够有效帮助微票儿解决平台用户量剧增问题。不仅如此,腾讯云在云服务器、CDN加速服务、云监测、负载均衡等方面,也在为微票儿提供着高性能、专业、可靠的服务支持。

总结

在移动互联网的时代,各行各业都在不断的产生着变革,微票儿借助大数据、云计算等先进技术力量,得以在日益严峻竞争环境下脱颖而出。

杨森淼建议,创业者在移动互联网时代应该大胆地拥抱新技术,拥抱云计算带来的便利。她认为,IT的技术演进和变化非常之快,在最近的3-5年,云计算和移动化应该会有很大的需求并成为主流。未来,大数据和社交将帮助微票儿更好地连接用户,云计算则为微票儿提供更专业的移动互联网+O2O运营服务。

了解更多信息,请点播采访视频:微票儿日均订单100万,云计算支撑其崛起

提供给客户的每套解决方案往往不能完全贴合用户需求,加上技术架构各个组件及环节的定制封装,为用户增加了不同程度的学习及维护成本。当用户需要将一些前沿技术或第三方组件整合到云大数据平台时,服务商往往需要很长的时间甚至直接告诉用户暂没有这方面的研发计划。业务数据仓库的建立目前还在本地物理集群,因为涉及业务数据量大,且计算及配置环节较多,对数据准确度要求较高。一些竞品分析预测、票房预测、舆情预测及用户行为分析等方面的分析、预测类计算,则是在云上完成的。一是因为数据来源较多,变化较快,云存储及计算资源申请分配灵活,可以较快响应需求;二来微票儿所有业务数据库都在云上,这样传输数据也更加方便。一些实时计算及准实时业务服务,也大都在云上进行,这样可以最大程度的缩短由于网络或数据交互带来的时延。数据传输方面,关系数据T+1与T+0数据批量同步,百万级数据同步基本在1分钟内完成,流数据实时接收处理,秒级响应。


来源:东北网

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数据”智慧丨数据猿新冠战“疫”公益策划
#榜样的力量#疾控AI分析平台WDCIP——以科技力量贡献“大数...
张涵诚:大数据招商平台可推动地方供给侧改革
张涵诚:大数据招商平台可推动地方供给侧改革

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部