܄

给王心凌打Call的,原来是神奇的智能湖仓

【数据猿导读】 给王心凌打Call的,原来是神奇的智能湖仓。

给王心凌打Call的,原来是神奇的智能湖仓

王心凌_智能湖仓_数据猿_大数据-1

图文原创:谭婧(王心凌老粉)

“爷青回”

“我们只是老了,并没有死。”

王心凌_智能湖仓_数据猿_大数据-2

谭老师作为老粉,热烈庆祝“甜心教主”王心凌成为现象级翻红顶流。

王心凌_智能湖仓_数据猿_大数据-3

只要地球不爆炸,她的数据就一个都不能丢,还得用好了。

那为王心凌从头开发一套大数据与智能系统吧?

答案,没必要。

不能把精力花在和IT基础设施你死我活地缠斗中。

就好比,当你的目的是去开会,那就不能去搭建会议室。

王心凌_智能湖仓_数据猿_大数据-4

王心凌_智能湖仓_数据猿_大数据-5

王心凌_智能湖仓_数据猿_大数据-6

所以,这边建议电视台:

把所有数据放到公有云上,使用无服务器架构(Serverless),将项目命名为 :

“王心凌老粉打Call数据项目”

每一家云厂商都能拿出足够的资料来证明自己的产品才是最好的,我们不在此处争论。

方案技术选型上,一步到位,挑选一朵最大的,全球部署的公有云,方便心凌文化出海。

用亚马逊公有云,全方位无死角给心凌打Call。

王心凌_智能湖仓_数据猿_大数据-7

首先,王心凌的视频,音频,电视剧,演唱会等大批量历史数据,不存放在本地IDC上。

现在疫情,供应链紧张,硬件采购周期太长,电视台的审批流程也太长,不能等。

王心凌_智能湖仓_数据猿_大数据-8

直接将心凌的所有数据妥善存储在Amazon S3 数据湖中。

王心凌_智能湖仓_数据猿_大数据-9

不同种类的数据都能存,量大量少都能存,而且不会丢,永远在数据湖里,安全,放心。

技术上,这些文件存进S3数据湖自动成为数据API,方便调用,标准一致,取用方便。

怪不得,有人称S3为事实上的云计算对象存储标准。

没有数据指导的业务,怎么可能做好?

领导着急看数,数据分析人员更着急,这个情况不允许发生,立刻配备云数据仓库Amazon Redshift。

王心凌_智能湖仓_数据猿_大数据-10

联合查询的功能不能少:

比如,某电视台数据分析专家想查手机APP平台和大屏电视机顶盒观看平台的用户之间的联系。

Redshift联合查询可以直接从手机App平台(已入湖),大屏电视机顶盒平台(基于数据库),获取数据的联系。

晚上九点,晚饭后,某一批用户在电视上反复观看王心凌现场舞蹈(产生的行为数据存在数据库中,包括当时产生的很多标签)。

然后,我们直接查询一批用户在手机App中的观看过和这些行为数据中的标签相关的视频(这些数据存在数据湖里),比如标签里有“甜心教主” “电视剧”。

这两类数据存放在不同的地方,一个在数据库,一个在数据湖。如果之前没看过相关视频(“王心凌男孩跳舞热榜”),就向手机App端推送。

王心凌_智能湖仓_数据猿_大数据-11

王心凌_智能湖仓_数据猿_大数据-12

实时智能分析必不可少:

先将历史数据和新鲜(实时)两种数据同时接入云数据仓库Redshift。

Amazon Redshift ML 使数据分析师和数据库开发人员可以在Redshift 数据仓库中使用熟悉的 SQL 命令轻松创建、训练和应用机器学习模型。

王心凌_智能湖仓_数据猿_大数据-13

实时看板必不可少:

某电视台,没有设置王心凌线上投票,实在令人遗憾,氛围感差些些。

建议电视台开展线上投票,并公开实时看板,让全国粉丝了解投票热度整体进展,即时知道投票效果。

王心凌_智能湖仓_数据猿_大数据-14

所有产生的实时打榜数据,接入流式数据管道Amazon Kinesis,数据像水流一样一直灌进来。

并不是所有人时时刻刻在打榜,水流有大有小,而无服务器架构的Kinesis可以基于水流的大小即时弹性扩缩,无需关心流量高峰低谷,安心接入。

Redshift创建流式物化视图对接Kinesis,结合数据仓库内历史数据生成实时看板。

王心凌_智能湖仓_数据猿_大数据-15

那些不能从电视台数据仓库里直接取数的外部团队,比如,抖音和快手,办法是电视台借助Amazon Redshift Data Sharing的功能,将数据安全共享。

查询并发高峰的时刻,Redshift并发扩展能力也能轻松应对。

王心凌_智能湖仓_数据猿_大数据-16

总而言之,数据仓库性能越高越好,价格越便宜越好。

王心凌_智能湖仓_数据猿_大数据-17

这就要靠云厂商的技术手段了,压力给到亚马逊云科技这边。

“王心凌老粉打Call数据项目”项目,危险行为识别必不可少:

用日志分析服务Amazon OpenSearch,做链路追踪,监视黑产恶意刷榜,确保公平。

王心凌_智能湖仓_数据猿_大数据-18

“王心凌老粉打Call数据项目”项目,数据库选型如下:

1. 如果王心凌开直播,刷礼物的交易数据,先放入极致弹性的Amazon DynamoDB中,再将历史数据同步到Redshift数据仓库。

2. 手机APP用户浏览王心凌视频的行为,记录等,也得存入非关系型数据库DynamoDB中。

王心凌_智能湖仓_数据猿_大数据-19

本方案,为突发状况,准备了预案。

突发情况一:

突然,某天,要查询一遍过去十年的王心凌数据,可能几十PB。

方法一:这种使用频率极低,又要分析海量数据,成本还要低的查询,就用Amazon Athena。

方法二,搭建一个Hadoop系统。但是,为了干这件事情,耗费的人力物力非常可怕,从头干起大约两个月。

王心凌_智能湖仓_数据猿_大数据-20

在Athena里,查询按次按量计费,一定要查询的话,这笔费用可以出。

突发情况二:

“王心凌男孩跳舞热榜”现象,让人始料不及。跟风创作,大量上传热舞视频。

实时处理这些视频并提取特征,为下一阶段分析提供数据,得用什么技术呢?

答案是,流式数据分析技术,Amazon Kinesis Analytics。

王心凌_智能湖仓_数据猿_大数据-21

另外,历史数据怎么处理呢?

答案是,使用托管大数据平台Amazon EMR处理大规模历史数据,为心凌的每一个历史视频都打上标签。同时EMR Serverless以极简的开发来处理数据,同时实现最低的成本。

王心凌_智能湖仓_数据猿_大数据-22

最后强调一句,亚马逊云科技Serverless无服务器架构,很黑科技。

王心凌_智能湖仓_数据猿_大数据-23

“王心凌老粉打Call数据项目”方案的技术选型部分就介绍完了。

有任何好的方案建议,欢迎留言交流。

初听还是小学生,再听已是社会人,支持心凌,致我们逝去的青春。


来源:亲爱的数据

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

【年度榜单】2020大数据产业创新服务产品丨数据猿·金猿榜
【年度榜单】2020大数据产业创新服务产品丨数据猿·金猿榜
熠智科技CTO汤载阳:筑牢隐私计算基础底座,打通数据要素流通的任督二脉 | 数据猿专访
熠智科技CTO汤载阳:筑牢隐私计算基础底座,打通数据要素流通...
影刀RPA金礼剑:专注打造简单易用的RPA产品,构建差异化市场竞争力 | 数据猿专访
影刀RPA金礼剑:专注打造简单易用的RPA产品,构建差异化市场竞...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部