܄

百分点集团研发总监苏海波:用户画像的方法论与如何实现

【数据猿导读】 在IT时代,数据更多是通过IP服务过程中沉淀一些数据,更多是做一些简单的分析。但是到大数据时代,数据开始变得智能,我们希望构建一系列的应用。如果你要构建各种应用,首先要做的就是构建用户画像。本文中百分点集团研发总监苏海波将与大家一起探讨用户画像的方法论与具体实践

百分点集团研发总监苏海波:用户画像的方法论与如何实现

11月24日,数据猿联合星河互联主办了《数据猿巅峰思享会——用户画像的100种用法》活动。本次活动,邀请了来自互联网及大数据行业的多位领军企业代表,就大数据用户画像的真实案例做了分享,探讨了在大数据时代下,各行各业该如何利用用户画像、提升用户转化率等系列问题。

与会嘉宾:

GrowingIO联合创始人——吴继业

热云数据CEO——白冬立

百分点集团研发总监——苏海波

众盟ZMENG高级技术总监——王鹏

找萝卜创始人&CEO——付浩

资深互联网专家、酷6网创始人、迅雷看看前CEO——郝志中


以下内容为“百分点集团研发总监苏海波”分享,并由数据猿编辑整理发布:

关注数据猿微信公众号(datayuancn),回复关键词“苏海波”即可获取演讲PPT

我是来自百分点的苏海波,非常高兴能跟大家分享百分点关于用户画像的实践内容。

用户画像的方法论

我要分享的第一部分内容就是用户画像的方法论,在大数据时代,有很多企业,比如传统的,无论是制造业、金融业或其他行业,会发现他们有很多第一方数据。有这么多数据后,要想构建第一方DSP,就需要用到用户画像的方法论。

百分点从2009年开始做推荐引擎,当时做了一个SaaS服务。我们的推荐引擎共服务了超过1500家的电商用户,积累了海量数据,构建了用户画像。在2014年时候,我们发现“互联网+”这个契机,有很多传统企业都需要构建第一方用户画像,因此我们将这一套方法论梳理出来,帮助很多公司构建了第三方DSP,现在百分点的定位是一家大数据解决方案的提供方。

构建用户画像的5个共性

在IT时代,数据大多是IP服务过程中所沉淀下来的一些数据,更多是用于进行简单的分析。但是到了大数据时代,数据开始变得智能,如果你要构建各种应用,首先要做的就是构建用户画像,本质上来说就是让机器了解这个人长什么样,然后才能构建一系列的应用。

通过生活上的表述能看到用户画像五方面的共性:目标、方式、组织、标准和验证。

目标。认识、了解某个人;

方式。包括形式化和非形式化两种,比如身份证,你去刷卡,马上就认出来这个人是谁,这就是形式化的方式;

组织。这可以分为组织结构化和非结构化;

标准。如果要去描述这个用户。我们通常会构建一套标准体系,这个标准体系是需要大家共同形成的,这样使用方和构建方才能够达成一致。比如,你说这个人非常二次元,大家首先要知道这个词代表什么意思;

验证。为用户构建完标签之后,到底程度怎么样?你的标签怎么来的?这些都需要我们在给客户提供画像服务的时候,通过构建第一方DSP的方式来解答。

如何理解用户画像?

用户画像是对现实世界中用户的数据进行建模,它有两方面的含义:

第一个,首先他是用户,用户和业务是密切相关的,需要符合特定业务的需求,而用户画像就是对于用户形式化的表述。

另外一个是数学建模,我需要从已有的数据当中加工挖掘比较高层次的抽象的标签,比如我是月光族,这肯定不是从原始数据当中得出的结论,而是从加工建模当中得到的。

我们发现,这些都是来源于业务的,比如标签的定义一定要跟业务密切相关。刚才提到男和女的标签,一定指的是生理学的标签吗?不一定。对于阿里内部来说,生理学是一个标签,比如他的个性化。

我们还经常会用到“标签体系”。首先我们得了解标签,标签是某一种用户特征的符号表示。至于标签体系,第一个,化整为零,每个标签都规定了我们观察、认识和描述用户的角度;第二,化零为整,用户画像是一个整体,各个维度不孤立,标签之间有联系。

如何构建标签体系?

大家看过很多标签体系,但是也会有疑惑。整个标签体系可以分为结构化、半结构化和非结构化的,这是从广告里面诞生出来的。标签用户画像是广告营销的服务。

第一个,结构化。我构成一个数,节点与节点之间有明确的结构关系。更侧重我能够从这个结构化体系中,非常好地把我想要的人群检索出来。

第二个,半结构化。其实现在有很多大数据公司,像热云数据,以及第三方提供数据服务的公司等等,我们发现他们的数据不仅仅是自己的数据,还有合作方的,以及通过交换、购买的方式所得到的数据。如果把所谓的数据构成结构化的标签体系十分困难,有时候交上来的数据,标签体系也不一样,所以就需要一种半结构化的标签体系。

第三块是非结构化。比较典型的是关键词,搜索广告内容占据了整个营销市场很大的份额。

我们在给客户做的时候,需要针对他们的第一方数据,判断是否需要结构化的体系,每个维度是怎么定义出来的?这都需要跟他们的产品经理和运营人员一起,按照他们的业务体系讨论。所以每个行业的标签体系都不一样。

数据收集是个大挑战

用户画像生产的结构,大致分为五层,其中包括底层的数据源。在企业构建第一方DSP的时候,存在一个非常大的挑战,数据是分散在各部门的,有了CRM系统、业务系统等各种各样的系统后,如何把这些数据收集回来,相对的挑战性非常大。尤其是只有企业的一把手才能推动这个事情。收集上来以后,要经过加工、处理,再去支撑金融、制造和各个行业的应用。

借助模型可以打通更多用户

对于企业来说,用户和互联网有很多触点,但不同的标识都是碎片化的数据,如何将这些特征表示在同一个人身上呢?首先是ID的打通,第一种是精准打通,比如通过一个电商网站登录的用户名,跟他建立关联。这样打通准确率很高,但是打通的比例非常小。

我们如何打通更多的用户呢?这就要通过模型完成了。我们做的这套打通技术,更多是充分利用用户在网上的行为信息,比如在PC网站,你的时间轴是什么?中间设备是什么?要结合他的很多行为信息。同时,这些行为只是你构建这个模型的因素而已,但是你要有训练样本,样本怎么来的?那就得益于我们拥有很多PC端和移动端的客户。

这个模式做了半年,最早的时候,准确率在85%左右,后来结合深度学习,在特征工程上做了很多事情,现在我们打通的准确率达到了95%,我们也跟一些DSP和APP进行了对接和验证,因为我们的数据可能有60%是在PC端,40%在移动端,怎么把PC端的数据利用起来为客户服务呢?有一个办法是让客户直接把他的数据给到我们。

刚刚提到了标签体系,标签可以分为四类:第一类是事实类的标签,比如购买什么品类,浏览了几次?很多客户,尤其是营销类的客户,经常提事实类的标签,为什么会提这个?为什么会有事实类标签?上层存在什么问题呢?客户不知道你这个权重是怎么来的,到底准不准,客户很难从中感知到这些。但是你告诉他我在某一个化妆品品类里看了几次,这是非常明确的,通过这个定义筛选人群,客户就是非常理解,他愿意为这个效果负责,事实类标签在广告营销领域是非常重要的。

第二类,模型预测,加上营销模型预测,最上面是业务类的标签,有了基础性标签后,把这些标签进行组合,我们推出了“标签工厂”,可以实现对不同的底层标签进行组合。比如高富帅这个标签,很多时候通过他的性别、收入,整个方面的基础标签去组合出来业务标签,构建业务上需要的人群。

我们的标签体系包括人口属性、上网特征、营销特征、当下需求、潜在需求等等很多。

用户画像的应用目前可以分为三大类:售前、售中和售后。

对一个网站和运营者来说,第一步,是拉新客的问题。客户来到我的网站之后,你是否知道他的喜好,能够推荐给他感兴趣的东西。用户的耐心非常有限,用户刚来到你网站的时候,你不能马上推出,他可能就走了,以后就再也不来了。

售中也非常重要。对于售后,传统的产品营销可能以产品为核心。到大数据时代,我们通过以用户为中心来进行经营,你购买一件商品,下单完成,你以为这就结束了吗?不,这只是一个开始,后面还有一系列的服务,比如咨询类、维修类、售后类的服务。如果能够清晰了解这个客户长什么样子,对提高你的增值服务是非常有价值的。要提供这三类服务,标签维度必须要相辅相成,我们可以根据实际需要的应用来拓展对应的维度。

售前的精准营销

这块我们做了两件事情:第一,如何帮助客户构建第一方DSP,实现全渠道的营销;第二,百分点积累了5.5亿用户画像,如何把这些数据实现价值变现?

案例一

这是我们为某个知名制造企业做的大项目,通过整合所有的数据,构建第一方DSP,帮他们建立消费者用户平台,从而进行精准营销。这里面具体涉及到客户的基本信息、产品信息、风险偏好等等。我们做了一个实验,通过用户拉通与用户画像,对59万潜在的消费者形成4个精准人群进行投放,是盲投点的10倍。这是如何帮助企业构建第一方数据,帮他们做营销。

案例二

接下来讲一下如何借助5.5亿的用户画像做营销?有了这么多数据之后,怎么来进行变现呢?我举一个例子,谷歌是一个平台,他会接入很多流量,包括合作渠道,还有数据提供方。我们现在是他在国内唯一一个广告平台,每天有大量的人群上传到谷歌上面,广告主直接进行投放的话,是需要付费的。我们跟一些DSP、APP、银行都在开展一系列的合作。

售中的个性化推荐

我们在这方面做的非常好,应该是目前国内最大的个性化推荐引擎服务提供商,有超过1500家的电商和媒体客户。这对用户数据来说能起到什么作用呢?比如对某个客户来说,他刚刚来到新网站,对网站不了解,这时候可能只推一些热门的东西。百分点推荐就是一个全网用户画像,你来到王府井商城网站的时候,王府井对这个客户不了解,但百分点可能知道这个用户是女性用户,帮助客户解决零启动的问题。

个性化推荐包括四大引擎,算法引擎,场景引擎、规则引擎和展示引擎。像京东和阿里这样的公司,他们的核心是算法引擎。传统互联网公司更多以点击率和转化率作为目标。我们通过规则引擎,运营人员直接配置,满足他们的业务需求,成本非常低,这套引擎可以给业务人员调一些参数,做一些配合。

第二,你的推荐引擎如何快速做到行业第一?最早的推荐引擎是做电商的,后来我们开始给媒体客户、APP客户、应用商店客户、银行客户、家电制造客户等服务。如果给每个行业单独定制一个算法非常麻烦,开发成本很高。通过规则引擎可以更好的实现。

用户画像中的品类偏好、消费能力等这些标签,在优化后,我们发现点击率平均提升了18%左右,这是非常显著的。

售后增值服务

尤其是传统行业,我刚买了一个商品,售后是有明确的需求的,最早是打电话,售货员可能会问你是谁,你有什么问题,这种体验并不是特别好。但是如果有了用户画像后,用户打到售后那里,售后就能知道这个用户买过什么样的商品,以前对什么方面的咨询比较感兴趣,或者以前投诉过什么样的问题,我们立马给出针对性的解答,这样对提升用户的体验是非常有帮助的。我们可以把这次沟通的结果进行建模,加入新增用户画像库里面,提高售后服务的价值。同时,在售后的时候帮你做一些增值服务的营销。

小结

用户画像不是数学游戏,为了做而做没有意义,更多的是业务和技术的最佳结合点。我们讲到用户标签和画像根本性的定义,最后结合个性化推荐、精准营销和售后服务等一系列实际应用来讲解用户画像具备什么样的价值。

这是我今天跟大家分享的内容,谢谢大家!

Q&A

提问:刚才提到有四个引擎,算法引擎、展示引擎、场景引擎和规则引擎,这四个有什么不同?

苏海波:

场景引擎,比如我发现某一个东西,如果它确实是我想要的,那么我就要开始比价了。比如手机,你刚买完一个手机之后,不可能再买一个手机。不同阶段需求不一样,场景引擎主要侦查他处于哪个阶段,做一些有针对性的推荐。

算法引擎,更多是我们实现了一系列的算法,比如协同过滤、矩阵分析,这都沉淀在整个系统底部。

规则引擎,是整个军队的司令部,他决定调用什么样的结果。他主要是调用底层的算法,比如首页提供推荐、购物车提供推荐,不同的场景,底层推荐算法是不一样的。规则引擎决定给客户最终呈现什么结果。

展示引擎,我们提供终端,包括PC、移动、WEB,甚至还有电视,在不同的推荐终端决定给什么样的展示形式,这都是由展示引擎来决定的。

提问:您之前讲到的用户全渠道IP打通这件事,用户打通是指已有的用户还是在网上收集的用户?网上大的数据范围内怎么打通?您前面提到一个数字是85%。

苏海波:PC和移动端用户怎么打通,这是很常见的问题。BAT他们是怎么打通的?在PC端和移动端各有一个账号体系,如果用同一个账号登录就确定你是同一个用户。但是除了BAT公司之外的其他企业,没有很强的账号打通体系,怎么解决这个问题?我会根据你的用户行为来判断。用户今天可能在PC端上网,也可能在移动端上网,比如今天在公司,我用手机和电脑连接了公司的IP,这个IP是不能识别是否是同一个人的。如果带着笔记本回家之后,在家里用我的笔记本和手机连接家里的IP,通过对公司的IP和家里的IP进行双向定位的话,也许就能识别出电脑和手机是同一个人了。

比如京东和阿里,像PC端的打通,京东有自己的账号体系,阿里也有自己的账号体系,那是打不通的。

提问:百分点5.5亿的用户画像,有什么聚类吗?能够归成一个的有多少?

苏海波:如果是多个用户,我们只算一个,这5.5亿都是标签比较多的,你身上就一个标签,同一个用户没有意义,所以这5.5亿是比较高质量的用户。

提问:这里面大部分是否会重叠?

苏海波:不会重叠的。


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

大数据投融资周报(4月5日——4月7日,共9起)
大数据投融资周报(4月5日——4月7日,共9起)
大数据周周看:今日头条近10亿美元融资入账,Adobe推出体验云平台Experience Cloud
大数据周周看:今日头条近10亿美元融资入账,Adobe推出体验云...
【独家首发】数之联完成A轮数千万元融资,大数据分析挖掘领跑者获资本青睐
【独家首发】数之联完成A轮数千万元融资,大数据分析挖掘领跑...

我要评论

精品栏目

[2016/10/10]

大数据24小时

More>

[2016/09/26-7]

大数据周周看

More>

[2016/09/01-30]

大数据投融资

More>

[2016/11/28-2]

大咖周语录

More>

[2016/11/29-6]

大数据周聘汇

More>

[2016/12/06-13]

每周一本书

More>

返回顶部