拒绝“盲人摸象”,集奥聚合带你解密大数据ID-Mapping

【数据猿导读】 ID-Mapping可以形象地理解为用户画像的“拼图”过程。ID-Mapping能把碎片化的数据全部串联起来,消除数据孤岛,提供一个用户的完整信息视图,同时让某一个领域的数据在另一个领域绽放出巨大的价值

拒绝“盲人摸象”,集奥聚合带你解密大数据ID-Mapping

谈到大数据,有一个非常基本但又关键的环节就是ID-Mapping(Identifier -Mapping)。ID-Mapping通俗的说就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主体,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等,可以形象地理解为用户画像的“拼图”过程。一个用户的行为信息、属性数据是分散在很多不同的数据来源的,因此从单个数据来看,都相当于“盲人摸象”,看到的只是这个用户一个片面的画像,而ID-Mapping能把碎片化的数据全部串联起来,消除数据孤岛,提供一个用户的完整信息视图,同时让某一个领域的数据在另一个领域绽放出巨大的价值。

ID-Mapping有非常多的用处,比如跨屏跟踪和跨设备跟踪,将一个用户的手机、PC、平板等设备的上的行为信息串联到一起。再比如这两年非常热的程序化交易,它的一个重要环节就是要把当前广告请求的用户和第一方DMP平台里的用户历史兴趣数据匹配起来。可以说,没有ID-Mapping,程序化交易就变成了盲目投放,它的实时竞价,精准投放的优势也就不存在了。

ID-Mapping既然有这么大的作用,那么应该如何做好ID-Mapping呢?这个环节不是一个简单的按照Key匹配的过程,集奥聚合作为领先的第三方大数据公司,研发了多项ID-Mapping 的独家技术,用新的匹配技术和算法模型来重塑了ID-Mapping过程。据粗略评估,集奥聚合ID-Mapping系统有能力把十几个数据源的56亿ID(Identifier,即标识符)匹配到一起,准确率达到95%以上,有效用户总量提升了30%,平均每个用户的标签量提升200%以上。值得注意的是,这里的Identifier是指标识符,而并非Identity(身份信息),集奥聚合可在完全脱敏,不(也无需)识别、指出用户姓甚名谁的身份信息的情况下合法地将标识符对应至某匿名用户。

简单来说,集奥聚合ID-Mapping体系有三个层面。

第一个层面是物理Mapping

这是最单纯基本的层面,也就是如何精准地记录和标识一个用户,例如利用硬件设备码生成一个统一的设备码,利用一些强账号来标识用户等等。这个层面上主要的技术难度在于ID的稳定性、唯一性和持久性。

第二个层面是基于用户行为做迭代滚动Mapping

由于原始数据存在噪音,同一个用户的多份数据、多种ID之间是“多对多”的关系。那么哪些ID是可信的呢?

我们设计了一个置信度传播的机器学习图模型来帮助确定哪些身份ID是可信的。

算法示意图如上,每个节点是一个UID或QQ号或GID等标识的潜在的“用户”

一开始节点之间关系的概率是随机的

其中总有两个ID的关系是强置信的prior

迭代收敛后,哪些ID是归属于同一个用户的标识符被识别出来

大体来说,这个算法的过程是给每一个ID,以及两个ID,如IMEI和邮箱之间的pair关系都有一个预设的置信度。而所有的ID根据两两关联构成了一张图,那么每个ID的置信度根据这张网的结构传播给相关联的ID,同时也从其他ID那边接收置信度,而pair关系的置信度不变。当算法迭代收敛时,高置信度的ID就是可信的。同一个子图内的ID就标识了同一个用户。用类似的算法,我们也可以评价每个数据源的质量等。

第三个层面是基于用户兴趣做相似用户的合并

如果说层面二主要还在判断标识一个用户的ID是否正确,那么层面三致力于把行为相似的用户给合并起来。

例如,某一个用户的设备多次连接同一个Wi-Fi网关,但是每次链接都会随机更换ID,那么相当于这个用户的数据“分裂”在多个不同ID下。那么如何把这些ID合并成同一个用户呢?

除了上述做法之外,集奥聚合开发了相似用户合并技术。基于用户的上网时间偏好、网址访问偏好、点击行为偏好、浏览行为偏好、APP偏好和社交账号偏好等,为每个用户提取了上千个特征之后,进行相似用户的聚类。

聚类中选择类中心附近的用户,再加上一些辅助准则判定,就可以把用户合并起来。

经实际测试,可以把用户ID总量减少80%,同时保持用户合并的准确率在91%以上。使用的历史数据时间窗越长就越精准。仅此一项就能让用户的标签密度提升500%。


来源:数据观

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

我要评论