܄

除了知识图谱,最近很热的图分析还能做什么?

【数据猿导读】 如果想更全面地了解图、应用图,11 月 19 日TigerGraph 倾情打造的首个围绕图技术的大型线上直播会议Graph+AI World 2020,旨在利用图算法加速人工智能和机器学习项目,洞察数据深度关联,探索图分析更多可能。让图不再只是一个热门词汇,而是人人都可以操作的实用工具,帮助企业...

除了知识图谱,最近很热的图分析还能做什么?

数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,敬请咨询期待!

图是一个高度抽象的模型,数据中的各种关系都能用图表示。图中的点和边,可以非常灵活,不局限于现实意义的实体。最直接能想到的当然是某个人可以是点,某个产品可以是点,它们之间的联系是边;路口是点,路口与路口连接的XX路是边。但你完全可以把某个产品的某个特性抽象成点,比如颜色、重量;XX路抽象成点,路口也抽象成点,XX路和YY路的连接是边。甚至再扩展到一些虚拟的实体,比如可能的情况是点,某笔交易是点,某个订单是点。甚至到某些分子是点,分子之间的连接是边(没错,图是可以用在化学/生物等学科上的)。图由你自由定义,可以连接人,连接物,连接知识,连接数据,连接规则,连接过程,连接抽象的和实际的实体。

图能给企业带来什么价值呢?上述的两个例子可能已经给了你一些启发。图非常擅长通过联系发掘数据中隐藏的价值。在国外,其实已经有非常多行业的客户在用图做实际应用,囊括了能源、电信、政府、医疗、金融、电商等各个行业。图本身并不是一个垂直行业的技术,而是通用的技术。

知识图谱_图分析_应用图-1

国内的应用场景主要集中在金融行业。当然,图用来做反欺诈、反洗钱等,是非常适合的,这些也是很成熟的应用。其他行业为什么没有对图进行大规模的应用呢?其实是因为,对图有了解的人,基本集中在学术和计算机领域。而想要将图的价值发挥出来,需要业务人员的参与和思考,因为业务人员是最懂业务的。理解和使用图的思维方式,是应用图解决实际问题的第一步。

我们通常把这种用图去分析问题的方式叫做图分析(Graph Analysis)。我们认为,如果想要应用图分析给企业带来真正的价值,需要图的思维方式(产生需求&问题)+企业数据(解决问题的数据基础)+解决方案(解决问题的方法)+工具(选择合适的工具解决问题)。

知识图谱_图分析_应用图-2

图的思维方式

由于历史原因(有兴趣的小伙伴可以了解一下数据库的历史,导航数据库-关系型数据库-nosql数据库-图数据库),当我们思考业务和数据结合的时候,往往会考虑技术的限制,应用关系型数据库的方式,也就是用表的思路来思考,这会极大的限制我们的思路。而现在有了新的工具——图数据库,可以将我们的想法更直接的与工具结合,不需要再将最初的想法打碎成一个个表格,再通过表格来表示实际业务。

举一个企业反薅羊毛的实际场景,薅羊毛是指商家或金融机构为了拉新会举办一些推广活动,比如每邀请一个新用户注册,可以获得一定的积分奖励,这些积分可以兑换现金、优惠券或者奖品。活动上线会吸引黑产团伙,这给推广方造成了大量的资金浪费。薅羊毛和反薅羊毛成为了黑产团伙和推广方之间的博弈。

针对这种推广活动,关系型数据库里最简单的存储方式是分为邀请注册表和积分兑换表两张表,通过统计的方式去识别黑产团伙,比如每个独立设备登陆的账户数,每个IP上登陆的账户数等等。然而黑产团伙可以通过群控设备,虚拟IP等等技术来绕开这些检测。

但如果转换成图的思维方式,着重从关系的角度去分析,会发现一些非常有趣的模式。用户邀请注册的这些新用户,他们既没有产生新的交易,也没有邀请新的人,甚至还按时间形成非常有序的排列,这毫无疑问也是薅羊毛的一种模式,单纯通过统计很难发现。

知识图谱_图分析_应用图-3

所以第一步,需要业务人员切换到图的思维来重新思考业务,找到那些以前解决困难或者解决不了的复杂业务问题,尝试用图的思维方式来解决,甚至找到一些新的业务价值点。

企业数据

我们的想法往往需要通过数据分析来验证或者落地。当我们的数据量巨大,且类型复杂的时候,单纯的统计分析已经没办法满足我们的需求了。业务人员在进行探索式分析时,需要多维度思考,落地到关系型数据库里,就体现为多表关联,在数据量巨大的时候,这对关系型数据库是个灾难。而采用数据仓库和大宽表的方案也不尽如人意。本质上是因为,这些技术的重点并不是在数据之间的关系上。应用图分析平台,业务人员和数据分析人员,都可以从数据的角度出发,去做一些探索,找到一些隐藏的联系。尝试从关系的角度,发掘出新的价值。

知识图谱_图分析_应用图-4

解决方案

当有了想要解决的问题和解决问题的数据基础,还需要解决问题的方法。我们可以把行业经验和图算法结合起来。比如,我们想要发现一些隐藏的洗钱团伙,欺诈团伙,可以用图中衡量群体度的算法——鲁汶算法(Louvain Modularity);我们想要找到所有客户中最有影响力的人(KOL),可以用图中衡量中心度的算法——页面排名算法(PageRank)。业务人员、数据分析人员、IT人员都可以参与到其中,包括一些经验丰富的解决方案提供商,都是我们有力的帮手。

工具

从业务的探索到最后的落地应用,需要一个安全易用、稳定可靠的工具支持。更重要的是,要选择合适的工具。

首先,是否传统的关系型数据库就能解决这个问题,或者图数据库才能解决这个问题,还是需要多种工具结合使用。

再者,关于工具本身的功能。业务人员可能更加关注探索与交互的易用性;开发人员可能更加关注开发的便捷性,语言是否强大;运维人员可能更加关注系统管理、资源监控。不同的角色有不同的关注点,这都是工具需要解决的问题。

看完上述四个步骤,你肯定会有很多问题,比如,怎么从数据的角度在图中做探索呢?有没有什么已经落地的,图的解决方案?关于企业不同角色对于工具的关注点,TigerGraph能够满足吗?由于篇幅有限,这些问题,我们会在后续的内容中一一解答。

总结一下,除了知识图谱,图还能做什么呢?Think in graph, and you will find it.

活动推荐

如果想更全面地了解图、应用图,11 月 19 日TigerGraph 倾情打造的首个围绕图技术的大型线上直播会议Graph+AI World 2020,旨在利用图算法加速人工智能和机器学习项目,洞察数据深度关联,探索图分析更多可能。让图不再只是一个热门词汇,而是人人都可以操作的实用工具,帮助企业实现业务价值的创新科技。

TigerGraph Graph + AI World 2020中国峰会报名现已正式开启,扫描下方二维码即可报名,一起智联万物,图改世界!

知识图谱_图分析_应用图-5


来源:TigerGraph

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部