第四范式的联合创始人陈雨强:让人工智能变成所有人都可以获得的能力
【数据猿导读】 过去,我们并没有真正的达到人工智能,其实达到的是人工的智能。在实现真正人工智能方面,目前,我们取得了语音、图像和艺术领域的几个突破。人工智能带来的红利只能被很少一部分人所获得将会非常可怕
人工智能到底可不可怕?人工智能到底是把人类带到了更大的繁荣,还是更大的毁灭?相信这是不少人关心的问题。在5月20日的MTA天漠音乐节科技论坛上,第四范式的联合创始人、首席研究科学家陈雨强发表了有关人工智能的演讲。
在陈雨强看来,过去,我们并没有真正的达到人工智能,其实达到的是人工的智能。在实现真正人工智能方面,目前,我们取得了语音、图像和艺术领域的几个突破。
陈雨强认为,之所以能够有这么多相对成功的人工智能的应用,主要是靠大数据和机器学习。目前,我们正在面临一场智能革命,一定会出现一些数据的寡头、数据的资本家,人工智能带来的红利只能被很少一部分人所获得将会非常可怕。
因此,陈雨强认为,我们应该做的事情是要让人工智能变成所有人都可以获得的一个能力。
以下为演讲实录
大家下午好!我是第四范式的陈雨强。今天我要给大家带来的分享主题是 AI for everyone,让所有人都能用上的人工智能。
人工智能到底是把人类带到了更大的繁荣,还是更大的毁灭?人工智能是让每个人更开心还是更烦扰?相信这是大家所关心的问题。
其实人工智能发展最早从50年代阿兰·麦席森·图灵发明第一台计算机开始的,当时他提出了一个著名的图灵测试。这个测试是判别机器是否具备智能功能。
在一开始的时候,科学家们非常的乐观。5、60年代的时候,科学家提出了一个仿脑的神经网络技术。可以解决非常多曾经想都不能想的一些问题,科学家们非常的兴奋。
当时就说,可能在3到5年之内,人工智能就能达到人类的智能平均水平。其实,我们现在来看,人工智能还没有达到汪星人、喵星人的水平。
既然不能达到,我们就让专家去教机器什么叫智能?当时有一个专家系统的技术,是把专家的知识变成机器可以读取的知识,同时,告诉机器如何进行推理。
这个问题在什么地方?它不知道变通,专家教你是一就是一,教你是二就是二,没有变通能力,这就不是人工智能,而是人工的智能。总结一下,在过去来说,我们并没有真正的达到人工智能,其实达到的是人工的智能。
怎么样达到真正的人工智能?看看我们现在最新的一些进展,也跟大家分享一下。
这是微软2012年发布的同声传译的技术,非常有意思。这个技术不仅能在会场上同时把英文传译成中文,有一点特别有意思的是,他还可以模仿你的音色。你可能非常想听特朗普说中文是什么样的感觉,你可能也特别想听小沈阳用英语讲段子是什么样的感觉。这样的技术就可以达到这样的水平,这是语音上的进展。
视觉上我们也有一个非常大的突破。在过去5到7年时间内,计算机视觉有一个非常长足的发展,物体识别的错误率从过去的28%下降到现在的3%不到。这个背后的技术是什么?是机器训练了上千万,甚至是上亿的图片,这点与人的学习很类似。
大家在小时候的时候,从出生一开始就会到处张望,对世界充满着好奇,每时每刻都在捕捉着新的图片,每时每刻父母都会告诉你这是什么,那是什么。
除了在语音图像上,甚至可以在艺术领域发挥作用。可以给一个梵高的画,然后再给一张其他的图片,把它变成梵高风格的图片,无论是风景还是人像。这是一个非常有意思的事情。机器不再是一个完全没有情感的,它也可以做一些艺术的事情。但机器的艺术和人的艺术还不是同样的方式。
总结一下,为什么说现在有了这么多相对成功的人工智能的应用呢?现在的人工智能是基于机器学习+大数据。阿尔法狗打败李世石是因为后面有一个30万棋谱的网上对战平台。
除了人工智能必不可少的大数据之外,我们必须还要有机器学习的模型等技术,这可能就包括一些深度学习模型、合函数。
回到最开始的问题,机器学习能否服务于我们在座的所有人,能否让所有人都能在中获益?你要想的就是你有没有大数据,你懂不懂机器学习?
这对大家来说是困难的,因为我只有我自己的数据,我没有别人的数据,如果我不是科班出生,我就不是那么了解数学,我也不知道该如何做机器学习。我们第四范式希望做的事情是把这个边界往前走一步,希望所有人都能用上人工智能。
从两个角度上来解决这个问题:首先,是机器学习的问题。第四范式设计了一个机器学习平台,这是让所有人都可以建模,把我们的数据、模型、上线的过程变成一个可视化的方式进行建模,通过这种方式我们可以让一个没有经过特别多机器学习训练的人很快的上手机器学习,用上机器学习,用上最新的算法。
大家还是不知道这个可以干什么?举个实际的例子。去年年末,我们组织了一个建模大赛(机器学习建模大赛),这是全球首个面向非专业人士的机器学习建模大赛。“非专业”到什么程度呢?不允许有机器学习背景的人参加,参加的人都是我们公司的行政、人事、市场、销售这样的人员。
我们会发现一个非常惊讶的结果,业务人员建出来的模型和我们专业的工程师科学家团队(有3到5年专业培训的科学家)建出来的模型,有差不多的效果。“先知”封装了机器学习底层的算法、计算资源、闭环等,让所有人都可以建模,你也可以,他也可以,我也可以。
在这个基础上,我们继续更进了一步,我们做了一个“范式大学”的项目,我们希望没有机器学习背景的人可以越来越多的参与进来。“范式大学”通过培养非专业人士利用“先知”建模,“批量生产”数据科学家,进一步解决AI人才高门槛的问题。第一期毕业生经过了一个月的培训,我们发现,他们已经拥有非常专业的建模能力,可以做一些非常好的建模应用。
此外,人工智能还面临数据量不足的问题。看看用人工智能成功的公司,比方说谷歌、百度。这些公司拥有的一个共性是,他们拥有大数据。
对比18世纪的工业革命对世界造成的影响,当时蒸汽机这样的技术发明,让整个世界发生翻天覆地的变化。但是蒸汽机这个技术的发明,导致了我们出现了一批资本家,这些资本家拥有了这些技术、拥有了生产资料,同时就拥有了巨额资本,这样就会产生金融寡头,我们不希望将来的财富永远只集中在金融寡头身上,我们希望所有人都可以平等的拥有财富。
现在我们正在面临一场智能的革命,在这里面我们会发现,它一定会出现一些数据的寡头、数据的资本家。它现在拥有好的业务,就会拥有更多的用户及用户数据,这样他就会垄断数据,从而垄断人工智能,这是一件非常可怕的事情。
我们不希望这样的事情发生。如何可以阻止?我们也在想一个新的技术,叫迁移学习。简单说,就是一个举一反三的能力,就是说你学习的英文,你就可以学法语,有了举一反三的能力,你就不需要更多的数据。
我们有一个做电影的网站,这就是国外的豆瓣,如果你在上面有很多的行为,但在亚马逊上没有购买行为,你也可以用这个数据帮助你做更好的预测,来判断是否会在亚马逊上做购物。
除了刚才的应用还有其他的应用,比如文本的数据比图片的数据多,无论是互联网上还是离线的应用上。我们也可以试图用文本的数据来帮助我们进行图片方面的训练。通过文本的数据,加上一些很少的图片去进行图片分类。
我们发现这件事确实可以。用100张图片训练的模型,和200页书训练的模型的效果差不多。我们转化了一下,这就跟中国的古话差不多,叫一图胜千言。
谷歌也在尝试,在游戏上,使用迁移学习的技术,让机器变成游戏达人,什么意思?不仅玩一款游戏是达人,可以将模型迁移到别的游戏上,你玩所有游戏都是达人。
除了实验室的成果之外,“迁移学习”在工业界的实际应用上也有非常多的用途,比如说第四范式迁移学习帮助银行做汽车分期的推荐。
汽车分期这类大额的业务,银行在这方面的数据是非常少的,于是我们成功用小额信贷的数据帮助大额的信贷,最后达到效果的提升,这背后就使用了迁移学习。迁移学习可以帮助大家做到一个高频打低频的事情,用数据非常多的业务帮助数据非常少的业务来进行提升,从而打破寡头对数据的垄断。
回到最开始的问题,人工智能这件事是否可怕?我们认为无论是强人工智能,还是超级人工智能,其实并不可怕,可怕的是人工智能带来的红利只能被很少一部分人所获得。汽车的发明让所有人都不用走路了,但是人工智能的发明是否可以让所有人获益?
第四范式觉得,我们应该做的事情是要让人工智能这件事变成所有人都可以获得的一个能力。就像《狮子王》里的一样,我们不希望人工智能被刀巴这样的狮子所主宰,不希望它被垄断,而是希望所有人都可以用上人工智能。第四范式希望随着大数据和机器学习门槛的不断降低,让AI不再是少数人的“特权”,让每个人都能享受到人工智能红利。
这是我今天的分享,谢谢大家!
来源:36kr