小米智能音箱肩负重要使命，人们要如何面对时刻“监听”你谈话的机器

小米智能音箱

原创张俊潇 | 2017-08-23 07:24

【数据猿导读】自从亚马逊在2014年推出智能音箱Echo之后，苹果、谷歌、京东、阿里这些巨头都纷纷做起了智能音箱，当全世界最有钱最具前瞻眼光的公司都在做同一件事时，此事必有蹊跷

来源：数据猿作者：张俊潇

导语：自从亚马逊在2014年推出智能音箱Echo之后，苹果、谷歌、京东、阿里这些巨头都纷纷做起了智能音箱，当全世界最有钱最具前瞻眼光的公司都在做同一件事时，此事必有蹊跷。

国内外的巨头们都在做音箱，恐怕有大事要发生

今年7月26日，小米跟上了巨头们的脚步，推出了智能音箱--小爱同学。虽然小爱这位同学在市场反馈如何还未可知，但拿她来作为我们研究智能音箱的“小白鼠”最合适不过。因为相比于亚马逊、谷歌和苹果的智能音箱相比，小爱同学更适应“国情”和“语言环境”，跟京东、阿里来比，小爱同学前端有更多的智能产品可以做连接，最关键的是小爱同学也是这些产品里面最便宜的，只要299。

相比之下Google home要卖到1199元、亚马逊Echo 1298元、苹果 homepod 2399元、天猫精灵499元、京东叮咚798元。

从定价来看，小爱同学绝对是一款负责冲量的战略级产品，而且值得注意的是小爱同学是小米品牌旗下产品，不是来自米家或者其他生态链公司的产品，可见小米重视程度之高，小爱同学如果不肩负点使命都对不起雷军。

巨头们为未来下的注码，智能音箱会是新一代的入口

小爱同学肩负什么使命，要看市面上这些产品还有什么东西没有做到。天猫精灵和京东叮咚倾向于内容应用，很像是一个装载了Siri的音箱；亚马逊Echo功能丰富，从点播歌曲、语音购物、控制家电、订外卖、叫Uber到查银行账单都能实现。

小爱比这些产品走得更远了一步，已经开始初步实现对智能设备的控制。当初被人们所诟病的“杂货铺模式”开始在语音交互时代发挥作用，看看这些产品，路由器、空气净化器、台灯、空调、扫地机器人、电饭煲…没有一个巨头能像小米一样，静下心干这些“低端”的苦活累活。而且同样是生态，反观乐视…

总之，前期的准备已经帮小米把智能家居帝国的骨架基本搭好，现在除了继续强化肌体之外，最需要的就是一个大脑。

现在看来，小米已经给出了答案，音箱可能就是智能家居的大脑，智能语音交互就是大脑的中枢神经。

包括小米在内的众多巨头都认为，未来实现智能家居的使用场景的方式是靠语音交互模式，所有像电饭煲、冰箱、空气净化器等智能设备，也许未来周围都会安装麦克风阵列接收语音。而音箱作为语音的接收器和传播器，在接收人类语音信号和反馈语音指令拥有天然的优势。而且其价格适中，体积较小还方便移动，可谓是居家旅行的必备神器，因此最容易普及和推广。

语音智能时代，手机要被抛弃了吗？

那么很多人就会问了，这个控制中心为什么不是手机？其实这个问题更准确的提法应该是智能语音交互时代，手机为什么不是绝对核心？

手机当然不可能会被完全抛弃，只不过不再拥有绝对核心的地位。因为，首先手机已经证明作为智能交互中心，基本是一个鸡肋般的存在了。以小米智能设备的应用场景来说，用手机app控制起来并没有物理控制方便多少。

而且即便是在智能语音的应用上，过去很多年里近场语音交互的尝试（比如 Siri）并没获得很好的成果，甚至连简单的语音输入法也没能普及起来，更不要提语音搜索了。

自从亚马逊的Echo问世后，连扎克伯格也认为，语音交互的未来基本上就属于远场语音交互的模式了。

因为语音交互本质上其实也是一种操作系统，音箱不过就是一个没有屏幕的操作界面而已。从机械、手指到语音操作，双手被一步步解放，近场语音交互并没有解放双手，也没有升级操作系统的空间维度，用起来很不科幻，实用性难以适应未来的发展需求。

家里面闯进了陌生人，智能潜在的挑战重重

尽管以智能音箱为载体的远场语音交互得到了业界的普遍认可，但未来的挑战也不容忽视。

最大的挑战来自技术本身，语音交互涉及了非常复杂的技术链条，包括了声学处理、语音识别、语义理解和语音合成等核心技术。再细分下来可能有成百上千种，一些抗噪音、多人声源分辨、方言识别等等细节性技术问题就不一一讨论了，这里只讨论两个大方向。

一个是和智能设备的联动问题。

小爱同学作为主流智能音箱，已经把行业最新的技术全部展示出来了，以目前的眼光来看，这样的人工智能距离人们想象中的未来要相差很远。

可以设想的智能家居生活，至少要达到这样的场景：当你下班回家，小米手环会根据你今天的行走步数、心率数推断出你的情绪，通过车载系统计算出回家的时间，数据反馈到小米手机，然后传递到十几公里外的家中。当你回到家后，说一句我回来了，电视随之开启，空气净化器自动调节室内湿度，热水器来到你平时习惯的温度，窗帘依着落日的余晖缓缓关闭，智能电灯的灯光随着你的情绪慢慢变化，电饭煲也慢慢蒸腾，你喜欢的音乐在室内蔓延……

目前来看，小爱同学和其他设备之间的联动还远达不到这样的要求。

和其他设备之间形成联动仅仅是智能音箱的第一层任务，更深层次的应用一定是和人的互动。

这个互动不仅仅是聊天，而是通过音箱和智能设备对人行为数据的不间断收集，最后形成对人的“了解”。之所以称之为智能，就在于音箱作为器物却承担了“思考”的功能。语音交互时代必须要完成的使命，也是语音交互超越触屏时代的一个典型特征，就是要能为人提供最智能、最精准的搜索结果。因为语音交互不能接受像触屏时代一样信息的泛滥，人的一句订票、外卖、充值等服务需要最精准的答案，音箱要充当“思考”和“筛选”的功能。通过每天对人的行为大数据的收集和分析，音箱对人会有充分的认知，这种认知就是提供精准和感性服务的基础。

然而目前的技术还满足不了这样的需求。究其根本在于，目前基础声学和语音识别解决的仅仅是机器“听得见”的问题，而没有上升到“听得懂”的高度。李开复说：“其实，听懂讲的每个字不代表听懂了意思，甚至把英文翻译成中文，中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了，他一点不懂，他只能把音变成字，字变成音。你问他讲什么，一个字不懂。所以，语音识别还需要做的更好。”

李开复所说的机器“听不懂”的意思就是说，比如用户在家里哼唱“和我在成都的街头走一走”，智能音箱很有可能就凭借这句歌词给用户订了一张去成都的机票，直接规划好到玉林路尽头的路线。

显然这是有问题的。

NLP--自然语言理解技术的发展为解决这个问题提供了可能性，虽然得益于大数据和深度学习的发展， NLP也取得了很大进步，但是人类语言的复杂和多变性依旧是很难跨越的障碍，更不用说那些涉及因果关系、文字记忆和上下文逻辑推理等诸多层级的困难了。

智能音箱未来的挑战还有来自技术之外的，易观CTO郭炜就表达过这样的担忧：“如果日后家里摆着一台智能音箱，有可能你说的每一句话都会被时时上传到云端，想起来这是一件多么恐怖的事”。

但是，假如智能音箱缺少了大数据地收集功能，就意味着它没有了“记忆”，而“思考”是要建立在“记忆”的基础之上的，如何处理隐私和智能的关系也许是关乎行业未来走向的问题。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。