下一代交互革命是语音：Voice In Voice Out

Siri 和 Google Now 对你来说肯定不陌生，如果你关注科技圈，那么对微软的 Cortana 也应该略有耳闻。在形式上它们都很类似，作为语音助手，你只需要对着手机说话，它们就能完成一些简单的小任务，诸如查询天气，创建提醒事项……

而如果你生活在国内，却拥有一台 Amazon Echo，那应该算得上真正的极客。Amazon Echo 早在 2014 年底就发布了，并且还在不断进化。这是亚马逊在美国超级碗比赛期间为它做的广告，如果你还不知道它是什么，可以看一看视频。

为什么 Echo 比 Siri 更进一步？

简单来说，如果用所有已知的概念来描述 Echo：它是一台联网的，可接受语音命令的、并以语音方式输出结果的蓝牙音箱。而用具有未来感的描述方式，Echo 是下一代交互革命的原型。

从产品形态上来说，Echo 更加纯粹。相比起 Siri，没有任何的屏幕文字反馈，你就像在和人交谈一样，你和她说话，她用声音回答你。

此外，语音作为交互方式，最让人担心的也是可靠性。想像一下用键盘打错一个字，你可以马上删除，但如果 Siri 理解不了，或者错误理解了你的意思，给出的回复简直让人啼笑不得。时至今日，很多人也经常会吐嘈 Siri 的局限性，而 Echo 的解决方案是 Skills。从形态上，它很像是一个语料库的 App Store，第三方开发者可以为 Echo 进行定制开发，让 Echo 掌握和学习某些特定的技能，例如陪你健身、控制任意的家电。

从 Echo 看到未来

美剧灵异之城（英文名：Eureka）中有一座房子，这个房子本身是具备高度 AI 的，尽管你看不见她，但在任何房间里，你可以和她交谈，她可以帮你控制关于房子的一切，灯光、温度、微波炉、冰箱……她可以陪你聊天，她甚至能检测到你心情低落的时候，主动给你讲笑话。

这可能是未来 Echo 进化的目标，但即使是现在，Echo 已经能做到什么了呢？播放音乐、创建提醒、播报新闻自然不在话下，Echo 还能根据你在亚马逊上的购物记录，智能地帮你下单。甚至，借助于前面提到的 Skills，已经有人用 Echo 控制了家中的几乎所有电器：灯光、温控、电视机、Apple TV、安保监控、热水壶、车库……这意味着，在家中你只需要像说话一样表达你的诉求，不需要遥控器，不需要额外的按钮。

Echo 的本质，是 Voice In Voice Out 这种交互方式的体现，很多年前曾有人预言语音是未来 UI 的范式，这一天终于到来。

为什么说语音是下一代的交互革命？

真正好的交互方式，应该符合人的直觉，即做到上手即用。你可能在很多地方读到乔布斯曾有一个要求：iPhone 从三岁的小孩子，到七十岁的老人，都可以无障碍地上手，因此只保留一个实体 Home 键，让人无从选择，也不用思考，一切从这里可以点亮。

不过在实际生活中，如果你尝试给你五六十岁的父母使用智能手机，即使是 iPhone，你也会发现故事并不如这般美好。

回顾一下人机交互的发展历程，实际上是对机的不断改造，以解放人的过程。最早期的电脑，键盘是唯一的输入设备，后来有了图形界面 GUI，才有了鼠标。而键盘和鼠标本身，是需要较高的学习成本的，试试观察你年迈的父母使用鼠标，精准操控鼠标、掌握单双击的速度节奏，这些对他们来说，都不是容易事。

后来我们进一步的解放身体，设备终端越来越小，直到可以随身携带。手机屏幕使用了触摸屏，真正摆脱了鼠标这个中间介质，做到了所触即所得。在空间上，你的身体终于不再受到禁锢，需要端坐在电脑前，而是可以自由移动，但是操控一部手机，仍然需要你的手和眼睛全程参与。

而语音交互，则是进一步对手和眼睛的解放，全程只需要说和听，对身体来说，感官上的体验和占用肯定是更轻了，并且相比起鼠标、键盘、遥控器乃至触屏来说，说话做为一种交互方式，学习成本显然是最小的。而在空间限制上，在未来基础设施普及的情况下，你可以做到 device-free，在任何地方都可以使用语音进行人机交互。

QQ20160406-0@2x.png

相比之下，无处不在的屏，虽然在科幻电影中更为常见，主角们常常能随意从空气中展开一块虚拟的投影，先不说这个基础设施普及的程度相比语音交互来说困难得多，从能耗、体积等方面，至少在目前和可预见的科技水平上也不现实。

即使寄托于 VR 技术，但是大多数人机交互，如果可以用语音解决，何必执念于屏幕显示？最关键的是，如果你真的试过把手举在半空中比划来比划去，会发现不用花多少时间，手臂就已经酸胀得抬不起来了，不信你试试抬上五分钟。

除了语音更符合直觉外，在速度方面也有着显然的优势。世界上文字输入最快的世界纪录是 212 个单词/每分钟，而说话速度最快的纪录则是 637 个单词/每分钟。在普遍人每分钟文字和语音的输入效率上，这个 3 倍的比例依然成立。这还只是语音和文字输入的对比，想像一下语音替代更传统的遥控器和按钮，你再也不用找到遥控器，从上面那一排排密密麻麻的按钮中，找到静音在哪里了，只需要像讲话一样，告诉你的电视机别发出声音，想想两者之间交互的效率差异。

语音交互的边界与外延

你看到了，语音作为一种交互方式，不仅是速度，交互边界也发生了外延。从前设备与设备之间是孤立的，随着物联网的大潮，未来每一个物件都会连接在一起，告别那些笨重而丑陋的遥控器和各类按钮，告别那一本本没人阅读的说明书，也告别你需要在手机上分别安装 5 个 App 去控制 5 个不同的家电。你只需要拥有一个 Echo 这样的中央设备，然后对它说话，一切便自然地发生。

即使如此，还是要强调两件事：第一件事就是语音和之前的交互方式，并不是完全的替换关系，就像手机不能完全替代电脑一样，语音作为一种交互方式也并非是万能的。想像一下作为一名小说家，如果全程用语音输入来写作，仅靠口述和聆听，那一旦想修改编辑之前的段落，简直是反人类的体验。

第二件事，之前谈到的很多场景，要用超前的眼光去看待。例如像语音的输入速度，你现在使用 Siri 时，会发现声音被识别需要一段不短的时间，但以发展的眼光来看，在可预期的未来，这个转换的时间一定是可以缩短到，让你觉得是在和设备直接进行流畅的对话。

除了家居领域之外，语音交互另一处可以大放异彩的领域，便是 VR。虽然 VR 本身还在兴起，但是想想目前已经有的应用场景，无论是游戏、教学，VR 都还只是视觉上的模拟，在触觉相对难以实现的前提下，想想你可以在 VR 里和环境发生对话，游戏的 NPC 不再只是头上顶着文字的 NPC，教堂课堂上，你不仅仅是看到 VR 里的历史人物，你还可以和他们对话。VR 可以是视觉和听觉的双重虚拟，你可以用动作和声音与环境发生互动。

未来十年，语音交互的发展蓝图

语音作为一种交互，其潜力远远不止于前文描述的场景。在未来的十年里，关于语音交互，我们至少还可以期待这些。

主动和你说话：现在所有的语音助手，都还是被动地交谈，你必须给出命令，它们才会应答。但想像一下 Google Now，深度学习和大数据已经做好了充足的准备，它们能预知你接下来要去哪，要见什么人，甚至在想什么，只需要用语音的方式输出这些信息。想比起 Google Now，你不再需要点亮手机去查看这些智能的提醒，随时随地，会有一个声音和你主动交谈。

集成各类传感器：想像一下，你现在想给朋友转一笔钱。在今天看来，你需要打开支付宝或者某个银行 App，输入金额、验证码、密码，经过一系列复杂的流程，钱才能转出去。而未来，你只需要在家中，对着你的房子说一句把钱转给谁，不出几秒钟就会有语音告诉你已经完成了。借助于一系列传感器，从你的声音纹路、体征指标等一系列数据，语音是最自然的和机器交互的范式。

Inner Voice Out，Inner Voice In：你在思考的时候，是不是总觉得脑子里有一个声音，仿佛在自言自语，只是没有发出声音而已？这就是 Inner Voice。有朝一日，对语音的解析，可以跨过中间步骤：与其对声音解析，不如直接对你的脑电流进行解析。是不是看到了心灵感应的雏形？

十年即未来。

【子不语】搜一搜微信公众号「子不语」或「ZiChat」，欢迎关注