Siri 和 Google Now 对你来说肯定不陌生,如果你关注科技圈,那么对微软的 Cortana 也应该略有耳闻。在形式上它们都很类似,作为语音助手,你只需要对着手机说话,它们就能完成一些简单的小任务,诸如查询天气,创建提醒事项……

而如果你生活在国内,却拥有一台 Amazon Echo,那应该算得上真正的极客。Amazon Echo 早在 2014 年底就发布了,并且还在不断进化。这是亚马逊在美国超级碗比赛期间为它做的广告,如果你还不知道它是什么,可以看一看视频

为什么 Echo 比 Siri 更进一步?

简单来说,如果用所有已知的概念来描述 Echo:它是一台联网的,可接受语音命令的、并以语音方式输出结果的蓝牙音箱。而用具有未来感的描述方式,Echo 是下一代交互革命的原型

从产品形态上来说,Echo 更加纯粹。相比起 Siri,没有任何的屏幕文字反馈,你就像在和人交谈一样,你和她说话,她用声音回答你。

此外,语音作为交互方式,最让人担心的也是可靠性。想像一下用键盘打错一个字,你可以马上删除,但如果 Siri 理解不了,或者错误理解了你的意思,给出的回复简直让人啼笑不得。时至今日,很多人也经常会吐嘈 Siri 的局限性,而 Echo 的解决方案是 Skills。从形态上,它很像是一个语料库的 App Store,第三方开发者可以为 Echo 进行定制开发,让 Echo 掌握和学习某些特定的技能,例如陪你健身、控制任意的家电。

从 Echo 看到未来

美剧灵异之城(英文名:Eureka)中有一座房子,这个房子本身是具备高度 AI 的,尽管你看不见她,但在任何房间里,你可以和她交谈,她可以帮你控制关于房子的一切,灯光、温度、微波炉、冰箱……她可以陪你聊天,她甚至能检测到你心情低落的时候,主动给你讲笑话。

这可能是未来 Echo 进化的目标,但即使是现在,Echo 已经能做到什么了呢?播放音乐、创建提醒、播报新闻自然不在话下,Echo 还能根据你在亚马逊上的购物记录,智能地帮你下单。甚至,借助于前面提到的 Skills,已经有人用 Echo 控制了家中的几乎所有电器:灯光、温控、电视机、Apple TV、安保监控、热水壶、车库……这意味着,在家中你只需要像说话一样表达你的诉求,不需要遥控器,不需要额外的按钮。

Echo 的本质,是 Voice In Voice Out 这种交互方式的体现,很多年前曾有人预言语音是未来 UI 的范式,这一天终于到来。

为什么说语音是下一代的交互革命?

真正好的交互方式,应该符合人的直觉,即做到上手即用。你可能在很多地方读到乔布斯曾有一个要求:iPhone 从三岁的小孩子,到七十岁的老人,都可以无障碍地上手,因此只保留一个实体 Home 键,让人无从选择,也不用思考,一切从这里可以点亮。

不过在实际生活中,如果你尝试给你五六十岁的父母使用智能手机,即使是 iPhone,你也会发现故事并不如这般美好。

回顾一下人机交互的发展历程,实际上是对机的不断改造,以解放人的过程。最早期的电脑,键盘是唯一的输入设备,后来有了图形界面 GUI,才有了鼠标。而键盘和鼠标本身,是需要较高的学习成本的,试试观察你年迈的父母使用鼠标,精准操控鼠标、掌握单双击的速度节奏,这些对他们来说,都不是容易事。

后来我们进一步的解放身体,设备终端越来越小,直到可以随身携带。手机屏幕使用了触摸屏,真正摆脱了鼠标这个中间介质,做到了所触即所得。在空间上,你的身体终于不再受到禁锢,需要端坐在电脑前,而是可以自由移动,但是操控一部手机,仍然需要你的手和眼睛全程参与。

而语音交互,则是进一步对手和眼睛的解放,全程只需要说和听,对身体来说,感官上的体验和占用肯定是更轻了,并且相比起鼠标、键盘、遥控器乃至触屏来说,说话做为一种交互方式,学习成本显然是最小的。而在空间限制上,在未来基础设施普及的情况下,你可以做到 device-free,在任何地方都可以使用语音进行人机交互。

QQ20160406-0@2x.png

相比之下,无处不在的屏,虽然在科幻电影中更为常见,主角们常常能随意从空气中展开一块虚拟的投影,先不说这个基础设施普及的程度相比语音交互来说困难得多,从能耗、体积等方面,至少在目前和可预见的科技水平上也不现实。

即使寄托于 VR 技术,但是大多数人机交互,如果可以用语音解决,何必执念于屏幕显示?最关键的是,如果你真的试过把手举在半空中比划来比划去,会发现不用花多少时间,手臂就已经酸胀得抬不起来了,不信你试试抬上五分钟。

除了语音更符合直觉外,在速度方面也有着显然的优势。世界上文字输入最快的世界纪录是 212 个单词/每分钟,而说话速度最快的纪录则是 637 个单词/每分钟。在普遍人每分钟文字和语音的输入效率上,这个 3 倍的比例依然成立。这还只是语音和文字输入的对比,想像一下语音替代更传统的遥控器和按钮,你再也不用找到遥控器,从上面那一排排密密麻麻的按钮中,找到静音在哪里了,只需要像讲话一样,告诉你的电视机别发出声音,想想两者之间交互的效率差异。

语音交互的边界与外延

你看到了,语音作为一种交互方式,不仅是速度,交互边界也发生了外延。从前设备与设备之间是孤立的,随着物联网的大潮,未来每一个物件都会连接在一起,告别那些笨重而丑陋的遥控器和各类按钮,告别那一本本没人阅读的说明书,也告别你需要在手机上分别安装 5 个 App 去控制 5 个不同的家电。你只需要拥有一个 Echo 这样的中央设备,然后对它说话,一切便自然地发生。

即使如此,还是要强调两件事:第一件事就是语音和之前的交互方式,并不是完全的替换关系,就像手机不能完全替代电脑一样,语音作为一种交互方式也并非是万能的。想像一下作为一名小说家,如果全程用语音输入来写作,仅靠口述和聆听,那一旦想修改编辑之前的段落,简直是反人类的体验。

第二件事,之前谈到的很多场景,要用超前的眼光去看待。例如像语音的输入速度,你现在使用 Siri 时,会发现声音被识别需要一段不短的时间,但以发展的眼光来看,在可预期的未来,这个转换的时间一定是可以缩短到,让你觉得是在和设备直接进行流畅的对话。

除了家居领域之外,语音交互另一处可以大放异彩的领域,便是 VR。虽然 VR 本身还在兴起,但是想想目前已经有的应用场景,无论是游戏、教学,VR 都还只是视觉上的模拟,在触觉相对难以实现的前提下,想想你可以在 VR 里和环境发生对话,游戏的 NPC 不再只是头上顶着文字的 NPC,教堂课堂上,你不仅仅是看到 VR 里的历史人物,你还可以和他们对话。VR 可以是视觉和听觉的双重虚拟,你可以用动作和声音与环境发生互动

未来十年,语音交互的发展蓝图

语音作为一种交互,其潜力远远不止于前文描述的场景。在未来的十年里,关于语音交互,我们至少还可以期待这些。

主动和你说话:现在所有的语音助手,都还是被动地交谈,你必须给出命令,它们才会应答。但想像一下 Google Now,深度学习和大数据已经做好了充足的准备,它们能预知你接下来要去哪,要见什么人,甚至在想什么,只需要用语音的方式输出这些信息。想比起 Google Now,你不再需要点亮手机去查看这些智能的提醒,随时随地,会有一个声音和你主动交谈。

集成各类传感器:想像一下,你现在想给朋友转一笔钱。在今天看来,你需要打开支付宝或者某个银行 App,输入金额、验证码、密码,经过一系列复杂的流程,钱才能转出去。而未来,你只需要在家中,对着你的房子说一句把钱转给谁,不出几秒钟就会有语音告诉你已经完成了。借助于一系列传感器,从你的声音纹路、体征指标等一系列数据,语音是最自然的和机器交互的范式。

Inner Voice Out,Inner Voice In:你在思考的时候,是不是总觉得脑子里有一个声音,仿佛在自言自语,只是没有发出声音而已?这就是 Inner Voice。有朝一日,对语音的解析,可以跨过中间步骤:与其对声音解析,不如直接对你的脑电流进行解析。是不是看到了心灵感应的雏形?

十年即未来。


【子不语】搜一搜微信公众号「子不语」或「ZiChat」,欢迎关注