“AI很好,但不够惊人”,始终是近年来笼罩在AI语音市场上的浓重阴影。那么,Google Assistant新技术,能为人工智障般的语音助手扳回一局?

在最近谷歌的Google I/O大会上,谷歌CEO“劈柴“直接祭出了这次大会的王牌AI,这个AI产品似乎像人们展现了人工智能技术的进一步提升,Assistant的“持续性对话”功能让对话更自然,而“多重行动”功能让用户在一次对话中可以提出多个问题。

这似乎是一个标志性的转变,存在对话生硬、无法多轮对话等诸种弊病的语音助手在这场GoogleI/O大会上表现的尤为智能。相比Apple Siri和Microsoft Cortana只能机械式对话的语音互动,Google Assistant似乎表现尤为优异(至少在发布会上),那么,GoogleAssistant的出现是谷歌在AI语音助手领域的一张王牌吗?

惊艳全场的“嗯哼”

想要探究AI语音助手的智能程度,其评判标准就是如何做到让AI“像人”,这是一个深度学习的能力问题,而体现在表现形式上则为“话术”,如何能够让语音助手真正突破“图灵测试”,让用户人机难辨。然而,当下Google Assistant似乎正朝着全面“类人化”的方向发展。

以Google Assistant在GoogleI/O大会上的表现为例,发布会上,用户对Google Assistant说:我想剪头发。Google Assistant接受指令后直接帮你电话预约。

Google Assistant先拨通了Jim理发店的电话,进行电话预约剪发。

Google Assistant:你觉得时间定为3号可以吗?

理发店:我需要查查Jim老师的档期,稍等。

Google Assistant:嗯哼?

这一句“嗯哼”让全场所惊艳,AI的反应似乎出乎了所有人的预料,然而,这一切并没有结束。

理发店:3号12点不行,Jim老师已经有预约了。

Google Assistant:那10点到12点这段时间呢?

理发店:您的顾客是想烫头发还是剪头?

Google Assistant:只是简单修剪一下。

理发店:那没有问题,我们10点见!

诚然,对于人类来说,此类“嗯”、“呃”之类的语气词是再正常不过,可是对于机器而言,这是一件难以做到的事情。事实上,Google Assistant说“嗯嗯”,好似在点头同意;而其所拉长的某些词的发音,又好像它正在花时间去思考一个问题的答案,当然,这一切都是是由编程算法即时实现的。

谷歌助手的背后是一种称之为“Duplex”的技术,这由纽约、特拉维夫和山景城的谷歌工程师和产品设计师联合开发,该技术可实现一小部分人可以完成预订餐厅、查看假日时间等通常通过电话进行的活动。所有这些交互都发生在后端——谷歌数字助理Assistant和餐厅之间。

搭载数字助理Assistant的智能家居

此外,Google Assistant除了一种男性发音和女性发音外,其还可以用六种声音说话。谷歌还使用户能够更轻松地提出后续问题,并在开车并使用谷歌地图时自动向某些人发送你的预计抵达时间。

Google Assistant真的“完美无缺”吗?

Google Assistant新技术的应用,许多人认为“这下真的分不清对面对面是人是狗了”,但是,Google Assistant显然并不是完美无瑕,皮查伊在开发者大会上展示的 demo 距离落地还有多远?所展示的GoogleAssistant落地后真的会如此惊艳吗?智能相对论分析师柯鸣认为,谷歌语音助理虽然已经突破了众多技术瓶颈,但其真正能够应用于生活场景中,并完全替代“人类助理”,依然尚需时日。

首先,google duplex似乎已经可以解决自然对话的问题。展开一段自然的对话有这么几个难点:自然语言难以理解,人类的自然行为很难建模,人类对延迟的耐受性很低所以需要高处理速度,以及生成听起来自然的语音,其中还要适当地夹杂一些语气词。

谷歌联合使用了一个级联 TTS 引擎和一个生成式 TTS 引擎(其中使用了 Tacotron 和 WaveNet),根据不同的情境控制语音的语调。

为了让语音变得更加亲切自然,这个系统能够生成一系列语气词,这也是让大家所惊叹的地方,比如“hmmm”、“uh”等语气词。

当级联 TTS 需要组合变化很大的语音单元,或者需要增加生成的停顿时,语气词就会被添加到生成的语音中,这就让这个系统可以以一种自然的方式向对方示意“是的我听着呢”或者“我还在考虑”(人类说话的时候就经常在思考的同时发出一些语气词)。谷歌的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。

Duplex的运作模式

但是,也正是TTS的表现让人觉得其仍有可商榷之处。如从自然语言训练的方法角度看,通过充分的数据梳理,借助机器学习在某个单一领域穷举各种情况,继而达到Google 在今天所展示的效果尚有可能。

但目前没有公司可以做到全方位理解各种场景。也就是说,Google Assistant所擅长的也是针对特定场景的,例如预订餐位和理发。

这能否在所有场景中具有普适性,目前依然无法得知。从这个角度来看,小场景有限话题模拟对话并不是难题,针对 demo 优化到流畅也能够做到,这是否能够真正替代“人类助理”,依然是一个尚未确知的问题。

其次,从伦理和信息安全的的角度来看,Google Assistant依然存在着诸多争议。比如,谷歌官方曾表示:“现在的技术并没有达到只通过与开发人员对话就学会如何像人一样说话的水平,为了获得高精度,我们在匿名电话的会话数据库上对Duplex的RNN进行了训练。”

在数百个小时的训练过程中,它记录下了客户们电话中的通话记录。这让我们又一次回到了十年来一直在进行的辩论,即维护个人数据隐私和推进技术便利的界限究竟在何处,Facebook的信息泄露案更将这个问题推到了风口浪尖。

当然,倘若撇开公地悲剧的存在主义解决方案不谈,Duplex AI的出现还暴露了许多实际问题。例如,如何防止某人非法利用公众人物的录音来训练人工智能,并生成伪造的音频?

此外,我们还需要防止伪造视频的攻击,鉴于人们已经能够伪造图像和视频(甚至色情),并能够合并一层虚假音频,谷歌和Facebook的内容审核工作将面临着更大的困难。

谷歌这条路好走吗?

谷歌语音助手这条路,已经走了很久。最早的GoogleNow作为谷歌语音助手的最初形式出现在人们面前,Google Now 2012 年最早出现在安卓 4.1 和 Nexus 手机上,随后又推出面向移动设备信息快速检索服务的“Now On Tap”、以及“Now cards”。

从 2016 年开始,Google Assistant 就开始逐步取代 Google Now,相应的功能也被替换,“Now cards”被“Feed”取代,“Now on Tap”被“Screen Search”所取代。

最早于2016年与Google Home一起亮相的Google Assistant,依托着谷歌系产品的用户量级,虽然同类竞品亚马逊的Echo已经占据一定市场,但是依然有着一定发展的前景和底气。

但是,如果谷歌的目标是让Assistant成为拟人化的谷歌,那么仍有很多事情要做。若想实现与斯派克·琼斯(Spike Jonze)科幻电影《她》(Her)中的操作系统Samantha进行对话的那样,谷歌依然还有一定距离。、

当然,相较于市场上同类系的其他产品,Google Assistant的表现确实稍显优秀。Stone Temple Consulting与ROAST公司2018年发布的智能语音助理测试报告也显示,Google Assistant手机版能回答的题目最多,高达90%,准确率也有将近80%的超高表现。

相关推荐