Alexa是如何倾听唤醒词的

亚历克莎总是在听,但不是不停地录音。在听到您说唤醒词(Alexa、Echo或Computer)之前,它不会向云服务器发送任何内容。但是听唤醒词比你想象的要难。

Echo硬件并不都那么智能。没有互联网,你提出的任何请求或问题都会失败。这是因为您的命令被发送到云中进行解释和决策。亚马逊并不希望你在智能扬声器面前的每一次对话都被录音,而是只希望你向智能扬声器发出的命令就能被录音。出于这个原因,该公司使用了唤醒词来吸引智能扬声器的注意。为了做到这一点,亚马逊使用了微调麦克风、短记忆缓冲器和神经网络训练的组合。

微调麦克风精确定位您的声音

语音助手扬声器,如Echo和Echo Dot,通常都有多个内置麦克风。例如,Echo Dot有七个。这种阵列赋予设备几种能力,从听到远处说出的命令,到将背景噪音与语音分开。

后者对于唤醒词检测特别有帮助。使用多个麦克风,Echo可以相对于它坐的位置精确定位你的位置,并在那个方向收听,同时忽略房间的其他部分。

每当你使用唤醒词的时候,你都会看到这一点。站在Echo或Echo Dot旁边说唤醒词。请注意,戒指以深蓝色亮起,然后在它绕圈并“指向”您时亮起较浅的蓝色。现在,把几个步骤移到一边,再说一遍唤醒词。请注意,浅蓝色的灯光跟随着你。

知道你在哪里,有助于设备更好地聚焦在你身上,并排除来自其他地方的噪音。

短暂的记忆力使演讲者不会有太多的记忆

Echo设备有足够的存储空间,但它们使用的空间并不多。根据亚马逊副总裁兼Alexa人工智能首席科学家约翰·罗希特·普拉萨德(Rohit Prasad)的说法,Echo只能物理存储几秒钟的音频。

通过降低功能,亚马逊不仅为你提供了更多的隐私(你的语音存储位置减少了一个地方),而且还阻止了Echo监听整个对话,将其重点限制在寻找唤醒单词上。

想象一下,你有一盒三秒的卡带和一台录音机。假设磁带到达末尾后,一遍又一遍地循环回到开头。如果你开始录对话,你四秒前说的每一句话都会被抹去并立即录下来。亚马逊回声(Amazon Echo)就是这么做的。

它连续录制,但同时擦除刚刚录制的所有内容。如此短的注意力持续时间意味着它能听到的只有“亚历克萨”这个词,仅此而已。不过,3秒的时间足以让这个词被记录、检查并采取适当的行动。

神经网络训练有助于模式匹配

最后,亚马逊依靠神经网络训练来教Echo如何进行模式匹配。就像其他形式的机器学习一样,亚马逊通过一个接一个的单词Alexa(或计算机,或Echo,取决于公司正在训练的唤醒单词)的实例来训练它的算法。

相关:什么是算法,为什么它们会让人不舒服?

这个想法是要覆盖所有的语调和口音,但也要覆盖上下文。亚马逊希望你的Echo在你与它交谈时,当你谈论它时,或者,也许,当你与一个叫Alexa的人交谈时,能识别出不同之处。定向麦克风也有助于实现这一目标。

Echo听到的每一个词都会通过一层又一层的算法播放音频。每一层的设计都是为了排除假阳性,寻找类似声音的线索或上下文线索。如果一层检查通过,该字将转到下一层。最后,当本地设备确定它确实听到了唤醒消息时,它开始录制音频并将其传递到亚马逊的云服务器。亚马逊采用了四种算法:一种用于每个唤醒单词(Alexa、Computer、Echo),另一种用于Alexa Guard,该算法将玻璃破碎等特定声音视为唤醒单词。

但即使出现匹配,亚马逊仍会运行更复杂的检查。你有没有注意到,当有人在电视节目或广告中说出Alexa这个词时,通常不会引起你的Echo的回应?这是因为亚马逊也会进行云检查。

云检查排除了一些误报

当公司制作以Alexa为主角的商业广告时,他们可以将音频提交给亚马逊。该公司通过类似的模式匹配算法来运行音频,这些算法用于识别唤醒词。一旦该实例被完全编目,它就会被添加到数据库中。

作为联系到云的过程的一部分,您的Echo包括有关它听到的唤醒词的信息,并检查该数据库。只要找到匹配项,Amazon就会指示您的Echo忽略唤醒字词,关闭并丢弃任何录制的音频。

此外,亚马逊还会检查同时说出的唤醒词的实例。并不是每家公司都向亚马逊提交音频,因此该公司提出了一个新颖的备份解决方案。在检查数据库匹配后,该公司将唤醒词印记与同时传入的任何其他实例进行比较。两个同时说Alexa的人听起来不太可能完全一样,所以如果有匹配,亚马逊知道这很可能是一个商业或电视节目,并忽略了这个请求。

尽管进行了所有检查,但仍会出现误报。你可以在亚马逊的隐私中心听到你的Echo记录了什么,你很可能会在这串东西中发现至少一个误报。但这项技术正在不断改进,最终,亚马逊希望它在没有任何警示的情况下发挥作用。

相关文章