Alexa是如何倾听唤醒词的

亚历克莎总是在听，但不是不停地录音。在听到您说唤醒词(Alexa、Echo或Computer)之前，它不会向云服务器发送任何内容。但是听唤醒词比你想象的要难。

Echo硬件并不都那么智能。没有互联网，你提出的任何请求或问题都会失败。这是因为您的命令被发送到云中进行解释和决策。亚马逊并不希望你在智能扬声器面前的每一次对话都被录音，而是只希望你向智能扬声器发出的命令就能被录音。出于这个原因，该公司使用了唤醒词来吸引智能扬声器的注意。为了做到这一点，亚马逊使用了微调麦克风、短记忆缓冲器和神经网络训练的组合。

微调麦克风精确定位您的声音

语音助手扬声器，如Echo和Echo Dot，通常都有多个内置麦克风。例如，Echo Dot有七个。这种阵列赋予设备几种能力，从听到远处说出的命令，到将背景噪音与语音分开。

后者对于唤醒词检测特别有帮助。使用多个麦克风，Echo可以相对于它坐的位置精确定位你的位置，并在那个方向收听，同时忽略房间的其他部分。

每当你使用唤醒词的时候，你都会看到这一点。站在Echo或Echo Dot旁边说唤醒词。请注意，戒指以深蓝色亮起，然后在它绕圈并“指向”您时亮起较浅的蓝色。现在，把几个步骤移到一边，再说一遍唤醒词。请注意，浅蓝色的灯光跟随着你。

知道你在哪里，有助于设备更好地聚焦在你身上，并排除来自其他地方的噪音。

短暂的记忆力使演讲者不会有太多的记忆

Echo设备有足够的存储空间，但它们使用的空间并不多。根据亚马逊副总裁兼Alexa人工智能首席科学家约翰·罗希特·普拉萨德(Rohit Prasad)的说法，Echo只能物理存储几秒钟的音频。

通过降低功能，亚马逊不仅为你提供了更多的隐私(你的语音存储位置减少了一个地方)，而且还阻止了Echo监听整个对话，将其重点限制在寻找唤醒单词上。

想象一下，你有一盒三秒的卡带和一台录音机。假设磁带到达末尾后，一遍又一遍地循环回到开头。如果你开始录对话，你四秒前说的每一句话都会被抹去并立即录下来。亚马逊回声(Amazon Echo)就是这么做的。

它连续录制，但同时擦除刚刚录制的所有内容。如此短的注意力持续时间意味着它能听到的只有“亚历克萨”这个词，仅此而已。不过，3秒的时间足以让这个词被记录、检查并采取适当的行动。

神经网络训练有助于模式匹配

最后，亚马逊依靠神经网络训练来教Echo如何进行模式匹配。就像其他形式的机器学习一样，亚马逊通过一个接一个的单词Alexa(或计算机，或Echo，取决于公司正在训练的唤醒单词)的实例来训练它的算法。

相关：什么是算法，为什么它们会让人不舒服？

这个想法是要覆盖所有的语调和口音，但也要覆盖上下文。亚马逊希望你的Echo在你与它交谈时，当你谈论它时，或者，也许，当你与一个叫Alexa的人交谈时，能识别出不同之处。定向麦克风也有助于实现这一目标。

Echo听到的每一个词都会通过一层又一层的算法播放音频。每一层的设计都是为了排除假阳性，寻找类似声音的线索或上下文线索。如果一层检查通过，该字将转到下一层。最后，当本地设备确定它确实听到了唤醒消息时，它开始录制音频并将其传递到亚马逊的云服务器。亚马逊采用了四种算法：一种用于每个唤醒单词(Alexa、Computer、Echo)，另一种用于Alexa Guard，该算法将玻璃破碎等特定声音视为唤醒单词。

但即使出现匹配，亚马逊仍会运行更复杂的检查。你有没有注意到，当有人在电视节目或广告中说出Alexa这个词时，通常不会引起你的Echo的回应？这是因为亚马逊也会进行云检查。

云检查排除了一些误报

当公司制作以Alexa为主角的商业广告时，他们可以将音频提交给亚马逊。该公司通过类似的模式匹配算法来运行音频，这些算法用于识别唤醒词。一旦该实例被完全编目，它就会被添加到数据库中。

作为联系到云的过程的一部分，您的Echo包括有关它听到的唤醒词的信息，并检查该数据库。只要找到匹配项，Amazon就会指示您的Echo忽略唤醒字词，关闭并丢弃任何录制的音频。

此外，亚马逊还会检查同时说出的唤醒词的实例。并不是每家公司都向亚马逊提交音频，因此该公司提出了一个新颖的备份解决方案。在检查数据库匹配后，该公司将唤醒词印记与同时传入的任何其他实例进行比较。两个同时说Alexa的人听起来不太可能完全一样，所以如果有匹配，亚马逊知道这很可能是一个商业或电视节目，并忽略了这个请求。

尽管进行了所有检查，但仍会出现误报。你可以在亚马逊的隐私中心听到你的Echo记录了什么，你很可能会在这串东西中发现至少一个误报。但这项技术正在不断改进，最终，亚马逊希望它在没有任何警示的情况下发挥作用。

echo唤醒alexa

Alexa是如何倾听唤醒词的

相关文章