苹果发布论文,揭示Siri的秘密

木工雕刻机 | 2021-02-23
本文摘要:苹果的跨平台Siri虚拟世界助手在世界上拥有多达5亿用户,语音识别似乎是苹果感兴趣的最重要领域之一。

苹果的跨平台Siri虚拟世界助手在世界上拥有多达5亿用户,语音识别似乎是苹果感兴趣的最重要领域之一。上周,苹果公司公开发表了一系列真实的印刷研究论文,研究了如何改进语音启动时的检查和说话人的检查,以及多说话人的语言识别技术。

【照片来源:PatentlyApple所有者:PatentlyApplel】扬声器检查和语音启动时,在第一篇论文中,苹果研究人员明确提出了训练过的人工智能模型,该模型可以继续执行自动语音识别任务,也可以继续执行识别任务。正如他们在概要中说明的那样,语音助手识别的命令一般以启动时的短语(例如嘿,Siri)为后缀,检查这个启动时的短语有两个步骤。首先,人工智能必须识别输出声音中的声音内容是否与启动时的短语声音内容一致(声音启动时的检查),其次,人工智能必须识别说话者的声音是否与注册用户或用户的声音一致(声音检查)。

一般来说,这两项任务都是独立国家考虑的。但是,如果有年度出版者对语音发起者的理解有助于推断语音信号中的语音内容,相反,这有助于评价这两个属性。应对,研究人员设计了3套需要自学语音和说明人信息的模型,对一组数据进行了训练。

这些数据包括多达16000小时的带注解样本,其中5000小时的音频有语音标签(其馀为说明人标签)。不仅如此,还有多达100名受试者用于智能音箱设备在一系列声学设置中为语料库做出贡献,包括安静的房间、来自房间内的电视和厨房设备的外部噪音,录音机以大量的音量播放音乐。值得一提的是,电视、广播、播客的2000次小时候也加入了不包括开始时短语的倒数音频记录,测量了误报的亲率。这些模型表明具有自学语音和明人信息的能力的同时,在完全相同数量的参数下(按下,控制训练过程中某些属性的变量),每项任务的准确性至少与基础模型完全相同。

事实上,在明确提出的三种模式中,有一种在多重设置下的显示高于提出者的检测基础,与文本相关的任务中的基础提高了7.6%。研究人员指出,这种实验结果非常有趣,因为这些模型是用来训练不相关的数据集,也就是说,每个音频样本都有语音标签,或者有说话人的标签,两者都没有。

亚博网页版登录界面

通过对结果的仔细观察,研究人员明确提出了灵活的设计,通过连接不同任务的训练数据,不为每个训练例提供多个标签,而是通过多个与任务有关的训练模型。从简单的角度来看,需要在两个任务之间共享计算,节省设备内存、计算时间或延迟、消耗的电力/电池。【照片来源:venturebeat所有者:venturebeat)错误开始时减轻研究,补充研究增加了错误开始时的再次发生,也就是说,语音助手无意识地忽视了Siri这样的语音助手的声音。

研究人员回答说,他们用于图形神经网络(GNN)。这是操作者在图形结构上的人工智能模型,其中各节点与标签有关,目标是在没有基础事实的情况下预测节点的标签。在论文中,研究人员写道,语音启动时的智能助手一般在开始监视用户的催促之前不会检测到启动时的短语……错误的启动时,一般来说来自背景噪音和启动时听到类似短语的语音。

亚博网页版登录

因此,增加错误启动时是以隐私为中心的非侵入性智能助手的最重要方面。在未来的工作中,该团队计划将基于GNN的处置扩展到其他任务,如用户的意图分类。多语言发言人识别在另一篇论文中,苹果研究探索了针对多语言用户定制的语言识别系统。他们回应说,语音识别系统对大多数语言都有很高的准确性。

但是,多种语言频繁出现时,该语言识别系统的表现并不令人满意。因此,根据这种执行情况,研究人员要求积极开展说话人的语言识别系统工作。值得注意的是,《华盛顿邮报》最近委托的研究表明,谷歌和亚马逊生产的人气智能扬声器听不到本地用户的声音,比听不到非美国口音的概率高30%。

同时,像Switchboard这样的语料库也证明了国内特定地区的使用者没有可测弯曲,这个语料库还是由IBMT和微软公司等公司使用的。针对这种情况,年出版者将有关模式的科学知识融入一个问答系统,这个系统需要为来自60多个地区的演讲者做出决定。其中,声学子模型根据语音信号发送的证据进行预测,上下文感觉预测组件考虑各种交互式上下文信号,通过这两方面的预测,自由选择拟合的单词自动语音识别系统。

据了解,上下文的信号包括接受问答催促的条件的信息,包括已安装的问答区域、现在自由选择的问答区域、用户在提出请求之前是否转换了问答区域的信息。最重要的是,在声音信号过短的情况下,依靠声学模型有助于产生可靠的预测。例如,如果用户同时安装英语和德语,像nain这样的短而模糊的语言,在德语中有可能被驳回的nein,在英语中是数字nine。

此外,为了评估该系统,研究人员还开发了一个定制指标,称为平均用户精度(公共编号:根据AUA、AverageUser指出,该指标可以更好地反映模型中的人口水平用于模型。通过对多语言使用者的128,000个具有适当对话上下文信息的问答语言的内部语料库进行了严格的训练,在所有语言人中构筑了平均值87%的准确性,同时将最佳情况下的准确性提高到基线的60%以上。

另外,团队调整参数以均衡的正确性和延迟和设备运营模型的计算抗后,平均延迟从下降2秒增加到下降1.2秒,对AUA的影响不大达0.05%。记录:本文编译器允许从venturebeat版权文章中发布禁令。下一篇文章发表了注意事项。


本文关键词:亚博网页版登录,亚博网页版登录界面

本文来源:亚博网页版登录-www.simplywhitespa.com