注册
闽南网 > 产业在线 > 正文

百度宣布即将发布一个端到端大规模识别系统——Deep Speaker

来源:机器人圈 2017-05-11 17:47 http://www.mnw.cn/ 海峡都市报电子版

­  今天,百度研究院发布一条新闻,宣布即将发布的新一代语音识别技术——Deep Speaker,一个端到端大规模识别系统。让机器人圈带你预先了解一下Deep Speaker与其他语音识别技术有何不同。

­  语音识别算法的目标是从音频中确定说话者的身份。两个常见的识别任务是核实(确定说话的人就是要识别的本人)和说话人识别(在一组说话人中对未知语音的身份进行分类确认)。

­  该技术目前有各种应用。例如,可以使用声纹来登录设备,说话人的验证也可以作为金融交易的额外安全措施。此外,像智能家居助理这样的共享设备可以利用这种技术来根据当前用户提供个性化服务。

­  最近使用神经网络进行语音识别的论文已经改进了传统的i-vector approach技术(参见Interspeech教程的原始论文或幻灯片)。i-vector approach假设任何话语都可以分解为依赖于说话者和信道变化的一个分量,以及不同于这些因素的另一个分量。i-vector说话人识别是一个多步骤过程,其涉及使用来自多个说话人的数据来估计通用背景模型(通常是高斯混合模型),收集足够的统计数据,提取i-vectors,最后使用分类器进行识别任务。

­  有些论文用神经网络替代了i-vector流水线,而其他文献则针对文本依赖的制度(用户必须说出相同的话语,例如唤醒词)或者文本来训练端到端的说话人识别模型独立制度(这种模式与言语无关)。我们介绍Deep Speaker,一个端到端的语音识别系统,适用于文本依赖和文本无关的场景。这意味着,当您说出唤醒词来激活你的家庭助理,或者你在会议中发言时,相同的系统被训练来识别谁在说话。

­  Deep Speaker由深层神经网络层组成,从音频中提取特征,基于余弦相似性的时序累加(temporal pooling)和三重损失(triplet loss)。我们探索ResNet启发的卷积模型和递归模型来提取声学特征。

­  我们使用以前用于人脸识别的triplet loss。在培训期间,我们选择一个说话人的话语,并计算一个嵌入(标记为“Anchor”)。然后我们产生两个嵌入,一个由同一个说话人(标记为“正”)和一个不同说话人(标记为“负”)的嵌入。在训练过程中,我们试图使Anchor和积极嵌入之间的余弦相似性高于Anchor和负嵌入之间的余弦相似度。

­  我们展示了Deep Speaker对三个不同数据集的有效性,包括文本依赖和文本无关的任务。其中一个(UID)包括大约25万个演讲者,这是我们最好的知识文献中最大的。实验表明,Deep Speaker明显比基于DNN的i-vector方法更好。例如,Deep Speaker在文本独立数据集中实现了说话人识别的同等误码率(EER)为1.83%,而在100个随机抽样候选者之间的说话人识别的准确度为92.58%。相对于基于DNN的i-vector方法,它达到了减少50%的同等误码率和60%的精度提高。

­  我们在实验中使用的三个数据集是UID,小度和MTurk。 UID和小度是普通话数据集,MTurk是英文数据集。UID和MTurk是文本独立的数据集,而小度是依赖于文本的,基于百度的唤醒词。为了尝试不同的训练集大小,我们使用完整的UID数据集(Train250k)和大约五万个演讲者(Train50k)的子集。在评估过程中,选择一个锚点,然后从测试分区中随机选择一个锚点正样本和99个锚点负样本。

­  我们还发现Deep Speaker学习与语言无关的功能。Deep Speaker在识别普通话的演讲时,分别获得5.57%的EER和88%的英文验证和识别准确率。此外,与普通话训练相比,先用普通话训练,然后继续用英语训练,将提高英语识别的准确性。这些结果表明,Deep Speaker学习跨语言的声音特征,即使这些语言听起来差别很大。这些结果与Deep Speech 2的结果并行,同一架构可以学习识别跨语种语言。

相关阅读:
新闻 娱乐 福建 泉州 漳州 厦门
猜你喜欢:
频道推荐
  • 董事长称被开除员工涉嫌学历造假 被开除当
  • 章泽天登胡润财富榜:净资产600亿 清华与浙
  • 全球最大级集装箱船出海试航 最大载货量241
  • 新闻推荐
    @所有人 多项民生礼包加速落地快来查收 三峡大坝变形?专家:又有人在恶意炒作 北京新一波疫情为什么没出现死亡病例? 戴口罩、一米线 疫情改变了哪些习惯? 呼伦贝尔现幻日奇观 彩虹光带环绕太阳
    视觉焦点
    石狮:秋风起,紫菜香 石狮:秋风起,紫菜香
    石狮环湾生态公园内粉黛乱子草盛放 石狮环湾生态公园内粉黛乱子草盛放
    精彩视频
    世遗泉州︱最美乡村·南安燎原村:星星之火 点亮民宿发展之势
    世遗泉州︱最美乡村·南安燎原村:星星之火 点亮民宿发展之势
    世遗泉州︱最美乡村·惠安东山:小渔村的蝶变
    世遗泉州︱最美乡村·惠安东山:小渔村的蝶变
    48小时点击排行榜
    武平:昂首阔步迈入“高铁时代” @厦门符合条件家庭 明天起保障性租赁房可 “征拆建管”一体化,打造连城新名片 使用全功能自助终端 软件园三期智慧办税 福建省第三批“最美乡村‘福’路”名单公 丁俊晖再轰单杆147不敌奥沙利文 无缘大师 长汀以“引绿、增绿、创绿”为抓手 产业 荣耀x50gt和华为nova12哪个好值得买 区别