11月20, 2020

0 comments

滴滴出行场景中语音识别模型的自学习平台化实践

1. 业务背景

随着数据量增加、计算能力增强以及深度学习理论技术的发展，语音识别准确率不断提升，应用领域不断拓宽。在滴滴，语音识别的应用有交互式的，如搭载在车机/手机上的语音助手，通过语音识别把用户的语音转换为机器能够理解的文字，使得机器执行对应任务并给予反馈，实现一种自然的人机交流。在一些国家，由于法律法规禁止在驾驶过程中操作手机，语音甚至成为车载场景中驾驶员与手机交互的唯一一种方式。此外还有非交互式的应用，例如通过行程录音保障司乘安全，以及在客服质检、智能外呼等领域上的应用。

以交互产品为例，语音识别的准确率基本可以达到95%的字准水平。但是这并不能满足日新月异的业务需求。尤其是对于细分领域新增的专有词汇，如英文词、地名、专业用语，如果不针对性的调优模型，任何一家厂商的语音识别模型都难以满足业务要求。由于业务的优化周期一般可达几周甚至几月，多条业务线时间存在交叠，偶尔也会出现紧急需求，完全依靠有限的语音工程师处理，并不能及时响应，影响业务推进和用户体验。

于是我们开发了语音识别模型自学习平台来缓解这个问题。语音识别简单来说分为声学模型，语言模型，解码器和发音词典。声学模型重建音素级别的内容；语言模型表征词间关系；解码器将声学模型、语言模型和发音词典结合到一张加权有向图上，输出音频对应的最高分数的词（字）序列。我们可以通过语音识别自学习平台对声学模型和语言模型进行优化，它具有以下优势：

由于项目经理、业务方、合作伙伴以及用户往往会第一时间拿到需要识别支持的query，比如说定制车的信息、城市的道路信息，于是我们开发了良好的平台交互界面，即非语音相关的技术人员，只需要通过平台输入词级别、句子级别甚至篇章级别的业务文本信息，就可以自动触发模型训练、模型测试、模型发布、在线服务构建的流程，对业务专属模型进行自助优化。完成这些只需要几分钟的时间且无需重启识别服务，就可以实现大部分业务词汇的识别效果提升。
由于深度学习模型需要与业务场景符合的大量数据进行训练才能更好地提升整体效果，业务落地之后，我们就可以逐步合规地收集这些真实场景数据。对线上数据全部进行人工标注价格不菲。我们可以通过平台添加任务周期性地回流线上数据，简单说就是筛选识别结果高置信的音频/文本加入模型训练，达到模型自动更新、闭环迭代的效果。
点击查看原文>

本文链接：https://blog.jnliok.com/post/JYs5CK9TPsa98CEXGlES.html

-- EOF --

作者 infoq 发表于 2020-11-20 22:05:00 ，最后修改于 2020-11-20 16:00:17

Comments