滴滴翻译技术探索与实践

1. 背景

机器翻译系统是使用深度学习技术从其支持的语言中翻译大量文本的服务。服务将 "源" 文本从一种语言转换为不同的 "目标" 语言。

机器翻译技术背后的概念和使用它的接口相对简单，但背后的技术是极其复杂的，并汇集了一些前沿技术，特别是深度机器学习、大数据、语言学、GPU加速计算等。

大规模商业化使用的机器翻译主要经历了SMT与NMT阶段：

机器翻译行业使用的比较早的技术是统计机器翻译 (SMT)。SMT采用统计分析方法，根据源语言的语境，利用已有的双语语料学习到的短语翻译知识，将源语言的分隔片段短语转化为对应的目标短语，最后利用语言模型估计出一个句子的最佳可能译文。SMT也是最早商用的机器翻译系统。

统计机器翻译结构

神经机器翻译是利用深度神经网络将源句子进行编码，再进行解码翻译为目标语言。2016年，Google发表GNMT[1]，改变了SMT的地位，使翻译技术发生了根本性的转变，自此进入NMT时代，并且有了现在更高的翻译质量。