11月02, 2020

招商证券BERT压缩实践:如何大幅提高模型推断速度?

BERT,全称 Bidirectional Encoder Representation from Transformers,是一款于 2018 年发布,在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型,而且在答题方面也有超过人类的表现。

招商证券希望借助BERT提升自研NLP平台的能力,为旗下智能产品家族赋能。但是,BERT 在工程方面的表现还多少存在着一些问题,推断速度慢正是其中之一。针对这一问题,招商证券信息技术中心 NLP 开发组对 BERT 模型进行了压缩,大幅提高推断速度,从而满足上线要求。

本系列中,作者会从研发思路开始,讲述如何对原始BERT进行改造以适应特定的领域方向,同时还会展示具体的模型压缩解决方案及效果对比,和最终的线上效果。本文是系列第一篇,如果你对NLP实践感兴趣,这个系列你不容错过!

以BERT[1]为代表的基于Transformer架构的预训练语言模型,将NLP各项任务的处理能力提高到了一个新的高度。与此同时,NLP领域也开始进入了大模型时代,动辄上亿乃至成百上千亿1的参数量,大大提高了训练及部署所需的硬件成本和时间成本,尤其对于线上场景,过大的模型导致了过长的推断时间,会直接导致服务失效。

1 BERT模型拥有3.4亿参数量,3GPT3模型拥有1750亿参数量

本文链接:https://blog.jnliok.com/post/fyWR8cOmI7xtfEY3rqA3.html

-- EOF --

Comments