招商证券BERT压缩实践：如何大幅提高模型推断速度？

BERT，全称 Bidirectional Encoder Representation from Transformers，是一款于 2018 年发布，在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型，而且在答题方面也有超过人类的表现。

招商证券希望借助BERT提升自研NLP平台的能力，为旗下智能产品家族赋能。但是，BERT 在工程方面的表现还多少存在着一些问题，推断速度慢正是其中之一。针对这一问题，招商证券信息技术中心 NLP 开发组对 BERT 模型进行了压缩，大幅提高推断速度，从而满足上线要求。

本系列中，作者会从研发思路开始，讲述如何对原始BERT进行改造以适应特定的领域方向，同时还会展示具体的模型压缩解决方案及效果对比，和最终的线上效果。本文是系列第一篇，如果你对NLP实践感兴趣，这个系列你不容错过！

以BERT^[1]为代表的基于Transformer架构的预训练语言模型，将NLP各项任务的处理能力提高到了一个新的高度。与此同时，NLP领域也开始进入了大模型时代，动辄上亿乃至成百上千亿¹的参数量，大大提高了训练及部署所需的硬件成本和时间成本，尤其对于线上场景，过大的模型导致了过长的推断时间，会直接导致服务失效。

¹ BERT模型拥有3.4亿参数量，3GPT3模型拥有1750亿参数量
点击查看原文>

天明技术分享

招商证券BERT压缩实践：如何大幅提高模型推断速度？

Comments