11月24, 2020

性能提升最高达25倍!新型分布式机器学习训练加速方案RAT技术解读

本文将介绍一种在数据中心场景下的分布式机器学习训练加速方案,该方案主要用于加速分布式训练的参数交换过程。首先我们将科普性地描述分布式训练流程并阐述参数交换方案的定义;然后对比当前主流的参数交换方案并描述他们各自的局限性;针对这些局限性,我们提出了一种新型拓扑感知的参数交换方案,文中将对它的主要角色、算法及属性展开介绍。我们已对该新型方案进行了仿真实验验证,结果显示该方案在超额认购场景和网络故障场景下分别有25倍和5.7倍的性能提升,在这两个典型场景下具备的强弹性适应能力。

本文经原作者授权转载自转载自《中兴通讯技术》2020年第5期。

近年来,深度神经网络(DNN)被广泛应用于计算机视觉、自然语言处理等多个应用领域。

DNN训练任务可能需要数天或数周才能完成,为了缩短训练时间,分布式机器学习系统被引入DNN训练过程。因此,大量关于分布式机器学习(DML)系统加速训练的研究和方法在学术界和工业界涌现。

由于DML是计算密集型任务,之前大部分的研究主要集中在为集群计算资源设计高效的调度策略上。然而,随着图形处理器(GPU)算力的逐步提升和模型尺寸的增大,我们发现整体的训练性能瓶颈逐渐从计算部分转移至通信部分。例如,当在32GPU集群中(如VGG16的大模型)训练时,通信部分的完成时间占据训练任务总完成时间的90%[1]。当前已经出现了大量利用DML训练的鲁棒性,在参数同步机制[2]和减少网络通信量[3]等方面来减缓DML通信瓶颈的研究成果,以及利用传统数据中心网络的流调度[4-7]和协同流调度[8-10]技术来进行通信优化的研究成果。本文中,我们主要研究DML中的参数交换过程。

参数交换过程由预先设置好的参数交换方案来定义,该方案描述了每轮迭代中的参数/梯度交换方式。考虑到DNN通常需要经过成百上千次的迭代训练,因此针对参数交换方案的研究和优化可能会带来潜在巨大的性能提升。

常见的参数交换方案有参数服务器(PS)和环形全局规约(Ring)等,这些参数交换方案现均已在各主流通用深度学习框架下成功实现并部署。专业人士评测后表示,这些方案在常规网络场景中为分布式机器学习任务提供了良好的参数交换性能。然而,我们认为,PS和Ring等方案在某些存在故障或不确定性事件的网络场景下(例如超额认购网络和存在故障的网络)存在严重的性能下降。然而事实上,在大规模数据中心网络内部,存在诸多类似事件发生的可能情况,例如:节点故障、突发流量淹没交换机或网卡、网络incast现象等。当前常见方案均无法适应这类网络场景,因此,设计并实现新型参数交换方案以适应这类存在故障和不确定性事件的数据中心网络场景,具有重大的研究和应用价值。

点击查看原文>

本文链接:https://blog.jnliok.com/post/X3WSEhlXs1uL9ue1kkWO.html

-- EOF --

Comments