在进行深度学习模型训练的时候,我们一般都会使用GPU来进行加速训练。当训练的样本只有百万级别的时候,单卡GPU基本就可以满足我们的需求,然而当训练样本量达到上千万,上亿级别之后,单卡训练的时间就会很长,远远无法满足我们的需求,这个时候我们通常会使用多卡进行加速。

对于很多的开发者来说,本身并不了解GPU之间的通信技术,因为我们在使用深度学习框架的时候,框架本身就会提供这样的高级接口以供使用。当然,目前使用多个GPU训练神经网络也已经成为所有深度学习框架的普遍做法。飞桨(PaddlePaddle),是百度2016年宣布开源的一款深度学习平台,同时也是国内最先开源开放、功能完备的深度学习框架。框架本身更是同时支持稠密参数和稀疏参数场景的超大规模深度学习并行训练,支持千亿规模参数、数百节点的高效并行训练,提供强大的深度学习并行技术。

NCCL(NVIDIA Collective Communications Library),是由 NVIDIA 提出的一种针对GPU性能优化的多GPU和多节点集体通信原语库。通过NCCL提供的多GPU和多节点通信,可以有效地扩展神经网络训练的规模,即使用多GPU进行并行训练。

12月23日晚7点,智东西公开课推出深度学习框架公开课 NVIDIA &百度联合专场。本次联合专场,NVIDIA 中国区HPC/DL解决方案架构师程帅和百度深度学习技术平台部资深研发工程师刘毅,将共同讲解PaddlePaddle在多GPU下的并行训练方案。
深度学习框架原理解析:PaddlePaddle的多GPU并行训练方案

开课时间 

时间:12月23日19点
地点:智东西公开课小程序 

讲师介绍 

程帅,NVIDIA 中国区HPC/DL 解决方案架构师,在HPC和DL领域有多年的架构方案经验,支持过国内多个大型HPC 数据中心以及多家大型CSP中DL集群设计。

刘毅,百度深度学习技术平台部资深研发工程师,博士毕业于中国科学院计算技术研究所,具有多年自然语言处理和大规模分布式训练的实战经验,专注负责飞桨GPU大规模分布式训练的工作研究与落地应用。 

课程内容 

主题:飞桨平台的多GPU并行训练方案解析

提纲:
1、大规模GPU集群通信的挑战
2、NCCL如何提升大规模GPU集群的数据传输效率
3、飞桨平台多GPU并行训练的基础能力
4、飞桨平台的并行训练案例解析
– 面向公有云环境的GPU并行训练
– 显存有限的大Batch训练组件
– 超大规模分类应用于人脸识别

加入主讲群

每场专场我们都将设置主讲群,并会邀请讲师入群。加入主讲群,你除了可以免费收听直播之外,还能直接和讲师认识及交流。当然,你还可以结识更多的技术大牛。想要加入主讲群的朋友可以扫描海报底部的二维码添加小助手大越(ID:xdxaxx)进行申请,备注“姓名-公司/学校/-职位/专业”的朋友可以优先审核通过哦。 

社群规则

1、智东西社群坚持实名学习、交流和合作,入群后需要修改群昵称为:姓名-公司-所在领域,违者踢群;
2、禁止在群内广告和发送二维码等无关信息,违者踢群。