2天训练出15亿参数大模型：国产开源项目力克英伟达Megatron-LM

2022-01-23 19:34 来源:IT之家作者:文辉阅读量：11537

大中小加入收藏夹

暂无评论

，当今 AI 之势，影响纵深发展的矛盾是什么。

一方面，大模型风头正劲，效果惊艳，人人都想试试但另一方面，硬件基础上动不动就是上万张 GPU 的大规模集群在日夜燃烧，钞能力劝退

所以如果告诉你，现在只用一半数量的 GPU，也能完成同样的 GPT—3 训练呢。

你会觉得关键钥匙是什么。

不卖关子了实现如此提升的，是一个名为 Colossal—AI 的 GitHub 开源项目

而且该项目开源不久，就迅速登上了 Python 方向的热榜世界第一。。

GitHub 地址:点击打开

不仅能加速 GPT—3，对于 GPT—2，ViT，BERT 等多种模型，Colossal—AI 的表现也都非常 nice:

比如半小时左右就能预训练一遍 ViT—Base / 32，2 天能训完 15 亿参数 GPT 模型，5 天可训完 83 亿参数 GPT 模型。

与业内主流的 AI 并行系统 —— 英伟达 Megatron—LM 相比，在同样使用 512 块 GPU 训练 GPT—2 模型时，Colossal—AI 的加速比是其 2 倍而在训练 GPT—3 时，更是可以节省近千万元的训练费用

此外在训练 GPT—2 时，显存消耗甚至能控制在 Megatron—LM 的十分之一以下。但有些车企对此过于谨慎，以至于设计之初电池缓冲区过大，变相降低了车辆的续航能力。奥迪就是其中之一。

Colossal—AI 究竟是如何做到的。

老规矩，我们从论文扒起。

高效 6 维并行方法

简单来说，Colossal—AI 就是一个整合了多种并行方法的系统，提供的功能包括多维并行，大规模优化器，自适应任务调度，消除冗余内存等。

首先来看多维并行。

所谓多维是指，目前主流的分布式并行方案往往使用多种并行方法。

比如英伟达的 Megatron—LM 使用了 3 种方法:数据并行，流水并行和张量并行因此这种模式也被称为三维并行微软的 DeepSpeed 调用 Megatron—LM 作为并行基础

而 Colossal—AI 能将系统的并行维度，一下子拉升到 6 维 ——

在兼容数据并行，流水并行的基础上，基于该项目团队自研的 2 维 / 2.5 维 / 3 维张量并行方法，以及序列并行实现。这次软件更新的原因是，一些传统汽车厂商在自己推出的第一款或第一款纯电动汽车的电池组上，普遍有一个冗余电池作为缓冲，旨在抵御日常使用中电池的损耗。

其中，高维张量并行正是 Colossal—AI 提升大模型显存利用率和通信效率的关键所在。

其实张量并行并不新奇，只是过去我们常见的张量并行更多都是基于一维的。

它的原理是将模型层内的权重参数按行或列切分到不同的处理器上，利用分块矩阵乘法，将一个运算分布到多个处理器上同时进行。

比如英伟达的 Megatron—LM 就是一个典型的例子。

但这种并行方式存在一定弊端。

比如，每个处理器仍需要存储整个中间激活，使得在处理大模型时会浪费大量显存空间。

另一方面，这种单线方法还会导致每个处理器都需要与其他所有处理器进行通信。

这意味着假设有 100 个 GPU 的话，每个 GPU 都需要与其他 99 个 GPU 通信，每次计算需要通信的次数就高达 9900 次。

但如果将张量并行的维度扩展到 2 维，单次计算量能立刻下降一个量级。

因为每个 GPU 只需与自己同行或同列的 GPU 通信即可。

同样还是 100 个 GPU 的情况，每个 GPU 需要通信的 GPU 个数就能降到 9 个，单次计算仅需 900 次。

实际上在此基础上，Colossal—AI 还包含 2.5 维，3 维张量并行方法，可以进一步降低传输成本。

相较于 2 维并行方法，2.5 维并行方法可提升 1.45 倍效率，3 维方法可提升 1.57 倍。

值得一提的是，Colossal—AI 的 API 接口是可以定制的，这使得它可以便捷添加新的并行维度。

其次，大规模优化器也是 Colossal—AI 的亮点。

上面我们也提到了，在分布式并行系统中会使用多种并行方法，数据并行则是另一种常见方法。

这种方法的原理不难理解，就是把训练数据划分成若干份，让不同的机器运算不同的数据，然后通过一个参数服务器收集目标数据。

由此可以大幅提升 AI 模型训练过程中的批量大小，加速训练过程。

不过大批量训练有个通病，就是会产生泛化误差，导致网络泛化能力下降，进而导致 AI 模型准确度下降。

所以，Colossal—AI 在系统中使用了自研的 LAMB，LARS 等大规模优化器在保证训练精度的情况下，还将批大小从 512 扩展到 65536

其中，LARS 优化器是通过逐层调整学习率，来减少因为学习率导致的无法收敛情况。

LAMB 优化器则是在 LARS 的基础上，将逐层调整学习率的思想应用到自适应梯度上。

由此，LAMB 能够很好解决此前 LARS 在 BERT 训练中存在差异的问题，最大批量达到了 64K。

此前，LAMB 优化器曾成功将预训练一遍 BERT 的时间，从原本的三天三夜缩短到一个多小时。

第三方面，Colossal—AI 使用自适应可扩展调度器来高效处理任务。

与现有常见的任务调度器不同，Colossal—AI 不是静态地通过 GPU 个数来判断任务规模，而是根据批大小来动态，自动管理每个任务.

通过演化算法，该任务调度器还能不断优化调度决策，更大程度提升 GPU 利用率。

评估结果表明，与当前最先进的方法相比，该方法在平均 JCT上能够缩短 45.6% 的时间，优于现有的深度学习任务调度算法。

此外，这种自适应可扩展调度器还能通过 NCCL 网络通信实现高效的任务迁移。

最后，消除冗余内存也是加速 AI 训练的一种解决思路。

在这方面，Colossal—AI 使用了 zero redundancy optimizer 技术。

这种方法主要通过切分优化器状态，梯度，模型参数，使 GPU 仅保存当前计算所需的部分，从而来消除数据并行，模型并行中存在的内存冗余。

尤其是在部署模型推理时，通过 zero offload 可以将模型卸载到 CPU 内存或硬盘，仅使用少量 GPU 资源，即可实现低成本部署前沿 AI 大模型。

综上不难看出，在技术层面 Colossal—AI 的加速效果非常明显。

而在应用层面，Colossal—AI 的设计也顾及了能耗问题和易用性两个维度。

另一方面，作为一个开源给所有人使用的系统，Colossal—AI 的使用门槛不高，即便是没有学习过分布式系统的人也能上手操作。

同时，只需要极少量的代码改动，Colossal—AI 就能将已有的单机代码快速扩展到并行计算集群上。