Alpa论文阅读

论文链接:[https://www.usenix.org/conference/osdi22/presentation/zheng-lianmin] 内容简介Alpa通过生成统一数据、操作符和管道并行性的执行计划,自动化大型深度学习(DL)模型的模型并行训练。现有的模型并行训练系统要么要求用户手动创建并行化计划,要么从有限的模型并行配置空间中自动生成并行化计划。它们不足以在分布式计算设备上扩展复杂的深度学习模型。Alpa通过将并行性视为两个层次:操作符间并行性和操作符内并行性来分配大型DL模型的训练。在此基础上,Alpa为大规模模型并行执行计划构建了一个新的分层空间。Alpa设计了许多编译通道,以便在每个并行级别自动派生有效的并行执行计划。Alpa实现了一个高效的运行时来协调分布式计算设备上的两级并行执行。我们的评估表明,Alpa生成的并行化计划可以匹配或优于手动调整的模型并行训练系统,甚至在它们设计的模型上也是如此。与专门的系统不同,Alpa还泛化到具有异构体系结构的模型和没有手动设计计划的模型。 通过inter-op pass将计算图分割为子图,设备集群分割为device mesh,并寻找将子图分配给device mesh的最佳方式。 通过intra-op pass为inter-op pass找到每个流水线阶段的子图-device mesh的最佳并行方案 运行时编排 生成静态指令,按照顺序排列计算和通信操作,并启动设备集群上的分布式计算图推理。

Paper