Curiooooooooo

Alpa论文阅读

论文链接：[https://www.usenix.org/conference/osdi22/presentation/zheng-lianmin] 内容简介Alpa通过生成统一数据、操作符和管道并行性的执行计划，自动化大型深度学习(DL)模型的模型并行训练。现有的模型并行训练系统要么要求用户手动创建并行化计划，要么从有限的模型并行配置空间中自动生成并行化计划。它们不足以在分布式计算设备上扩展复杂的深度学习模型。Alpa通过将并行性视为两个层次:操作符间并行性和操作符内并行性来分配大型DL模型的训练。在此基础上，Alpa为大规模模型并行执行计划构建了一个新的分层空间。Alpa设计了许多编译通道，以便在每个并行级别自动派生有效的并行执行计划。Alpa实现了一个高效的运行时来协调分布式计算设备上的两级并行执行。我们的评估表明，Alpa生成的并行化计划可以匹配或优于手动调整的模型并行训练系统，甚至在它们设计的模型上也是如此。与专门的系统不同，Alpa还泛化到具有异构体系结构的模型和没有手动设计计划的模型。通过inter-op pass将计算图分割为子图，设备集群分割为device mesh，并寻找将子图分配给device mesh的最佳方式。通过intra-op pass为inter-op pass找到每个流水线阶段的子图-device mesh的最佳并行方案运行时编排生成静态指令，按照顺序排列计算和通信操作，并启动设备集群上的分布式计算图推理。

2024-04-18