2025-01-17

VTensor: Using V...

2025-01-17

introduction 介绍传统...

通过cmake依赖分析项目结构

拿到一个大的项目是否无从下手,不...

windows-dll-missing-debug

windows平台开发属实很麻烦,记录一个简单的dll缺失排查手段。

Debug

tmate ssh github CI

记录如何使用ssh连接到github CI来进行workflow调试

program

北京半日游攻略

好玩的线路1天安门广场 –>...

life

cross-compile-debug

记录交叉编译程序如何调试

program

Latex语法归纳

数学公式等式关系 小于等于121....

Utils

分布式计算和并行编程中常用的通信原语

1. broadcast目的:将一...

常识

Alpa论文阅读

论文链接:[https://www.usenix.org/conference/osdi22/presentation/zheng-lianmin] 内容简介Alpa通过生成统一数据、操作符和管道并行性的执行计划,自动化大型深度学习(DL)模型的模型并行训练。现有的模型并行训练系统要么要求用户手动创建并行化计划,要么从有限的模型并行配置空间中自动生成并行化计划。它们不足以在分布式计算设备上扩展复杂的深度学习模型。Alpa通过将并行性视为两个层次:操作符间并行性和操作符内并行性来分配大型DL模型的训练。在此基础上,Alpa为大规模模型并行执行计划构建了一个新的分层空间。Alpa设计了许多编译通道,以便在每个并行级别自动派生有效的并行执行计划。Alpa实现了一个高效的运行时来协调分布式计算设备上的两级并行执行。我们的评估表明,Alpa生成的并行化计划可以匹配或优于手动调整的模型并行训练系统,甚至在它们设计的模型上也是如此。与专门的系统不同,Alpa还泛化到具有异构体系结构的模型和没有手动设计计划的模型。 通过inter-op pass将计算图分割为子图,设备集群分割为device mesh,并寻找将子图分配给device mesh的最佳方式。 通过intra-op pass为inter-op pass找到每个流水线阶段的子图-device mesh的最佳并行方案 运行时编排 生成静态指令,按照顺序排列计算和通信操作,并启动设备集群上的分布式计算图推理。

Paper
12