Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
总结一下:1. 本文的主要贡献是 用数据并行+模型并行 解决了 模型并行是”伪并行“(bubble非常大)的痛点。即26:40处,将数据切得越细,模型并行中的bubble就会越小。2. 用re-materialization降低储存中间层的内存开销,即38:11处。需要注意的是,re-materialization是数据并行中就已经使用的技术。在模型并行中使用,是使 空间开销 从 N+L*N/M 降低到 N+L/K*N/M3. 模型并行不好切,因为你实现不知道每一层隐藏层的计算量,这一点对cnn特别明显,对transformer则还好,即45:31处
Backpropogation应该是对W求导吧?
老师,nerf也讲讲吧
pcie的gpu是可以没有nvlink的
title的using不该大写吗??
总结一下:
1. 本文的主要贡献是 用数据并行+模型并行 解决了 模型并行是”伪并行“(bubble非常大)的痛点。即26:40处,将数据切得越细,模型并行中的bubble就会越小。
2. 用re-materialization降低储存中间层的内存开销,即38:11处。需要注意的是,re-materialization是数据并行中就已经使用的技术。在模型并行中使用,是使 空间开销 从 N+L*N/M 降低到 N+L/K*N/M
3. 模型并行不好切,因为你实现不知道每一层隐藏层的计算量,这一点对cnn特别明显,对transformer则还好,即45:31处
Backpropogation应该是对W求导吧?
老师,nerf也讲讲吧
pcie的gpu是可以没有nvlink的
title的using不该大写吗??