GPipe论文精读【论文精读】

Поделиться
HTML-код
  • Опубликовано: 7 янв 2025

Комментарии • 5

  • @liang3163
    @liang3163 2 года назад +8

    总结一下:
    1. 本文的主要贡献是 用数据并行+模型并行 解决了 模型并行是”伪并行“(bubble非常大)的痛点。即26:40处,将数据切得越细,模型并行中的bubble就会越小。
    2. 用re-materialization降低储存中间层的内存开销,即38:11处。需要注意的是,re-materialization是数据并行中就已经使用的技术。在模型并行中使用,是使 空间开销 从 N+L*N/M 降低到 N+L/K*N/M
    3. 模型并行不好切,因为你实现不知道每一层隐藏层的计算量,这一点对cnn特别明显,对transformer则还好,即45:31

  • @SeanWangClt
    @SeanWangClt Год назад +1

    Backpropogation应该是对W求导吧?

  • @jaswujaswu
    @jaswujaswu 2 года назад

    老师,nerf也讲讲吧

  • @lokihan
    @lokihan 2 года назад

    pcie的gpu是可以没有nvlink的

  • @donkkey245
    @donkkey245 2 года назад

    title的using不该大写吗??