从0.5B到340B的LLM都需要多少显存?

Поделиться
HTML-код
  • Опубликовано: 10 сен 2024
  • 本期视频介绍了LLM推理时所需显存与推理速度,以及Batch-Size,上下文长度,不同量化如何影响显存与推理速度。

Комментарии • 5

  • @techdiylife
    @techdiylife  2 месяца назад +1

    视频中资料:techdiylife.github.io/blog/topic.html?category2=t08&blogid=0058

  • @vaelephant
    @vaelephant 2 месяца назад

    清晰易懂,干货满满

  • @xueyuandu
    @xueyuandu 2 месяца назад

    这种总结最实在,最受用!辛苦了!

  • @sijian1910
    @sijian1910 12 дней назад

    看标题进来的,但实际没听到与标题直接相关的干货结论。

    • @techdiylife
      @techdiylife  11 дней назад

      实际情况比较复杂,不同的设置显存和速度差异都很大。建议去看置顶留言中的文档。显存的话可以粗略估计,8bit量化时,可以用参数量数乘以1.2估算。比如7B,显存占用8.4G