【GPU】GPU架构入门指南 | GPU内部工作原理 | 执行过程 | 如何运行kernel | GPU与CPU有什么不同 | CUDA | Warp

Поделиться
HTML-код
  • Опубликовано: 15 янв 2025

Комментарии • 19

  • @yifancheng9314
    @yifancheng9314 17 дней назад +1

    大飞出品 必是精品 感谢大飞!

  • @ln-du1ew
    @ln-du1ew 6 дней назад +1

    不错 讲的很生硬

  • @wanglin1943
    @wanglin1943 23 дня назад +1

    好视频,谢谢您!!!

  • @W大猫
    @W大猫 Год назад +1

    很有内涵。超水准的中文解说。

  • @yugao6766
    @yugao6766 Год назад +4

    都是干货,没有花里胡哨的东西😮

  • @xiaolong174
    @xiaolong174 Год назад +12

    GPU毕竟不是专门为AI时代设计的,CUDA在支持Tensor core上也存在软件碎片化的问题,期待DSA黄金时代,有AI原生的体系架构芯片出现。

  • @BigBigSmile
    @BigBigSmile Год назад

    期待更多gpu硬件知识

  • @JasonKuanCapillaryJ
    @JasonKuanCapillaryJ 7 месяцев назад +8

    給個建議,如果是要入門介紹,我覺得講的太深(像Warp那邊講太細)
    如果是要做深入介紹,影片可以再多加一些範例來演示(例如動畫)
    不然聽起來就像是念經一樣,不如英翻中官方文件自己看

  • @1110-d3r
    @1110-d3r 2 месяца назад

    🎉🎉🎉❤❤❤

  • @li-pingho1441
    @li-pingho1441 Год назад +1

    牛逼

  • @jenkinssmith9125
    @jenkinssmith9125 Год назад +2

    寄存器多就是为所欲为啊

  • @FusionDraw9527
    @FusionDraw9527 Год назад +3

    感謝分享 雖然都聽不懂 不過真的很專業

  • @johnw2799
    @johnw2799 Год назад +4

    我个人理解,gpu容忍高延迟类似电路的并联,cpu单线程类似串联。gpu做的事就不是cpu的。而且线性矩阵一通优化下来,那些延迟,错误啊这些,很自然地“平均”到接近无限趋近于0。这是数学性质……

    • @dodomakudo1783
      @dodomakudo1783 Год назад

      显卡是为了加速图形计算,而图形本身就是一个矩阵,因此显卡并行处理能力很强…

  • @leimiles18
    @leimiles18 Год назад +1

    请问移动平台的 GPU 也可以按照这个架构来理解吗?例如 ARM 的 shader core,它的作用更像是 cuda core ,还是 sm 呢?谢谢

    • @maxxu8818
      @maxxu8818 11 месяцев назад +1

      应该不太一样,nv gpu把GPU做到通用计算GPGPU了,移动GPU 只要应该还是渲染目的为主,pixel shading, fragment shading etct.

  • @czxjack180
    @czxjack180 7 месяцев назад

    H100的SM可以处理32个线程块、64个warp(2048个线程)。为什么又是每个线程块拥有1024个线程?

    • @wright_chen
      @wright_chen 6 месяцев назад

      这里应该是如果一个SM有32个线程块,那么每个线程块处理64个线程将用使得利用率达到100%。
      然后线程块包含1024个线程应该是后面的例子部分吧

  • @kib695690926
    @kib695690926 5 месяцев назад

    顯示卡給誰用!輸出的零件