AMD MI300與AI到底有沒有搞頭?

Поделиться
HTML-код
  • Опубликовано: 1 окт 2024
  • НаукаНаука

Комментарии • 279

  • @Tech4AllYall
    @Tech4AllYall  Год назад +36

    果然太久沒上片,說好要加章節結果完全忘記😅
    00:00 開場白
    02:42 AI training和inferencing
    05:21 生成式AI的硬體需求與挑戰
    09:00 MI300 vs H100
    11:08 Nvidia DGX的通訊技術以及 Network Topology簡介
    15:00 MI300的缺點
    15:42 MI300失敗了嗎?
    18:09 主委加碼淺談Nvidia L40
    18:53 系統設計才是王道

    • @Tech4AllYall
      @Tech4AllYall  Год назад +1

      另外補充幾點:
      09:14表格裡的數字單位是TFLOPs,MI300A的數據是由AMD提供,但是官網上並沒有註明2,507 TFLOPs是在多少的使用率(GPU utilization)之下得出來的數字;H100 SXM5的數字則是取自於Nvidia官方資料
      如果對於Network Topology有興趣的人可以去Dr. Ian Cutress的影片,裡面講的更詳細 (ruclips.net/video/8teWvMXK99I/видео.html)
      如果是對Google TPUv4有興趣的人,可以看看他們官方發表的文章,裡面有提到他們客製的OCS通訊設備,用的不是ring bus/mesh/crossbar,而是一個3D甜甜圈(對,你沒看錯就是甜甜圈,正式名稱叫做3D twisted torus)的topology

    • @楊慎恩
      @楊慎恩 Год назад

      華爾街的笨蛋:好的,搬一台超級電腦來狙擊他的資產~~

    • @AlertImDK
      @AlertImDK 11 месяцев назад

      AMD MI300的特色之一就是整合CPU與GPU,可以大幅減少CPU與GPU通訊上的限制,減少硬體資源的浪費,榨乾GPU的性能,雖然MI300沒考慮串聯多個伺服器,但十分有利於中小企業,這正是nVidia比較疏於照顧的市場

    • @AlertImDK
      @AlertImDK 3 месяца назад

      當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已

    • @Lovefact331
      @Lovefact331 7 дней назад

      世界上最強大的超速用的就是amd方案和mi250x。

  • @JarryLu
    @JarryLu Год назад +108

    原本還以為這頻道沒有要繼續經營下去了🥲

    • @Tech4AllYall
      @Tech4AllYall  Год назад +41

      別高興得太早喔😇

    • @bailianqi2698
      @bailianqi2698 Год назад +3

      @@Tech4AllYall 你的意思是還有大的在後邊?

    • @windholygainsborough3653
      @windholygainsborough3653 Год назад +1

      我也是這麼以為的,局座去忙工作放棄YT了,沒想到忽然跳出這個推薦影片!!!!!!!

    • @jaycez3971
      @jaycez3971 Год назад

      Hahaha

    • @Tech4AllYall
      @Tech4AllYall  Год назад +62

      哈哈 我自己也說不準,不想給大家錯誤的期待好像接下來就會穩定上片,我只能答應大家每次出片都會有一定的品質

  • @阿綸的全勳學院
    @阿綸的全勳學院 Год назад +18

    講的相當好啊
    感謝 讓我了解到很多之前不知道的東西
    ps:我很喜歡你的節目呢 不管講解還有語氣表情的表達都很不錯
    讓我很喜歡繼續看你的影片

  • @kevinlantw
    @kevinlantw Год назад +7

    其實有點可惜沒有講到關於應用上MI300有多大的門檻要跨這件事。
    看新聞,就知道所有在做AI的大公司都瘋狂的在搶NVIDIA的AI運算硬體,我都開玩笑說NVIDIA的產量限制了整個人類的進步XD 那為麼有更好的硬體不去用,還要跟人去搶NVIDIA的產品? 有原因的嘛~
    真的光是硬體設計夠優秀是沒有用的,沒辦法把軟體開發環境等整個生態系建立起來,搞得大家用起來門檻很高很麻煩,沒辦法“It just works",那就是失敗。大部份會去做AI Training的人剛開始入門的時候用就是學的某個框架,之後要大量使用的時候,也都會直覺得待在這個生態系。因為我只是要training model,專注的是思考新的訓練的方法,參數怎麼調等等,不太想花時間在轉換生態系這件事上面。舉個例子,大家用Windows,是生態系的關係,不是因為Windows有多好。Linux即使再好,再安全,再開放而且都能客製化還免費,這跟「一般使用者」沒有什麼關係,他們還是不想花時間在轉換生態系這件事上。再舉個例子,寫程式不就是有個基本的文字編輯器(notepad或vi)跟terminal就好了嗎?幹嘛要用IDE還被綁住?
    如果今天是學術機構(不像企業有那麼強的時間跟競爭壓力),或有天才型工程師,能不受框架限制把所有硬體都運用自如,那很好啊?!就可以去用MI300或其它的硬體,沒必要被NVIDIA綁架。不過很可惜的是,真正需要大量AI硬體的大企業,他們有時間跟競爭的壓力,他們就是那個會被生態系綁架的那個「一般使用者」。

  • @petercandylee
    @petercandylee 9 месяцев назад +3

    如果深入研究 AMD 目前的产品、MI300、其路线图和人工智能领域,人们会意识到它将成为一个重要的参与者。 十年前,英特尔在数据中心 CPU 领域的主导地位比 NVDA 在 GPU 领域的主导地位更强,前者为 100%,后者为 85%。 AMD一度濒临破产。 英特尔希望AMD能够生存下来,并借钱给AMD,这样就可以避免美国政府的垄断诉讼。 如今,AMD 正在像廉价的周日自助餐一样吃英特尔的午餐。
    硬件、软件和网络是人工智能基础设施的三个主要构建模块。
    1. 硬件
    MI300 (AMD) 比 AH100 (NVDA) 更先进:更多内存、带宽和 TOPS(每秒万亿次操作)。 使用 16 位数学进行的 AMD 和 NVDA 基准比较测试显示了这一优势。 NVDA 通过使用 8 位数学运行相同的测试来谴责它,并显示出更好的结果。 AMD 反驳,NVDA 没有回应。 AMD 小芯片设计和 3D 内存封装比 NVDA 具有固有的硬件优势。 另一个重要事实是MI300使用了台积电5/6纳米节点,而AH100则使用了台积电4纳米节点。 AMD可以通过切换到台积电4nm节点来快速超越NVDA。
    2、软件
    毫无疑问,NVDA 在软件方面遥遥领先。 AMD通过收购Xilinx招募了大量软件人才。 AMD 开源方法得到了软件开发商的热烈支持--Microsoft、Meta、AWS、Oracle、PyTorch、Hugging Face……。 随着开源人工智能软件的成熟,NVDA 的市场份额将大幅输给 AMD。
    3. 网络
    以太网是数据中心网络的标准,但如果AI集群规模庞大,它的速度会比NVDA的NVLink慢。 网络之王正在开发高速版本的以太网来挑战 NVLink。 当它到来时,NVDA Networks的优势也将消失。

  • @gigabytechanz9646
    @gigabytechanz9646 Год назад +12

    MI300 的目標客戶是中小企業,一般祗用1-4張 GPU 做 fine-tune, 最緊要 VRAM 多! 這卡正好合乎要求!

    • @farosislee83
      @farosislee83 8 месяцев назад

      这么个啥波一回复居然还有这么多赞?所以微软是小企业哦,甲骨文脸书是小企业哦,连amd为啥没急着做switch都没搞明白就在这儿瞎勾巴扯,mi300首先是要抢inference市场,而不是training

  • @MrDoraHo
    @MrDoraHo Год назад +18

    MI300 開發的時候就多是為了科學運算吧
    主要科學運算的特性跟AI training 有點不同
    科學運算主要都是做numerical simulation, 都是用Float64居多
    而且現在的numerical code 主要都是memory bound, 所以不是用的不是CPU上DDR八通道就是GPU上HBM
    如果你把MI300跟上面兩點相比一下, 就發現prefect match了

  • @sianghuang7277
    @sianghuang7277 Год назад +12

    終於等到啦!架構型YT唯一支持

  • @吳宇紘-p9t
    @吳宇紘-p9t Год назад +5

    啊啊啊 爺爺公賣局更新啦
    希望大大您好好準備 頻率不用高沒事的 但希望每次更新都很有品質🙏

  • @chiishenq
    @chiishenq Год назад +21

    局座回歸,期待中~ 我最近也在研究MI300,特別是MI300A型採用UMA , 看到有國外用 APPLE M2 ULTRA 192GB 跑AI訓練模型 C/P值超高,或許AMD 可以開發類似產品 不走HBM 改走 DDR5拚記憶體容量

    • @yaus0527
      @yaus0527 Год назад +5

      😂M2 soc2soc沒有比較強 對小模型M2 cp高 MI300在大模型比較好

    • @Tech4AllYall
      @Tech4AllYall  Год назад +9

      接下來模型只會越來越大、參數越來越多,我們還是不要對單一一個處理器有太大期望😅

    • @Johnathan-_-
      @Johnathan-_- Год назад +8

      確實 我用m1 16g記憶體就可以跑1920*1080的stable diffution,統一架構記憶體在ai領域以個人研究 個人應用確實很有優勢

  • @Cdictator
    @Cdictator Год назад +6

    第一次听你的节目,感觉做的很好,条理清晰,浅显易懂。赞一个👍!

  • @artnotes
    @artnotes Год назад +2

    好久没看到这人了,嘿嘿,大佬又出来了。
    不过AI训练一般用Float32, 或者NV自己的TensorFloat32(简化精度,保留动态)。推理用INT8比较多。不过LLM这些主要依靠的Attention还是需要用浮点数否说损失比较大(虽然也研究用简化的INT8)。用INT8-INT4 有2个好处 一个是计算速度变快对于便携系统来说主要是这个好处。但是对于LLM来说是另外一个好处。就是 内存访问量变小了。LLM推理速度一般是哪内存速度限制了,因为权重太多每次推理相当于要把内存都扫描一遍。
    不过说到训练其实也有2种模式。一个是小模型通常采用 内存换速度。也就是在Forward的时候记录所有的数据,在BackProp的时候直接录用FW的数据计算Gradient。不过随着模型变大,要Cache就不太可行了,那么就只能记录部分数据,剩下的重新计算。 到了最后 只能用速度换内存。也就是不记录任何数据,吧整个结构设计成可逆的。算到FW终点之后,BP的时候完全再反过来随便一遍。这也是LLM常用的模型。所以LLM 非常吃频宽和计算速度。而一般的小模型带上所有的Cache可能也就10G左右。

  • @陳輝龍-l2e
    @陳輝龍-l2e Год назад +4

    目前超級電腦的CPU連結還是和以前的大型電腦的方式一樣,只是設備更快而已,有機會介紹超級電腦的CPU連結方式嗎?
    英國的IMS T800是用4面都有一個BUS和其他CPU連結的通訊方式,兩點間的中間CPU是By Pass ,當初看雜誌是這麼介紹,不知有無記錯。

    • @Tech4AllYall
      @Tech4AllYall  Год назад +5

      這個還真的要去做點功課,但我的直覺是,這些超級電腦很多設計是不對外揭露的,我們能找到的資料可能不多或是很舊,我可以試著去找找看啦,也蠻有趣的

    • @陳輝龍-l2e
      @陳輝龍-l2e Год назад

      謝謝@@Tech4AllYall

  • @watergod420
    @watergod420 Год назад +2

    挖賽,這支影片讓我茅塞頓開。不然我就是發佈會台下的那些華爾街笨蛋XD

  • @歸虛
    @歸虛 Год назад +2

    TPU、DPU、NPU、GPGPU真累,搞得人都有點糊裡糊塗的,
    硬體架構跟演算法的配合。AI整合之路還有得走。
    還有AI專精之路也還有得走。(專業AI處理器)

  • @petercandylee
    @petercandylee Год назад +2

    From Tom’s Hardware
    The MI300 3D design allows for incredible data throughput between the CPU, GPU and memory dies while also allowing the CPU and GPU to work on the same data in memory simultaneously (zero-copy), which saves power, boosts performance, and simplifies programming.

  • @AlertImDK
    @AlertImDK 3 месяца назад

    當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已

  • @小兵-j1r
    @小兵-j1r Год назад +1

    MI300 問題除了串接成一個巨大算力之外 他的軟體生態發展晚
    本質上是沒辦法跟NVIDIA比較的
    現在所有訓練推理模型預設都是跑TensorFlow以及PYTORCH
    在CPU市場也是一樣
    過去AMD的cpu 只有支援雙路 即使他的threads 已經非常非常的龐大
    但是intel早已經支援八路
    多路系統最主要差異在於 串接後記憶體的容量整個上來
    在傳輸上面 目前並沒有一個比較快的跨晶片傳輸
    即使是nvlink記憶體延遲仍然十分龐大
    主要在於要共享資料的時候 必須要穿透彼此晶片的cache或者記憶體
    穿透出去就是慢
    現在晶片的die與功耗越來越大
    也許以後單個wafer生產製作成一個晶片的會越來越流行
    另外就是更大晶圓的生產.

  • @limitli1117
    @limitli1117 10 месяцев назад +1

    一直期待您的分享和看法!!英特尔最新 HPC 和 AI 计划的大量更新,包括有关第五代 Emerald Rapids 和未来 Granite Rapids Xeon CPU、Guadi 3加速器、对标Nvidia H100 GPU 的新Max 系列 GPU 基准测试的新信息

    • @Tech4AllYall
      @Tech4AllYall  10 месяцев назад +1

      Intel純論產品而言的確是非常有趣,但再好的產品如果不能在適當的時機上市,那就難免陷入生不逢時的問題,就像Ice Lake Xeon還有Sapphire Rapids遇到的瓶頸一樣,產品不錯,但原先預想的對手產品早就已經在市場上流通已久,等到上市的時候已經太遲

  • @Steve-tn9ep
    @Steve-tn9ep Год назад +4

    A great AI101 session. 👍

  • @handswasher
    @handswasher Год назад +1

    16:59 「説真的,就連 nVidia 在設計 Hopper 的時候,也沒預料到生成式 AI 的崛起,不然他絕對不會只給他 80GB 的記憶體」。
    生活就是這麽 種豆得瓜 是吧。

  • @unclesam8565
    @unclesam8565 Год назад +2

    博主分析的关于inference 的有误 MI300x 的推理能力很强 主要是每个gpu 有192G vram 大概 每个nose 放4个 mi300x 利用infinity fabric 连接 可以接近有800G 容量 可以舒舒服服跑GPT3类似的模型。mi300 在LLM inference 上性价比完爆H100 并且MI300x 的产能有优势。

    • @Tech4AllYall
      @Tech4AllYall  Год назад +3

      數據,尤其是inference都是兩家公司官方的資料,而且這還沒考慮到實際的FLOP utilization。退一萬步來說,真的那麼棒那怎麼大家都去買H100呢😊

    • @petercandylee
      @petercandylee Год назад +8

      There are a couple of reasons why MI300 is not selling
      1. It is not ready - it won't be ready until next year 2024.
      2. The older versions (MI250, MI100) are not selling well because the supporting software is not mature. But this will change because large software houses Microsoft, Pytorch, and Hugging Face are helping AMD to optimize its software. Large tech companies want to have a second source.

  • @DSDSDS1235
    @DSDSDS1235 4 месяца назад

    看完mi300的規格 已經不是有沒有搞頭而是有沒有關係的問題了 一張雙精卡隨便加兩個低精度格式進去就當ai卡賣 😅

  • @clancychou5411
    @clancychou5411 Год назад +2

    Nvlink 也是側面說明了通用打不過專用的場景,早期 VMware 也是希望用 x86 cpu 和虛擬化來實現 SDN,結果就是被打得滿地找牙,就算後來他們把更多功能整合到 ESXi 的 kernel,笑能還是慘不忍睹,幾乎把整個跟他綁定的 Tanzu 陪葬掉,搞的 VMware 在 k8s 方面實在沒啥亮眼的表現,最後還是只能老老實實的用 DPU,整個 vSphere7 就虎頭蛇尾的停留在 7.0 這個版本。

    • @Tech4AllYall
      @Tech4AllYall  Год назад +2

      NV厲害的點在於,他們不像某些AI新創,他做的還是GPGPU,不會過度針對某個paradigm來設計硬體架構

  • @張硯棠
    @張硯棠 Год назад +1

    非常感謝解說如此清楚😀
    最近IBM New Analogue Chip看來是很前瞻的設計,是否能講解一下😂
    存算合一使是否才是打破馮諾依曼瓶頸?

  • @pxl8827
    @pxl8827 18 дней назад

    邏輯思考非常縝密,期待下一次高品質的觀點分享

  • @LightnessRevant
    @LightnessRevant Год назад +1

    極端的例外:
    Crisis初代就是直接用未上市的G80晶片做開發平台

  • @diss56789
    @diss56789 9 месяцев назад +1

    推推 優質頻道
    另外可否講一下ROCm 6呢?
    AMD是否有持續改善在軟體開發環境上的劣勢呢?

    • @Tech4AllYall
      @Tech4AllYall  9 месяцев назад

      有,這個部分可以參考MosaicAI在六月發佈的消息,他們其實已經使用MI250X一陣子了,簡單來說我自己對ROCm還蠻有信心的,我更擔心的可能是硬體方面,Nvidia未來每年都會推出新的GPU/AI accelerator,AMD不能只透過堆料的作法來跟別人競爭,況且Nvidia光是這幾個月就推出了不少針對AI軟體而做出的更新,老黃不會傻傻的沒有動作讓對方追上

    • @diss56789
      @diss56789 9 месяцев назад

      @@Tech4AllYall 了解 感謝回覆~

  • @DavidLonelyHK
    @DavidLonelyHK Год назад +3

    回來了真好, 很喜歡你的分析 👍

  • @陳寶-w3f
    @陳寶-w3f 3 месяца назад +1

    天啊 我今天才注意到你的新影片

  • @tp27273529
    @tp27273529 Год назад +2

    !!!!想說ig跟yt都沒有更新是不是不做了竟然又有影片了!!!

    • @Tech4AllYall
      @Tech4AllYall  Год назад +2

      說真的,我即使是之前還有固定在更新影片的時候也都懶得更新ig哈哈哈😆

  • @samuelyeung03
    @samuelyeung03 Год назад +2

    我有個突發奇想
    既然nv link頻寬那麼大
    有沒有可能透過nv switch 增加下級記憶體
    為不影響性能的情況,大部變數還是儲存在gpu內部,常數全部放在下級記憶體,這樣的話對常數的讀取還會加快。
    而且可以更改軟體,training的時候隨機鎖定部份變數然後儲存到nv switch上的ddr6
    省下內的空間可以放下大一點點的模型
    雖然應該不會加大很多
    但再配合大量ddr5應該或許有效
    當然啦,可行性未知,也會消耗大量電源

    • @yaus0527
      @yaus0527 Год назад +2

      在GH100架構上 NV就是把所有 memory 弄成一個池 Data access可以機過機

    • @samuelyeung03
      @samuelyeung03 Год назад

      @@yaus0527 我的意思是在nv switch上再外掛記憶體

    • @yaus0527
      @yaus0527 Год назад

      @@samuelyeung03 沒有好處 本身NVLINK 已經是 IO需求極工的晶片 還加上Memory 面積會加得很多

  • @暗黑的破壞神
    @暗黑的破壞神 Год назад +3

    感謝講解 , 滿滿的真材實料 !

  • @rw227
    @rw227 Год назад +3

    邊看邊落淚...終於回來了

  • @sjcabbw
    @sjcabbw 8 месяцев назад

    SOC, system on chip, 系統一直在被集成一個單一晶片.
    所以根本無所謂 系統重要或晶片重要 , 因為今天的系統可能就是明天的晶片.

  • @utterchen
    @utterchen Год назад +1

    你想起帳號密碼了

  • @legiongun7678
    @legiongun7678 Год назад +1

    內容十分充實,解開了一些不瞭解的地方,感謝。

  • @pincheng9639
    @pincheng9639 Год назад +2

    等了一年......

  • @jawohlbxb3534
    @jawohlbxb3534 7 месяцев назад

    Im the one english comment no idea why youtube recommended this to me but here i am

  • @洪維屏
    @洪維屏 Год назад +1

    謝謝您分享您的經歷與見聞,採用深入淺出的舉例,讓我瞭解AI產業相關的聯結,系統整合的重要。

  • @yongweihong99
    @yongweihong99 Год назад +1

    1:10 才發現你快消失了一年

  • @rogerwang1474
    @rogerwang1474 Год назад +2

    某人破解了忘記的密碼

  • @EmpressHsiao
    @EmpressHsiao Год назад +3

    等很久了!!! 快點!!!

  • @substarX
    @substarX Год назад +1

    不是...也太久沒更新了,想說會不會是忘了密碼。

  • @petercandylee
    @petercandylee 9 месяцев назад

    美超微表示,MI300X加速器支持高达192GB的HBM3内存,提供大规模语言模型推理和生成式AI工作负载所需的计算能力和内存效率。 借助MI300X的大容量内存,客户可以处理Falcon-40B等大型语言模型,仅使用一台MI300X GPU加速器即可处理400亿参数的模型。

  • @DDP426Team
    @DDP426Team 9 месяцев назад

    MI300主要是能夠讓AI具有人類功能的思考,如果將MI300搭載到機器人上面的話,能夠讓機器人具有情感的思考。 很期待接下來台灣航太中心將火箭送上火星時,機器人是搭載MI300

  • @追憶似水年華-w4m
    @追憶似水年華-w4m Год назад

    好久都沒更新 等你等好久 以為你被擠牙膏公司網羅上班去了 沒打算再經營此頻道
    原本已取消訂閱 想不到神奇的演算法又讓我看到....重新訂閱囉!!

  • @MurphyChu
    @MurphyChu Год назад +2

    哇! 失蹤人口回歸

  • @w02190219
    @w02190219 Год назад +1

    很棒ㄟ
    很喜歡這樣的影片說明方式!
    很有學習的感覺

  • @左鹏-j6i
    @左鹏-j6i 6 месяцев назад +1

    听到过最娓娓道来,系统性能听懂的视频,赞👍

  • @judahxiiiyoung7320
    @judahxiiiyoung7320 Год назад +1

    我靠,你終於回來了!你不要走啊!
    #好了評論完了可以開始看影片了

  • @markchen6549
    @markchen6549 9 дней назад

    如果是年更的話,差不多是時候了😂😂😂

  • @sutlliao
    @sutlliao Год назад +1

    AMD CPU的IOD,應該就是crossbar。

  • @ekopambudislamet7850
    @ekopambudislamet7850 11 месяцев назад

    Damnit, i dont understand anything...

  • @h.y-chen
    @h.y-chen Год назад

    midjourney 大概就是自有版權model的 stable diffusion 自己機器怎麼會跑不了? 4090跑一張基本設定的SD也不過3秒 另外NVIDIA除了硬體外更大的優勢我認為是在花了20年投資出來的軟體生態

  • @johnnytshi
    @johnnytshi 5 месяцев назад

    Actually, in LLM, higher memory is way more important. If you have to sync intermediate values, it's a lot slower. So if the chip can hold the entire model, that would be the fastest, with data sharding only.

  • @华人在美国-q5b
    @华人在美国-q5b 7 месяцев назад

    多谢您的视频,让我醍醐灌顶,茅塞顿开。在NVDA上赚了差不多两万美金,而且会赚更多。已经subscribed。

  • @chainqueueing5474
    @chainqueueing5474 Год назад

    nv switch 不是 crossbar, AMD 所搭配的網路你真的了解嗎?...,很多地方都講錯,跟本不了解這些設計的差異... 唉, 其實也不用太苛責你...給個建議,去讀讀十年內,NV, AMD, 及相關的論文。或是視頻內容減少你自己的臆測,推論,以減少給觀眾錯誤的訊息.

    • @Tech4AllYall
      @Tech4AllYall  Год назад

      就我找到的資料來看,不論是anandtech, serve the home, 還是Nvidia自己的hot chips presentation都是用xbar來描述nvswitch(譬如這個:old.hotchips.org/hc30/2conf/2.01_Nvidia_NVswitch_HotChips2018_DGX2NVS_Final.pdf) 想問一下你認為正確的topology名稱應該是什麼?我也不想給大家錯誤的資訊,所以如果能更正當然是最好
      至於AMD的連接方式其實現在官方也還沒有正式公布,官方的示意圖看來是全部直接連接,而網路上面的小道消息是說他們chiplet-to-chiplet的頻寬不一致,當然這個還有待原廠白皮書來證明

  • @stilingiceland1403
    @stilingiceland1403 Год назад

    Cuda的软件生态太强了,mi300硬件强而rocm弱,最后还是没机会,无法实现平行替代。况且美国的禁运,实际老黄是睁一只眼,闭一只眼在执行,所以你懂的…

  • @ryankofish
    @ryankofish Год назад +1

    講的太精彩了,真正的戰場是 PUE

  • @VGNYuanYuan
    @VGNYuanYuan Год назад +1

    之前有聽過用M2 Ultra來做成離線使用的AI(LLaMA),因為他的統一記憶體剛好符合AI需要的大型記憶體

    • @Tech4AllYall
      @Tech4AllYall  Год назад +6

      但問題在於這些離線AI模型品質和速度其實跟不上現行商業等級的,而且也不會有人為了可以離線使用AI砸大錢買一台192 GB的M2 Ultra Mac Studio,畢竟現在只要能上網就能免費用ChatGPT等等的免費AI

    • @小兵-j1r
      @小兵-j1r Год назад

      HBM跟UMA完全不是一個等級
      唯一的好處只有記憶體大
      但頻寬只有人家的 1/3 ~ 1/5
      加上處理單元數量差太多 整個加成效應會很大
      NVIDIA 先前之所以想買ARM
      說穿了也是看中這一點
      GPU目前也是需要高性能的CPU相輔相成
      可惜沒成功~~~

  • @petercandylee
    @petercandylee Год назад

    NVLink is a connection between the CPUs and GPUs , so between sockets. The Infinity Fabric is many things more as it's build within the CPU/GPU, provides a link between dies and across sockets. Infinity Fabric isn't a kind of hypertransport but a superset of it.
    NVLink 是 CPU 和 GPU之间的连接,也是插槽之间的连接。 Infinity Fabric (AMD) 具有更多功能,因为它构建在 CPU/GPU 内,提供芯片之间和跨插槽的链接。 Infinity Fabric 不是一种超传输,而是它的超集

  • @saitoTK124
    @saitoTK124 9 месяцев назад

    我有好幾台4090筆電 除了遊戲挖礦有什麼花樣可以玩?

  • @神之义
    @神之义 Год назад +1

    完全同意!特斯拉的Dojo就在整个系统(Full Stack)下功夫。

    • @Tech4AllYall
      @Tech4AllYall  Год назад

      沒錯,這就是system engineering

  • @thxyh7022
    @thxyh7022 Год назад +1

    我好想念你啊!!!!!!!!!!!!!!!!!!!

  • @oggysecond
    @oggysecond Год назад +1

    學到很多,影片製作辛苦了🙏

  • @dudulook2532
    @dudulook2532 Год назад

    苏妈能不能吧 r7 II 从游戏卡再包装回计算卡?那我们用户也算倒吸福利了哈哈

  • @810602jay
    @810602jay Год назад +1

    睽違一年多 頻道突然復活了!! 🥰🥰🥰

  • @petercandylee
    @petercandylee Год назад

    MI300 GPU chiplets share the unified memory. Can they not communicate with each other using the shared memory?

  • @dare-to-come-down-ice-bird
    @dare-to-come-down-ice-bird Год назад +2

    感動 竟然回來了!!!!

    • @Tech4AllYall
      @Tech4AllYall  Год назад +1

      我剛剛連你名字一起看,看成還敢回來啊冰鳥

  • @ctoid
    @ctoid Год назад +1

    我都已經想不起上次發片什麼時候了

  • @jclin5422
    @jclin5422 Год назад

    當RUclipsr 突然想起密碼是多少:

  • @eddiec6479
    @eddiec6479 Год назад

    有時我會把你跟林亦LYi搞亂😂
    都是講解有深度的東西

  • @eader100
    @eader100 Год назад +1

    食~神~歸~位~~~

  • @neil1619
    @neil1619 Год назад +1

    終於等到更新了!

  • @limitli1117
    @limitli1117 Год назад

    Twitter有人推荐。看完感觉太厉害了。知识量强大。讲述清晰。❤

  • @antangao1066
    @antangao1066 Год назад

    gtx560里还能用nvlink,原来阉割到这用了

  • @78rx52
    @78rx52 Год назад

    如果模擬大腦神經元設計將大量神經元晶片透過類神經網絡串聯運算 效率會否高過gpu(設計難度可能好高) 4:50

    • @Tech4AllYall
      @Tech4AllYall  Год назад

      這種neuromorphic compute,相較於傳統Von Neuman電腦價格,他目前還在很實驗階段,硬體是個挑戰,軟體更是。Intel在這方面投了不少資源在研究,但目前也都僅止於實驗階段,距離真的量產、deploy還有很長一段路要走。畢竟一套新的架構要取代原本的產品,不只要跟得上現有的市場領導者,甚至要超越個20-30%以上才能提供大家足夠的誘因去轉換平台

  • @takahirokan
    @takahirokan Год назад

    感謝分享,每次都能學到很多。之前還以為以後都看不到您的影片了🥲

  • @zhichengliu3271
    @zhichengliu3271 Год назад

    你是不是忘了你還有一個RUclips ?
    XD

  • @xiaolong174
    @xiaolong174 Год назад

    datacenter tax 比单纯TDP重要,软件决定系统资源的利用效率

  • @alpsnd
    @alpsnd Год назад +1

    AMD要拼多重同時演算能力
    而不是跟NVIDIA拼單獨快速算力。
    這也是AMD要堆疊大量快取記憶體的原因吧!

    • @kkkof787
      @kkkof787 Год назад

      想法很好。问题是财务问题。 以现在AMD 财力 CPU 已经难以招架,毕竟服务器市场占有率 难有起色,gpu上投入也不见得短期内改善财务。我比较担心未来2年市场投入不断上升 AMD 那就真的完全错过爆发期了。AI能有10%市占率都已经不错了。

    • @petercandylee
      @petercandylee Год назад

      Yes. It also reduces the total number of GPUs needed if each GPU can have a large pool of memory.

    • @jjj850314
      @jjj850314 Год назад

      想太多了AMD就不在運算的問題
      你知道GH系列嗎
      別說同時打不贏了你連入行的門檻都沒有
      你知道ROCM出來多久了嗎?誰要用他

    • @alpsnd
      @alpsnd Год назад

      @@jjj850314
      的確你是想太多了
      NVIDIA就是贏在算力
      AMD的新發表會(發售未定)後卻沒有打動AI企業的關注。
      原因就是AI企業還是在意算力。
      而AMD要追平NVIDIA的難度,蘇姿丰自己也心知肚明,在發表會沒有去強調算力的速度。
      我只是覺得閣下對自己認知是否太自信了。
      要不考慮執筆自薦書信給AMD的CEO你可以幫他們追上NVIDIA.

  • @petercandylee
    @petercandylee Год назад +2

    From EE Times
    根据 AMD 的计算,各种 LLM 的 FP16 精度推理所需的 MI300X 数量少于具有 80GB 内存的竞争对手 GPU(推测为 Nvidia H100-80GB)。 Falcon-40B 需要一个 AMD 的 GPU 或两个竞争对手的 GPU。 PaLM 540B 需要 7 个 AMD GPU 或竞争对手的 15 个。 (来源:AMD)

  • @追憶似水年華-w4m
    @追憶似水年華-w4m 10 месяцев назад

    何時還會再出片?不要學冨樫一樣讓大家都等好久!!

    • @Tech4AllYall
      @Tech4AllYall  10 месяцев назад

      看來我應該跟老師看齊,先公布一下頻道的結局,免得哪天過世了都還沒來得及寫完😅

  • @whhdtube
    @whhdtube Год назад

    自從停更後,失眠嚴重。請局座勿忘廣大失眠觀眾。

  • @mikkeymask361
    @mikkeymask361 7 месяцев назад

    现在正式发布了,能不能发一期更新?谢谢!

  • @EnzoHuang-l5v
    @EnzoHuang-l5v Год назад

    能比較Nvdia H100跟 Google TPU 嗎?

    • @Tech4AllYall
      @Tech4AllYall  Год назад

      Google TPU的確很有趣,但目前還沒有公布最新一代(v5)的正式規格,如果對v4有興趣的話,SemiAnalysis有一篇非常詳細的文章在介紹他的處理器和系統設計

  • @Dogzilla0606
    @Dogzilla0606 Год назад +1

    居然更新了😱

  • @e04dl47878
    @e04dl47878 Год назад

    #TIL El Capitan is pronounced as El Capitan not captain ☠

  • @jinyeh2320
    @jinyeh2320 Год назад

    好9不見 剛以為是舊影片 結果是16小時前的 熱騰騰

  • @joshuachuang
    @joshuachuang Год назад +1

    MI300 在inference應該還是有競爭力 畢竟如果一個晶片就可以跑得動 那就不需要擔心晶片間的溝通了 ...

    • @Tech4AllYall
      @Tech4AllYall  Год назад

      這就完全取決於model的大小跟軟體,如果是LLM,現行沒有一個model能夠只靠單一一個MI300X,而未來model只會越做越大

    • @joshuachuang
      @joshuachuang Год назад

      蘇媽在MI300X發佈會上面跑的DEMO就是讓一顆MI300X當場寫詩 大概就是要強調還有機會一戰 …

    • @Tech4AllYall
      @Tech4AllYall  Год назад +2

      他發表會上用的是Falcon 40B (400億個參數),是尺寸很小的model,品質沒辦法跟現在的基準點(GPT-3)相比,尤其我們很快就會看到其他更大的model,我覺得那個demo看看就好,不是很有參考價值,商用市場不會有人真的用Falcon,他大概就是像benchmark一樣的存在

    • @petercandylee
      @petercandylee Год назад

      @@Tech4AllYall; I disagree. AI can only be really useful if inference can be implemented in device level. Tesla is a very good example. I think AMD MI300 will most likely start from Inference market.

    • @Tech4AllYall
      @Tech4AllYall  Год назад +1

      @@petercandylee I wouldn't double down to say that AI can ONLY be useful if they can be run locally. Autonomous driving needs to be run locally because it is mission-critical. There is no way we could upload and compute all the data collected on vehicles in time to make split second decisions.
      And you can ask any consumer if they would rather (a) spec their personal device with a 12 core CPU + desktop 4070 level GPU with at least 64 GB of combined memory or (b) connect to the internet so they could ask AI to review their email/draw an image of Joe Biden in Minecraft. 90% of people will choose the later.
      And honestly, I don't see how MI300 is related to the "running AI locally" debate since it won't be installed on any personal device, it will always sit in the cloud or people to use it remotely
      MI300 will have some inference sales for sure, but it will not gain AMD significant AI market share unless we want to argue that any market share is significant when compared to 0%

  • @ryoushousou8774
    @ryoushousou8774 Год назад

    終於回來了。我都懷疑您是不是在美國遭遇槍擊案了🤣

  • @楊茗澄
    @楊茗澄 Год назад

    失蹤人口突然出現了 真令人驚喜

  • @蒼之月日常
    @蒼之月日常 Год назад

    爺爺你喜歡的貧終於更新了xd

  • @billliu4534
    @billliu4534 Год назад

    你可以度蜜月但你的頻道不行,請定時更新 :)

    • @Tech4AllYall
      @Tech4AllYall  Год назад +1

      比爾這麼帥,貼圖這麼醜,說得過去嗎

  • @FallMaple
    @FallMaple Год назад

    哇塞 爺爺你訂閱的頻道更新la

  • @kev19949a
    @kev19949a Год назад

    辣個創作者回來了!

  • @kye1021
    @kye1021 Год назад

    以後還會固定更新嗎?沒出一篇停更一年去幹什大事...

    • @Tech4AllYall
      @Tech4AllYall  Год назад +2

      我…不敢保證😅抱歉啦,但是當我憋不住,又想講話的時候一定會浮出水面的

  • @drsecu4352
    @drsecu4352 Год назад

    未看先留言支持一下,畢竟下部片不知道要等多久😂

  • @matrisys
    @matrisys Год назад

    獨到的見解,AI設計上的一股清流