Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
很實用的資訊,沒想到 Mac 在運行 LLM 有這樣的優勢
Mac 居然也有實惠便宜的一天
但大部份都係 based on CUDA 去寫 LLM
其实不行, apple只是缓存做的好, 如果你的大模型用例只有100 tokens的上下文, 那可以, 如果你想用真的大模型弄几千tokens, 比如codellama, 那m3就寄了, 而这时候英伟达还是该怎么跑怎么跑.
我今天差点下单mbp顶配, 所以仔细研究了一下.
其实,我又仔细研究了一下,还是下单了,4000刀的128gb,因为我仔细算了一下,要手搓一个这么大的inference endpoint,估计性能好不如它。就当DGX平替了。
家里用nvidia和mac m1 pro跑过LLM。生成的结果还是nvidia更好,质量也更高。而且Nvidia的卡还能比较流畅地跑图形AI,比如comfyUI。苹果的m芯片也能跑,但结果真的差强人意。苹果现在跑llm就像在高速公路上跑小轿车,nvidia就偈在高速公路跑GTR。
這感覺會是跟兩者的系統環境有關嗎?
谢谢分享!我正愁在windows上不好跑LLM!
虽然m3max很贵,但也是最有性价比
想試試看裝語言模型就有人來講解了,希望有用,正在觀看😮
很實用的資訊,可以去買M3 MAX了!
可以等ultra,先用老的练练手
不好意思想問所以如果新的macbook組 1TB 讀取速度會是7000mb?
是的,1 TB 版的讀取速度的最快上限就有 7000mb
@@angelance 所以m3 max 買512GB版本就沒有嗎
不能用一般的ram(非vram)來跑嗎,差距有多大
普通ram的傳輸速度較慢 資料量大要等一般的ram每秒傳輸的頻寬64Gb就很高了M3 max 的unified ram 每秒可達400gbM2 Ultra 每秒 800GbNvidia 4090顯卡內的記憶體每秒1008Gb大型語言模型需要處理極大量的資料因此,因為頻寬有倍數的差距,會讓執行llm 的速度有明顯的差異
LLM 請看能否在那台筆電finetune ,看跑不跑得動/要跑多久? 若不能finetune 以適合某些客戶需要的場景,不就少了些能盈利的可能性?又,如果只是部署LLM,多張GeForce 3090,4090難道會比較慢? 比較貴?我認為一分錢一分貨。蘋果雖RAM多,但算力差。不可能是所謂高C/P值的選項。如果您想說服我蘋果比NV顯卡還划算,請多跑實驗(LLM on H100? LLM on GeForce?) 讓影片更有價值,謝謝。
關於如何組多張 3090 4090 的方式,我是參考timdettmers.com/2023/01/30/which-gpu-for-deep-learning/適合願意花時間精打細算的人細細品嚐作者用4張二手的3090配 1600瓦供電
他不就說沒有要finetune 只是local端運行而已嗎?你是不是影片根本沒認真看,只看到m3 LLM幾個關鍵字就開始嘴了?
@@elvis1322 嗯 我只是怕此片標題誤導群眾(買蘋果跑AI 高C/P值)。所以進來留言,提供個人觀點。買這麼貴的電腦,連finetune LLM都不行;且模型推理或訓練皆慢…那麼,何來C/P值?我是認為,若拿來盈利的機率很低,這樣的配置充其量🤔只是一個有趣的玩具 而已。 我是不否認也許串langchain 純跑模型推理,有機會能在Mac上弄出有 稍微像樣的LLM APP。但為了普適不同應用場景,使其能夠盈利或商用,可能還是要能夠finetune。另外從主流NVIDIA 脫離,若既有開發程式碼已經有自定義的NVIDIA CUDA算子.. 那若要想辦法轉移至Apple,也是開發成本。
另外我想說,在這個AI開發者群體裡面,我沒看過誰說M1/2/3 Max好棒棒,可以拿來賺錢 是高生產力工具。我只看過M1/M2 Max有很多網紅買來剪片。 (可以盈利 所以他們買Mac 我沒有話說。)很多AI開發者,擁有M1 Air 或Pro ,只是將其當作從本地連接到遠程伺服器開發的一台美麗跳板工具。(公司配給;或是反正需要一台本地機器能遠程連線到AI伺服器;有閒錢的話自己買本地機器如MacBook Air也無妨)網路上是有開發者拿M1 MacBook Air 來教學,跑簡單深度學習範例(如Karparthy)。 🤔似乎僅此而已。我在這邊留言就是提個醒。若你是剛進資工系的大學生/或是開始學習AI開發,自己也沒有遠程服務器可使用,🤔不要買蘋果。 買個具備NVIDIA 顯卡的電競筆電或桌機 比較高C/P值(不用擔心適配性,網路上各開源程式嗎都近乎100%支持NVIDIA GPU。可以跑各種練習。)至於Apple silicon跑AI的適配性? 也是近幾年才開始支持。很多開源也是跑不起來,即使跑得起來,可能還有精度問題(bug)…。
先不說NVIDIA 當代顯卡,有專門矩陣運算的張量核心、TF32型別、以及單半混精訓練技術。我們就單比較訓練AI可能是最基礎、最核心的FP32浮點運算速度(TFLOPs)。M2記得是約10TFlops; M3 我猜測是最多到13TFlops。 這是什麼概念? 2017年的時候NVIDIA 有一張卡片叫做1080Ti,他的速度就是約12T Flops。當年賣約兩三萬。🤔那…請問現在是幾年…。2023年…🤔。但也不是說Apple silicon一無是處。他這種CPU與GPU的統一記憶體架構,可讓GPU可以直接取得大量記憶體。啊其實這個也不是什麼新概念。以前IBM早有推過同樣的東西(arm架構伺服器,搭NVIDIA 顯卡,但也沒看有多少人願意買單)。只是Apple silicon算力我希望一兩年後能加強到比較堪用的等級(例如一兩張Geforce4090的速度..)🤔只是一兩年後誰知道NVIDIA 又有多變態的消費級/伺服器級顯卡出現…。
一个4090的价钱😂
为什么要在自己电脑上跑大模型?用云服务不好吗。
保護隱私,可以跑的更快,還可以更彈性的客製化自己專用的 GPT,使用在自己的品牌網站上等小規模試驗的成本較低,利於開發客製化應用。中小企業,或想用 gpt 創業,做生意賺錢的可以考慮如果只是個人日常輕度使用,可能用雲服務就夠用
@@user-sl8gi3vb6e在下路過我是ai門外漢但商用電腦以前也是一整間房子肯定以後人人手上都能有一台量子電腦的
那是因為你不是開發者,不需要聯網,可以避免信息洩露。也不需要支付雲端開發費用。自己訓練好模型和app以後,換回雲端的api就行了。@@user-sl8gi3vb6e
跑模型跟產生模型是兩件事
@@user-do7kb7td4h 在未来世界,模型是fluid的,和self-modifying程序一样并不是write once run forever的,就用你们最引以为荣的neutral network来说的,它未来是横跨整个宇宙的,火星上的某个neuron的状态改变,是要在有限的时间内与你家里的neutron互动的,所以任何东西都不可能再是local的。
请问不能跑在 Intel mac上吗
可以,可以從最小 7b 模型跑跑看 LM studio 是跨平台的
据说跑的越大 mac的统一内存越慢 不知道是不是真的
內存速度固定,但模型的尺寸越大當然跑越慢,13b (130億)參數的肯定跑的比 70b(700億)參數的快
很實用的資訊,沒想到 Mac 在運行 LLM 有這樣的優勢
Mac 居然也有實惠便宜的一天
但大部份都係 based on CUDA 去寫 LLM
其实不行, apple只是缓存做的好, 如果你的大模型用例只有100 tokens的上下文, 那可以, 如果你想用真的大模型弄几千tokens, 比如codellama, 那m3就寄了, 而这时候英伟达还是该怎么跑怎么跑.
我今天差点下单mbp顶配, 所以仔细研究了一下.
其实,我又仔细研究了一下,还是下单了,4000刀的128gb,因为我仔细算了一下,要手搓一个这么大的inference endpoint,估计性能好不如它。就当DGX平替了。
家里用nvidia和mac m1 pro跑过LLM。生成的结果还是nvidia更好,质量也更高。而且Nvidia的卡还能比较流畅地跑图形AI,比如comfyUI。苹果的m芯片也能跑,但结果真的差强人意。苹果现在跑llm就像在高速公路上跑小轿车,nvidia就偈在高速公路跑GTR。
這感覺會是跟兩者的系統環境有關嗎?
谢谢分享!我正愁在windows上不好跑LLM!
虽然m3max很贵,但也是最有性价比
想試試看裝語言模型就有人來講解了,希望有用,正在觀看😮
很實用的資訊,可以去買M3 MAX了!
可以等ultra,先用老的练练手
不好意思想問所以如果新的macbook組 1TB 讀取速度會是7000mb?
是的,1 TB 版的讀取速度的最快上限就有 7000mb
@@angelance 所以m3 max 買512GB版本就沒有嗎
不能用一般的ram(非vram)來跑嗎,差距有多大
普通ram的傳輸速度較慢 資料量大要等
一般的ram每秒傳輸的頻寬64Gb就很高了
M3 max 的unified ram 每秒可達400gb
M2 Ultra 每秒 800Gb
Nvidia 4090顯卡內的記憶體每秒1008Gb
大型語言模型需要處理極大量的資料
因此,因為頻寬有倍數的差距,會讓執行llm 的速度有明顯的差異
LLM 請看能否在那台筆電finetune ,看跑不跑得動/要跑多久? 若不能finetune 以適合某些客戶需要的場景,不就少了些能盈利的可能性?
又,如果只是部署LLM,多張GeForce 3090,4090難道會比較慢? 比較貴?
我認為一分錢一分貨。蘋果雖RAM多,但算力差。不可能是所謂高C/P值的選項。如果您想說服我蘋果比NV顯卡還划算,請多跑實驗(LLM on H100? LLM on GeForce?) 讓影片更有價值,謝謝。
關於如何組多張 3090 4090 的方式,我是參考
timdettmers.com/2023/01/30/which-gpu-for-deep-learning/
適合願意花時間精打細算的人細細品嚐
作者用4張二手的3090配 1600瓦供電
他不就說沒有要finetune 只是local端運行而已嗎?你是不是影片根本沒認真看,只看到m3 LLM幾個關鍵字就開始嘴了?
@@elvis1322 嗯 我只是怕此片標題誤導群眾(買蘋果跑AI 高C/P值)。所以進來留言,提供個人觀點。
買這麼貴的電腦,連finetune LLM都不行;且模型推理或訓練皆慢…那麼,何來C/P值?
我是認為,若拿來盈利的機率很低,這樣的配置充其量🤔只是一個有趣的玩具 而已。 我是不否認也許串langchain 純跑模型推理,有機會能在Mac上弄出有 稍微像樣的LLM APP。但為了普適不同應用場景,使其能夠盈利或商用,可能還是要能夠finetune。
另外從主流NVIDIA 脫離,若既有開發程式碼已經有自定義的NVIDIA CUDA算子.. 那若要想辦法轉移至Apple,也是開發成本。
另外我想說,在這個AI開發者群體裡面,我沒看過誰說M1/2/3 Max好棒棒,可以拿來賺錢 是高生產力工具。
我只看過M1/M2 Max有很多網紅買來剪片。 (可以盈利 所以他們買Mac 我沒有話說。)
很多AI開發者,擁有M1 Air 或Pro ,只是將其當作從本地連接到遠程伺服器開發的一台美麗跳板工具。(公司配給;或是反正需要一台本地機器能遠程連線到AI伺服器;有閒錢的話自己買本地機器如MacBook Air也無妨)
網路上是有開發者拿M1 MacBook Air 來教學,跑簡單深度學習範例(如Karparthy)。 🤔似乎僅此而已。
我在這邊留言就是提個醒。若你是剛進資工系的大學生/或是開始學習AI開發,自己也沒有遠程服務器可使用,🤔不要買蘋果。 買個具備NVIDIA 顯卡的電競筆電或桌機 比較高C/P值(不用擔心適配性,網路上各開源程式嗎都近乎100%支持NVIDIA GPU。可以跑各種練習。)至於Apple silicon跑AI的適配性? 也是近幾年才開始支持。很多開源也是跑不起來,即使跑得起來,可能還有精度問題(bug)…。
先不說NVIDIA 當代顯卡,有專門矩陣運算的張量核心、TF32型別、以及單半混精訓練技術。
我們就單比較訓練AI可能是最基礎、最核心的FP32浮點運算速度(TFLOPs)。
M2記得是約10TFlops; M3 我猜測是最多到13TFlops。 這是什麼概念? 2017年的時候NVIDIA 有一張卡片叫做1080Ti,他的速度就是約12T Flops。當年賣約兩三萬。🤔那…請問現在是幾年…。2023年…🤔。
但也不是說Apple silicon一無是處。他這種CPU與GPU的統一記憶體架構,可讓GPU可以直接取得大量記憶體。啊其實這個也不是什麼新概念。以前IBM早有推過同樣的東西(arm架構伺服器,搭NVIDIA 顯卡,但也沒看有多少人願意買單)。
只是Apple silicon算力我希望一兩年後能加強到比較堪用的等級(例如一兩張Geforce4090的速度..)🤔只是一兩年後誰知道NVIDIA 又有多變態的消費級/伺服器級顯卡出現…。
一个4090的价钱😂
为什么要在自己电脑上跑大模型?用云服务不好吗。
保護隱私,可以跑的更快,還可以更彈性的客製化自己專用的 GPT,使用在自己的品牌網站上等
小規模試驗的成本較低,利於開發客製化應用。中小企業,或想用 gpt 創業,做生意賺錢的可以考慮
如果只是個人日常輕度使用,可能用雲服務就夠用
@@user-sl8gi3vb6e在下路過
我是ai門外漢
但商用電腦以前也是一整間房子
肯定以後人人手上都能有一台量子電腦的
那是因為你不是開發者,不需要聯網,可以避免信息洩露。也不需要支付雲端開發費用。自己訓練好模型和app以後,換回雲端的api就行了。@@user-sl8gi3vb6e
跑模型跟產生模型是兩件事
@@user-do7kb7td4h 在未来世界,模型是fluid的,和self-modifying程序一样并不是write once run forever的,就用你们最引以为荣的neutral network来说的,它未来是横跨整个宇宙的,火星上的某个neuron的状态改变,是要在有限的时间内与你家里的neutron互动的,所以任何东西都不可能再是local的。
请问不能跑在 Intel mac上吗
可以,可以從最小 7b 模型跑跑看 LM studio 是跨平台的
据说跑的越大 mac的统一内存越慢 不知道是不是真的
內存速度固定,但模型的尺寸越大當然跑越慢,13b (130億)參數的肯定跑的比 70b(700億)參數的快