M4 Mac mini 服务器探索之路 Ollama模型与显存占用关系分析 实测体验汇报以及服务方式不到Macos后台运行教程

Поделиться
HTML-код
  • Опубликовано: 1 янв 2025

Комментарии •

  • @jk1231
    @jk1231 29 дней назад

    王老师,想请教一下,有办法直接用区域网在另一台PC存取Mac 上的Open WebUI, 从而间接操作Mac 上的Ollama吗? 🙏🏻

    • @milaone
      @milaone  29 дней назад +1

      先感谢您的打赏!感谢支持哈,可以的,另一台机器部署Open WebUI直接通过api方式访问ollama就可以,后面一个视频我介绍了lm studio效率比ollama好一点,也同样支持api调用

    • @chicohan8407
      @chicohan8407 15 дней назад +2

      可能你没接触过Linux。这里可以把Mac当作一台服务器,一般默认的可访问webui的网络范围是127.0.0.1(也就是本机,或者叫localhost),在这里将可访问地址改成你所在的局域网网段(一般是192.168.xxx.0),或者更大的范围0.0.0.0,也就是地球上有ipv4的人都可以访问你的webui(当然还需要你的服务运营商允许,还有前提是你有公网IP),同时打开webui的某个端口供其他人访问,当然最后你还有让mac的防火墙开放你的这个端口允许他人访问。

    • @jk1231
      @jk1231 15 дней назад

      @@chicohan8407 有用Ubuntu 架站,但不熟悉Mac, 也不是电脑专业的😅

    • @milaone
      @milaone  15 дней назад +1

      就是相当于一个http服务来访问

  • @playercatboy
    @playercatboy Месяц назад +7

    我等这种视频很久了。显存与模型参数大小的关系,M系列处理器的 LLM 速度测试,以及最重要的,苹果 M 系列处理器,因为有统一内存,真的对于这种高 VRAM 需求的 AI 使用场景下,是否对于 NVIDIA 有优势。

    • @milaone
      @milaone  Месяц назад +1

      他的16虽然可以等同于16显存用,但是27b我的n卡可跑,不管快慢吧,m4跑不动,还是得有几个g给系统运行内存

    • @paipaiwei9602
      @paipaiwei9602 Месяц назад

      @@milaone是处理器的问题还是显存的问题

    • @mebusysgamedev3109
      @mebusysgamedev3109 Месяц назад +1

      @@milaone 不可能16G都能给GPU使用,GPU能使用 75%统一内存就不错了

  • @jbrainster
    @jbrainster 5 дней назад

    费心了,赞~

  • @weidai5604
    @weidai5604 Месяц назад +2

    就等这期视频了

  • @catmagic3062
    @catmagic3062 Месяц назад +2

    感謝您的分享 還未接觸過相關的功能 很想玩看看 正考慮著是否買24/32gb記憶體的m4 mini來運作ollama
    有幾個問題能否解惑
    1. 如果需要跑stable diffusion相關的內容 16g本身是否夠用 ?
    2. 如果都要提升至24/32gb記憶體的話 是否該換上m4 pro 效能也會有明顯的大幅提升 ?
    感謝

  • @xumx
    @xumx Месяц назад +2

    这个实测有很大的坑,每次提问必须清空之前的聊天记录才是实际时间。因为上下文的长度是直接影响计算速度的。

    • @milaone
      @milaone  Месяц назад

      没懂

    • @xumx
      @xumx Месяц назад

      @@milaone模型的运行速度和对话所有字符长度(总字数)成正比。越长的上下文,速度就会越慢。
      这些后面测试的模型会把前面测试的所有字都合在一起(很长)。会比新对话的速度慢很多

    • @xumx
      @xumx Месяц назад

      可以测试同一个模型,多次问同一个问题,回发现速度越来越慢

  • @loveyouwang1201
    @loveyouwang1201 Месяц назад

    弄了好了,谢谢哥

  • @蛋董-i2r
    @蛋董-i2r Месяц назад

    心里有数了,感谢老王

    • @milaone
      @milaone  Месяц назад +1

      嗯嗯,我的目的就是大家看看别被忽悠了,跑分的,渲染的,看跑分排行的,没有用,16g买回来到底能干个啥。啥效率

  • @wlyt-Zimmerman
    @wlyt-Zimmerman Месяц назад

    恭贺老王收到新玩具

  • @yesyunxin
    @yesyunxin Месяц назад

    我ollama安装在服务器上,我在本机安装了open-webui,研究下半天还是没有用本地open-webui连接到服务器上的ollama安装的模型

    • @milaone
      @milaone  Месяц назад

      设置->管理员设置->外部链接

  • @oanzlybc
    @oanzlybc Месяц назад

    一直用 m pro 系列订制 mini 做 llm 服务器,32g 够了

  • @林哲偉-o7q
    @林哲偉-o7q Месяц назад +1

    我自己是使用DIFY這個架構,他有一個很棒的點是他可以做工作流~

    • @milaone
      @milaone  Месяц назад

      嗯DIFY有机会我也可以介绍一下,多谢提醒

  • @hayato8768
    @hayato8768 Месяц назад

    前排

  • @jwh001
    @jwh001 Месяц назад +1

    请问,公有云上的模型调用十分方便,也效果更好,那么这种本地模型对个人开发者来说有什么作用啊???为何这么多人都在搞这个呢?

    • @nicolaszhang0315
      @nicolaszhang0315 25 дней назад

      自己搭建就有不限量的api可以调用了,而且,是某个专业特定的大模型,可以调校到完美

    • @wallenTV
      @wallenTV 17 дней назад

      公交地铁挺好,你为啥要开车

  • @hflail3570
    @hflail3570 28 дней назад +1

    套壳教程快出吧😁

    • @milaone
      @milaone  28 дней назад

      正在安排中

    • @hflail3570
      @hflail3570 28 дней назад

      @@milaone 快快滴

  • @HomerDeavers
    @HomerDeavers Месяц назад

    等你 comfy ui 测试结果, 加油!

  • @安波里va波
    @安波里va波 Месяц назад +1

    套壳软件怎么装?🥲

  • @albertd7658
    @albertd7658 Месяц назад

    感谢!🙏

    • @milaone
      @milaone  Месяц назад

      不客气您

  • @weidai5604
    @weidai5604 Месяц назад +1

    继续更新咯

  • @xlm4568
    @xlm4568 Месяц назад

    期待老王的M4 mini 更多使用场景的探索。 可以做一个系列来搞。

    • @milaone
      @milaone  Месяц назад +1

      是的我是这么打算的,各种咱都实际跑跑,能玩的不能玩的,主打一个折腾无边界,哈哈

  • @anmaxin325
    @anmaxin325 Месяц назад

    还可以了。

  • @stevensun3564
    @stevensun3564 Месяц назад

    你好,我想问一下,本地运行大模型对比像chart GPT订阅版有什么优势,看起来速度也不快,精度也不一定更好

    • @milaone
      @milaone  Месяц назад +3

      也不是不快,你可以关注后续视频,有更好更适合M系列芯片的方案,本地模型对做一些基础的分析或者数据整理精度足够用,但是本地就保证了分析数据的安全性,咱分析个班级成绩单传给厂商也就传了,如果是企业里的数据呢,他宁愿不分析也不会传的

  • @andyyang6996
    @andyyang6996 Месяц назад

    有没有机会测试一下 LM studio,现在支持 MLX 框架了,这个是苹果大模型框架,据说配合 M 系列芯片会更快

    • @milaone
      @milaone  Месяц назад +1

      可以,我最近也在看说llama.cpp效率好,尤其是coreml支持

    • @VincentLi-d6z
      @VincentLi-d6z Месяц назад

      @@milaone十分期待

  • @xmwinner
    @xmwinner Месяц назад +1

    你好,在输入最后一行代码出错(launchctl load ~/Library/LaunchAgents/com.user.ollama.service.plist);提示Load failed: 5: Input/output error
    Try running `launchctl bootstrap` as root for richer errors。用本地的iP无法登陆,只能用127.0.0.1登陆。请问如何处理?谢谢

    • @milaone
      @milaone  Месяц назад

      试试
      sudo launchctl bootstrap system ~/Library/LaunchAgents/com.user.ollama.service.plist

    • @ydm9481
      @ydm9481 Месяц назад

      把这一行删了就行 #com.user.ollama.service.plist文件内容

    • @milaone
      @milaone  Месяц назад +1

      @ydm9481 哦注释拷贝进去了

    • @milaone
      @milaone  Месяц назад

      @ydm9481 我回头去博客改一下

    • @vanKaneLio
      @vanKaneLio Месяц назад

      第三步配置文件中的第一行#com.user.ollama.service.plist文件内容 刪掉就可以了

  • @sunflya4372
    @sunflya4372 19 дней назад

    模型文件怎么挂到外置硬盘呢

    • @milaone
      @milaone  19 дней назад

      我记得可以改模型目录,你搜一下,但是模型放外置除非你外置式usb4的,否则影响速度啊

  • @zhouyangbo4498
    @zhouyangbo4498 Месяц назад

    但很多AIGC 都基于GPU

  • @san2888
    @san2888 Месяц назад +2

    能不能使用 LM studio 部署 llama 3.2 vision 11B, 能开一节课教导一下就好了, LM studio的UI比较好,还支持导入文件

    • @milaone
      @milaone  Месяц назад

      嗯安排了,这两天腰椎间盘犯了,卧床了,稍等吧

  • @yun-chenyen2834
    @yun-chenyen2834 28 дней назад

    請問我現在用多RTX顯卡約50GB顯存的 PC,換成m4 pro Mac mini 64 GB,跑32b LLM體驗會比較好嗎?

    • @milaone
      @milaone  28 дней назад +1

      目前看应该是50g的n卡推理体验更好,我也是推测,我手头是16g的n卡和16g的m4,

    • @yun-chenyen2834
      @yun-chenyen2834 28 дней назад

      @@milaone 感謝回復,因為我是用ollama,多卡顯存能載入但是運算不知道是並行運算,不過跑比較大模型的速度體驗還是不錯的。

    • @milaone
      @milaone  28 дней назад +1

      @yun-chenyen2834 那就感觉50没必要换64的m4

    • @milaone
      @milaone  28 дней назад +1

      @yun-chenyen2834 苹果自己的mlx框架也是在迅速成熟中,您可以看下我第三个视频关于m4大模型的,但是我感觉还是需要再成熟一些我们才可以闭眼入场,如果单从用户的角度来讲目前并不是太适合

    • @yun-chenyen2834
      @yun-chenyen2834 28 дней назад

      @@milaone 好的,會想問m4 mac是因為功耗差距滿大的,目前PC最高大概會到1200W左右,比熱水瓶還高啊。家用電力系統,再玩下去裝5090就要多弄一套電力系統了。

  • @zhouyangbo4498
    @zhouyangbo4498 Месяц назад

    16G 内存就够用了

  • @重案组曹达华-e6z
    @重案组曹达华-e6z Месяц назад +2

    看了你的视频后,我用m1pro 32+512测试了一下这几个大模型,然后把mac mini点了退货🤣

    • @milaone
      @milaone  Месяц назад +1

      嗯你32g如果只为了玩ai确实没必要

    • @paipaiwei9602
      @paipaiwei9602 Месяц назад

      @@milaone还可以玩docker 测试部署服务

    • @user-jw7in4bj6q
      @user-jw7in4bj6q Месяц назад

      请问,M1 Max 64GB 可以跑多大的本地模型,运行时间如何,有推荐吗

    • @paradoxnonmerci8621
      @paradoxnonmerci8621 Месяц назад

      我原本也有M1pro 16G,但看了M4 mini的参数,我也没再买m4 mini了,gpu还比不上M1 pro

    • @milaone
      @milaone  Месяц назад +1

      64G可以说能跑很多了啊70b都可以考虑

  • @waikinlam4292
    @waikinlam4292 Месяц назад

    想看64G的M4Pro有多強😂

    • @yukun-thomassui3442
      @yukun-thomassui3442 Месяц назад

      128g de M4PRO, 是可以跑llama的3.1(或者3.2) 70B。但是nvidia的显卡不行,显存太小

    • @milaone
      @milaone  Месяц назад

      对啊,nvdia显卡哪有那么大显存的普遍也就是80g的算比较大了吧

    • @大支爺
      @大支爺 Месяц назад

      小白別亂答,我用4090跑70b很容易!

    • @yukun-thomassui3442
      @yukun-thomassui3442 Месяц назад

      @@大支爺 说错了,是405B

  • @yougikou
    @yougikou Месяц назад

    第一次运行加载模型后,第二次会快一点吗?

  • @大支爺
    @大支爺 Месяц назад +2

    3070都比它快不只一倍,一票孫子还说它能把4090干翻,搞笑,我的PC直接跑70b以上模型至少都50~过百tokens,这货才能跑几个b的模型.

  • @paipaiwei9602
    @paipaiwei9602 Месяц назад +1

    谢谢分享 我准备退了换个大一点的内存

    • @milaone
      @milaone  Месяц назад

      不客气您

  • @colskisabastian1458
    @colskisabastian1458 Месяц назад +2

    千问是真难用,坑人。我现在用开复老哥的Yi

    • @usjinbao5005
      @usjinbao5005 Месяц назад

      你部署千问干啥,直接官方的大模型都免费用

    • @milaone
      @milaone  Месяц назад

      免费也有次数的吧,不过我现在基本就只用gemma2了,千问一般般了,拉一个做个速度对比

    • @usjinbao5005
      @usjinbao5005 Месяц назад

      @ 通义千问擅长编程代码相关

  • @woodfanr
    @woodfanr Месяц назад

    安排安排多多安排

  • @c2h2c2h210
    @c2h2c2h210 Месяц назад

    还是太慢,还不如一个2080ti 22GB

    • @milaone
      @milaone  Месяц назад

      别着急,后面还有后续

  • @Harry_Zh
    @Harry_Zh Месяц назад

    一会儿显存、一会儿内存,我糊涂

    • @milaone
      @milaone  Месяц назад

      统一内存,显存内存一样滴

    • @Harry_Zh
      @Harry_Zh Месяц назад

      @ 谢。但内存不能全部分配当显存使用吧。

    • @milaone
      @milaone  Месяц назад

      @Harry_Zh 对啊我说了,要分出来运行内存

    • @loveyouwang1201
      @loveyouwang1201 Месяц назад

      求一个教程