M4 Mac mini 服务器探索之路 Ollama模型与显存占用关系分析实测体验汇报以及服务方式不到Macos后台运行教程

米拉一 (Milaone Channel)

Просмотров 19 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 янв 2025

Комментарии •

@jk1231 29 дней назад
王老师，想请教一下，有办法直接用区域网在另一台PC存取Mac 上的Open WebUI, 从而间接操作Mac 上的Ollama吗？ 🙏🏻
@milaone 29 дней назад ⁺¹
先感谢您的打赏！感谢支持哈，可以的，另一台机器部署Open WebUI直接通过api方式访问ollama就可以，后面一个视频我介绍了lm studio效率比ollama好一点，也同样支持api调用
@chicohan8407 15 дней назад ⁺²
可能你没接触过Linux。这里可以把Mac当作一台服务器，一般默认的可访问webui的网络范围是127.0.0.1（也就是本机，或者叫localhost），在这里将可访问地址改成你所在的局域网网段（一般是192.168.xxx.0），或者更大的范围0.0.0.0，也就是地球上有ipv4的人都可以访问你的webui（当然还需要你的服务运营商允许，还有前提是你有公网IP），同时打开webui的某个端口供其他人访问，当然最后你还有让mac的防火墙开放你的这个端口允许他人访问。
@jk1231 15 дней назад
@@chicohan8407 有用Ubuntu 架站，但不熟悉Mac, 也不是电脑专业的😅
@milaone 15 дней назад ⁺¹
就是相当于一个http服务来访问
@playercatboy Месяц назад ⁺⁷
我等这种视频很久了。显存与模型参数大小的关系，M系列处理器的 LLM 速度测试，以及最重要的，苹果 M 系列处理器，因为有统一内存，真的对于这种高 VRAM 需求的 AI 使用场景下，是否对于 NVIDIA 有优势。
@milaone Месяц назад ⁺¹
他的16虽然可以等同于16显存用，但是27b我的n卡可跑，不管快慢吧，m4跑不动，还是得有几个g给系统运行内存
@paipaiwei9602 Месяц назад
@@milaone是处理器的问题还是显存的问题
@mebusysgamedev3109 Месяц назад ⁺¹
@@milaone 不可能16G都能给GPU使用，GPU能使用 75%统一内存就不错了
@jbrainster 5 дней назад
费心了，赞~
@weidai5604 Месяц назад ⁺²
就等这期视频了
@catmagic3062 Месяц назад ⁺²
感謝您的分享還未接觸過相關的功能很想玩看看正考慮著是否買24/32gb記憶體的m4 mini來運作ollama
有幾個問題能否解惑
1. 如果需要跑stable diffusion相關的內容 16g本身是否夠用 ?
2. 如果都要提升至24/32gb記憶體的話是否該換上m4 pro 效能也會有明顯的大幅提升 ?
感謝
@xumx Месяц назад ⁺²
这个实测有很大的坑，每次提问必须清空之前的聊天记录才是实际时间。因为上下文的长度是直接影响计算速度的。
@milaone Месяц назад
没懂
@xumx Месяц назад
@@milaone模型的运行速度和对话所有字符长度（总字数）成正比。越长的上下文，速度就会越慢。
这些后面测试的模型会把前面测试的所有字都合在一起（很长）。会比新对话的速度慢很多
@xumx Месяц назад
可以测试同一个模型，多次问同一个问题，回发现速度越来越慢
@loveyouwang1201 Месяц назад
弄了好了，谢谢哥
@蛋董-i2r Месяц назад
心里有数了，感谢老王
@milaone Месяц назад ⁺¹
嗯嗯，我的目的就是大家看看别被忽悠了，跑分的，渲染的，看跑分排行的，没有用，16g买回来到底能干个啥。啥效率
@wlyt-Zimmerman Месяц назад
恭贺老王收到新玩具
@yesyunxin Месяц назад
我ollama安装在服务器上，我在本机安装了open-webui，研究下半天还是没有用本地open-webui连接到服务器上的ollama安装的模型
@milaone Месяц назад
设置->管理员设置->外部链接
@oanzlybc Месяц назад
一直用 m pro 系列订制 mini 做 llm 服务器，32g 够了
@林哲偉-o7q Месяц назад ⁺¹
我自己是使用DIFY這個架構，他有一個很棒的點是他可以做工作流～
@milaone Месяц назад
嗯DIFY有机会我也可以介绍一下，多谢提醒
@hayato8768 Месяц назад
前排
@jwh001 Месяц назад ⁺¹
请问，公有云上的模型调用十分方便，也效果更好，那么这种本地模型对个人开发者来说有什么作用啊？？？为何这么多人都在搞这个呢？
@nicolaszhang0315 25 дней назад
自己搭建就有不限量的api可以调用了，而且，是某个专业特定的大模型，可以调校到完美
@wallenTV 17 дней назад
公交地铁挺好，你为啥要开车
@hflail3570 28 дней назад ⁺¹
套壳教程快出吧😁
@milaone 28 дней назад
正在安排中
@hflail3570 28 дней назад
@@milaone 快快滴
@HomerDeavers Месяц назад
等你 comfy ui 测试结果，加油！
@安波里va波 Месяц назад ⁺¹
套壳软件怎么装?🥲
@milaone Месяц назад ⁺¹
我安排
@albertd7658 Месяц назад
感谢！🙏
@milaone Месяц назад
不客气您
@weidai5604 Месяц назад ⁺¹
继续更新咯
@milaone Месяц назад
👌
@xlm4568 Месяц назад
期待老王的M4 mini 更多使用场景的探索。可以做一个系列来搞。
@milaone Месяц назад ⁺¹
是的我是这么打算的，各种咱都实际跑跑，能玩的不能玩的，主打一个折腾无边界，哈哈
@anmaxin325 Месяц назад
还可以了。
@stevensun3564 Месяц назад
你好，我想问一下，本地运行大模型对比像chart GPT订阅版有什么优势，看起来速度也不快，精度也不一定更好
@milaone Месяц назад ⁺³
也不是不快，你可以关注后续视频，有更好更适合M系列芯片的方案，本地模型对做一些基础的分析或者数据整理精度足够用，但是本地就保证了分析数据的安全性，咱分析个班级成绩单传给厂商也就传了，如果是企业里的数据呢，他宁愿不分析也不会传的
@andyyang6996 Месяц назад
有没有机会测试一下 LM studio，现在支持 MLX 框架了，这个是苹果大模型框架，据说配合 M 系列芯片会更快
@milaone Месяц назад ⁺¹
可以，我最近也在看说llama.cpp效率好，尤其是coreml支持
@VincentLi-d6z Месяц назад
@@milaone十分期待
@xmwinner Месяц назад ⁺¹
你好，在输入最后一行代码出错（launchctl load ~/Library/LaunchAgents/com.user.ollama.service.plist）；提示Load failed: 5: Input/output error
Try running `launchctl bootstrap` as root for richer errors。用本地的iP无法登陆，只能用127.0.0.1登陆。请问如何处理？谢谢
@milaone Месяц назад
试试
sudo launchctl bootstrap system ~/Library/LaunchAgents/com.user.ollama.service.plist
@ydm9481 Месяц назад
把这一行删了就行 #com.user.ollama.service.plist文件内容
@milaone Месяц назад ⁺¹
@ydm9481 哦注释拷贝进去了
@milaone Месяц назад
@ydm9481 我回头去博客改一下
@vanKaneLio Месяц назад
第三步配置文件中的第一行#com.user.ollama.service.plist文件内容刪掉就可以了
@sunflya4372 19 дней назад
模型文件怎么挂到外置硬盘呢
@milaone 19 дней назад
我记得可以改模型目录，你搜一下，但是模型放外置除非你外置式usb4的，否则影响速度啊
@zhouyangbo4498 Месяц назад
但很多AIGC 都基于GPU
@san2888 Месяц назад ⁺²
能不能使用 LM studio 部署 llama 3.2 vision 11B，能开一节课教导一下就好了， LM studio的UI比较好，还支持导入文件
@milaone Месяц назад
嗯安排了，这两天腰椎间盘犯了，卧床了，稍等吧
@yun-chenyen2834 28 дней назад
請問我現在用多RTX顯卡約50GB顯存的 PC，換成m4 pro Mac mini 64 GB，跑32b LLM體驗會比較好嗎？
@milaone 28 дней назад ⁺¹
目前看应该是50g的n卡推理体验更好，我也是推测，我手头是16g的n卡和16g的m4,
@yun-chenyen2834 28 дней назад
@@milaone 感謝回復，因為我是用ollama，多卡顯存能載入但是運算不知道是並行運算，不過跑比較大模型的速度體驗還是不錯的。
@milaone 28 дней назад ⁺¹
@yun-chenyen2834 那就感觉50没必要换64的m4
@milaone 28 дней назад ⁺¹
@yun-chenyen2834 苹果自己的mlx框架也是在迅速成熟中，您可以看下我第三个视频关于m4大模型的，但是我感觉还是需要再成熟一些我们才可以闭眼入场，如果单从用户的角度来讲目前并不是太适合
@yun-chenyen2834 28 дней назад
@@milaone 好的，會想問m4 mac是因為功耗差距滿大的，目前PC最高大概會到1200W左右，比熱水瓶還高啊。家用電力系統，再玩下去裝5090就要多弄一套電力系統了。
@zhouyangbo4498 Месяц назад
16G 内存就够用了
@重案组曹达华-e6z Месяц назад ⁺²
看了你的视频后，我用m1pro 32+512测试了一下这几个大模型，然后把mac mini点了退货🤣
@milaone Месяц назад ⁺¹
嗯你32g如果只为了玩ai确实没必要
@paipaiwei9602 Месяц назад
@@milaone还可以玩docker 测试部署服务
@user-jw7in4bj6q Месяц назад
请问，M1 Max 64GB 可以跑多大的本地模型，运行时间如何，有推荐吗
@paradoxnonmerci8621 Месяц назад
我原本也有M1pro 16G，但看了M4 mini的参数，我也没再买m4 mini了，gpu还比不上M1 pro
@milaone Месяц назад ⁺¹
64G可以说能跑很多了啊70b都可以考虑
@waikinlam4292 Месяц назад
想看64G的M4Pro有多強😂
@yukun-thomassui3442 Месяц назад
128g de M4PRO, 是可以跑llama的3.1（或者3.2) 70B。但是nvidia的显卡不行，显存太小
@milaone Месяц назад
对啊，nvdia显卡哪有那么大显存的普遍也就是80g的算比较大了吧
@大支爺 Месяц назад
小白別亂答，我用4090跑70b很容易！
@yukun-thomassui3442 Месяц назад
@@大支爺说错了，是405B
@yougikou Месяц назад
第一次运行加载模型后，第二次会快一点吗？
@milaone Месяц назад
会的
@大支爺 Месяц назад ⁺²
3070都比它快不只一倍，一票孫子还说它能把4090干翻，搞笑，我的PC直接跑70b以上模型至少都50~过百tokens，这货才能跑几个b的模型.
@一个小流氓 Месяц назад
功耗呢？
@paipaiwei9602 Месяц назад ⁺¹
谢谢分享我准备退了换个大一点的内存
@milaone Месяц назад
不客气您
@colskisabastian1458 Месяц назад ⁺²
千问是真难用，坑人。我现在用开复老哥的Yi
@usjinbao5005 Месяц назад
你部署千问干啥，直接官方的大模型都免费用
@milaone Месяц назад
免费也有次数的吧，不过我现在基本就只用gemma2了，千问一般般了，拉一个做个速度对比
@usjinbao5005 Месяц назад
@ 通义千问擅长编程代码相关
@woodfanr Месяц назад
安排安排多多安排
@c2h2c2h210 Месяц назад
还是太慢，还不如一个2080ti 22GB
@milaone Месяц назад
别着急，后面还有后续
@Harry_Zh Месяц назад
一会儿显存、一会儿内存，我糊涂
@milaone Месяц назад
统一内存，显存内存一样滴
@Harry_Zh Месяц назад
@ 谢。但内存不能全部分配当显存使用吧。
@milaone Месяц назад
@Harry_Zh 对啊我说了，要分出来运行内存
@loveyouwang1201 Месяц назад
求一个教程