Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
王老师,想请教一下,有办法直接用区域网在另一台PC存取Mac 上的Open WebUI, 从而间接操作Mac 上的Ollama吗? 🙏🏻
先感谢您的打赏!感谢支持哈,可以的,另一台机器部署Open WebUI直接通过api方式访问ollama就可以,后面一个视频我介绍了lm studio效率比ollama好一点,也同样支持api调用
可能你没接触过Linux。这里可以把Mac当作一台服务器,一般默认的可访问webui的网络范围是127.0.0.1(也就是本机,或者叫localhost),在这里将可访问地址改成你所在的局域网网段(一般是192.168.xxx.0),或者更大的范围0.0.0.0,也就是地球上有ipv4的人都可以访问你的webui(当然还需要你的服务运营商允许,还有前提是你有公网IP),同时打开webui的某个端口供其他人访问,当然最后你还有让mac的防火墙开放你的这个端口允许他人访问。
@@chicohan8407 有用Ubuntu 架站,但不熟悉Mac, 也不是电脑专业的😅
就是相当于一个http服务来访问
我等这种视频很久了。显存与模型参数大小的关系,M系列处理器的 LLM 速度测试,以及最重要的,苹果 M 系列处理器,因为有统一内存,真的对于这种高 VRAM 需求的 AI 使用场景下,是否对于 NVIDIA 有优势。
他的16虽然可以等同于16显存用,但是27b我的n卡可跑,不管快慢吧,m4跑不动,还是得有几个g给系统运行内存
@@milaone是处理器的问题还是显存的问题
@@milaone 不可能16G都能给GPU使用,GPU能使用 75%统一内存就不错了
费心了,赞~
就等这期视频了
感謝您的分享 還未接觸過相關的功能 很想玩看看 正考慮著是否買24/32gb記憶體的m4 mini來運作ollama有幾個問題能否解惑 1. 如果需要跑stable diffusion相關的內容 16g本身是否夠用 ? 2. 如果都要提升至24/32gb記憶體的話 是否該換上m4 pro 效能也會有明顯的大幅提升 ? 感謝
这个实测有很大的坑,每次提问必须清空之前的聊天记录才是实际时间。因为上下文的长度是直接影响计算速度的。
没懂
@@milaone模型的运行速度和对话所有字符长度(总字数)成正比。越长的上下文,速度就会越慢。这些后面测试的模型会把前面测试的所有字都合在一起(很长)。会比新对话的速度慢很多
可以测试同一个模型,多次问同一个问题,回发现速度越来越慢
弄了好了,谢谢哥
心里有数了,感谢老王
嗯嗯,我的目的就是大家看看别被忽悠了,跑分的,渲染的,看跑分排行的,没有用,16g买回来到底能干个啥。啥效率
恭贺老王收到新玩具
我ollama安装在服务器上,我在本机安装了open-webui,研究下半天还是没有用本地open-webui连接到服务器上的ollama安装的模型
设置->管理员设置->外部链接
一直用 m pro 系列订制 mini 做 llm 服务器,32g 够了
我自己是使用DIFY這個架構,他有一個很棒的點是他可以做工作流~
嗯DIFY有机会我也可以介绍一下,多谢提醒
前排
请问,公有云上的模型调用十分方便,也效果更好,那么这种本地模型对个人开发者来说有什么作用啊???为何这么多人都在搞这个呢?
自己搭建就有不限量的api可以调用了,而且,是某个专业特定的大模型,可以调校到完美
公交地铁挺好,你为啥要开车
套壳教程快出吧😁
正在安排中
@@milaone 快快滴
等你 comfy ui 测试结果, 加油!
套壳软件怎么装?🥲
我安排
感谢!🙏
不客气您
继续更新咯
👌
期待老王的M4 mini 更多使用场景的探索。 可以做一个系列来搞。
是的我是这么打算的,各种咱都实际跑跑,能玩的不能玩的,主打一个折腾无边界,哈哈
还可以了。
你好,我想问一下,本地运行大模型对比像chart GPT订阅版有什么优势,看起来速度也不快,精度也不一定更好
也不是不快,你可以关注后续视频,有更好更适合M系列芯片的方案,本地模型对做一些基础的分析或者数据整理精度足够用,但是本地就保证了分析数据的安全性,咱分析个班级成绩单传给厂商也就传了,如果是企业里的数据呢,他宁愿不分析也不会传的
有没有机会测试一下 LM studio,现在支持 MLX 框架了,这个是苹果大模型框架,据说配合 M 系列芯片会更快
可以,我最近也在看说llama.cpp效率好,尤其是coreml支持
@@milaone十分期待
你好,在输入最后一行代码出错(launchctl load ~/Library/LaunchAgents/com.user.ollama.service.plist);提示Load failed: 5: Input/output errorTry running `launchctl bootstrap` as root for richer errors。用本地的iP无法登陆,只能用127.0.0.1登陆。请问如何处理?谢谢
试试sudo launchctl bootstrap system ~/Library/LaunchAgents/com.user.ollama.service.plist
把这一行删了就行 #com.user.ollama.service.plist文件内容
@ydm9481 哦注释拷贝进去了
@ydm9481 我回头去博客改一下
第三步配置文件中的第一行#com.user.ollama.service.plist文件内容 刪掉就可以了
模型文件怎么挂到外置硬盘呢
我记得可以改模型目录,你搜一下,但是模型放外置除非你外置式usb4的,否则影响速度啊
但很多AIGC 都基于GPU
能不能使用 LM studio 部署 llama 3.2 vision 11B, 能开一节课教导一下就好了, LM studio的UI比较好,还支持导入文件
嗯安排了,这两天腰椎间盘犯了,卧床了,稍等吧
請問我現在用多RTX顯卡約50GB顯存的 PC,換成m4 pro Mac mini 64 GB,跑32b LLM體驗會比較好嗎?
目前看应该是50g的n卡推理体验更好,我也是推测,我手头是16g的n卡和16g的m4,
@@milaone 感謝回復,因為我是用ollama,多卡顯存能載入但是運算不知道是並行運算,不過跑比較大模型的速度體驗還是不錯的。
@yun-chenyen2834 那就感觉50没必要换64的m4
@yun-chenyen2834 苹果自己的mlx框架也是在迅速成熟中,您可以看下我第三个视频关于m4大模型的,但是我感觉还是需要再成熟一些我们才可以闭眼入场,如果单从用户的角度来讲目前并不是太适合
@@milaone 好的,會想問m4 mac是因為功耗差距滿大的,目前PC最高大概會到1200W左右,比熱水瓶還高啊。家用電力系統,再玩下去裝5090就要多弄一套電力系統了。
16G 内存就够用了
看了你的视频后,我用m1pro 32+512测试了一下这几个大模型,然后把mac mini点了退货🤣
嗯你32g如果只为了玩ai确实没必要
@@milaone还可以玩docker 测试部署服务
请问,M1 Max 64GB 可以跑多大的本地模型,运行时间如何,有推荐吗
我原本也有M1pro 16G,但看了M4 mini的参数,我也没再买m4 mini了,gpu还比不上M1 pro
64G可以说能跑很多了啊70b都可以考虑
想看64G的M4Pro有多強😂
128g de M4PRO, 是可以跑llama的3.1(或者3.2) 70B。但是nvidia的显卡不行,显存太小
对啊,nvdia显卡哪有那么大显存的普遍也就是80g的算比较大了吧
小白別亂答,我用4090跑70b很容易!
@@大支爺 说错了,是405B
第一次运行加载模型后,第二次会快一点吗?
会的
3070都比它快不只一倍,一票孫子还说它能把4090干翻,搞笑,我的PC直接跑70b以上模型至少都50~过百tokens,这货才能跑几个b的模型.
功耗呢?
谢谢分享 我准备退了换个大一点的内存
千问是真难用,坑人。我现在用开复老哥的Yi
你部署千问干啥,直接官方的大模型都免费用
免费也有次数的吧,不过我现在基本就只用gemma2了,千问一般般了,拉一个做个速度对比
@ 通义千问擅长编程代码相关
安排安排多多安排
还是太慢,还不如一个2080ti 22GB
别着急,后面还有后续
一会儿显存、一会儿内存,我糊涂
统一内存,显存内存一样滴
@ 谢。但内存不能全部分配当显存使用吧。
@Harry_Zh 对啊我说了,要分出来运行内存
求一个教程
王老师,想请教一下,有办法直接用区域网在另一台PC存取Mac 上的Open WebUI, 从而间接操作Mac 上的Ollama吗? 🙏🏻
先感谢您的打赏!感谢支持哈,可以的,另一台机器部署Open WebUI直接通过api方式访问ollama就可以,后面一个视频我介绍了lm studio效率比ollama好一点,也同样支持api调用
可能你没接触过Linux。这里可以把Mac当作一台服务器,一般默认的可访问webui的网络范围是127.0.0.1(也就是本机,或者叫localhost),在这里将可访问地址改成你所在的局域网网段(一般是192.168.xxx.0),或者更大的范围0.0.0.0,也就是地球上有ipv4的人都可以访问你的webui(当然还需要你的服务运营商允许,还有前提是你有公网IP),同时打开webui的某个端口供其他人访问,当然最后你还有让mac的防火墙开放你的这个端口允许他人访问。
@@chicohan8407 有用Ubuntu 架站,但不熟悉Mac, 也不是电脑专业的😅
就是相当于一个http服务来访问
我等这种视频很久了。显存与模型参数大小的关系,M系列处理器的 LLM 速度测试,以及最重要的,苹果 M 系列处理器,因为有统一内存,真的对于这种高 VRAM 需求的 AI 使用场景下,是否对于 NVIDIA 有优势。
他的16虽然可以等同于16显存用,但是27b我的n卡可跑,不管快慢吧,m4跑不动,还是得有几个g给系统运行内存
@@milaone是处理器的问题还是显存的问题
@@milaone 不可能16G都能给GPU使用,GPU能使用 75%统一内存就不错了
费心了,赞~
就等这期视频了
感謝您的分享 還未接觸過相關的功能 很想玩看看 正考慮著是否買24/32gb記憶體的m4 mini來運作ollama
有幾個問題能否解惑
1. 如果需要跑stable diffusion相關的內容 16g本身是否夠用 ?
2. 如果都要提升至24/32gb記憶體的話 是否該換上m4 pro 效能也會有明顯的大幅提升 ?
感謝
这个实测有很大的坑,每次提问必须清空之前的聊天记录才是实际时间。因为上下文的长度是直接影响计算速度的。
没懂
@@milaone模型的运行速度和对话所有字符长度(总字数)成正比。越长的上下文,速度就会越慢。
这些后面测试的模型会把前面测试的所有字都合在一起(很长)。会比新对话的速度慢很多
可以测试同一个模型,多次问同一个问题,回发现速度越来越慢
弄了好了,谢谢哥
心里有数了,感谢老王
嗯嗯,我的目的就是大家看看别被忽悠了,跑分的,渲染的,看跑分排行的,没有用,16g买回来到底能干个啥。啥效率
恭贺老王收到新玩具
我ollama安装在服务器上,我在本机安装了open-webui,研究下半天还是没有用本地open-webui连接到服务器上的ollama安装的模型
设置->管理员设置->外部链接
一直用 m pro 系列订制 mini 做 llm 服务器,32g 够了
我自己是使用DIFY這個架構,他有一個很棒的點是他可以做工作流~
嗯DIFY有机会我也可以介绍一下,多谢提醒
前排
请问,公有云上的模型调用十分方便,也效果更好,那么这种本地模型对个人开发者来说有什么作用啊???为何这么多人都在搞这个呢?
自己搭建就有不限量的api可以调用了,而且,是某个专业特定的大模型,可以调校到完美
公交地铁挺好,你为啥要开车
套壳教程快出吧😁
正在安排中
@@milaone 快快滴
等你 comfy ui 测试结果, 加油!
套壳软件怎么装?🥲
我安排
感谢!🙏
不客气您
继续更新咯
👌
期待老王的M4 mini 更多使用场景的探索。 可以做一个系列来搞。
是的我是这么打算的,各种咱都实际跑跑,能玩的不能玩的,主打一个折腾无边界,哈哈
还可以了。
你好,我想问一下,本地运行大模型对比像chart GPT订阅版有什么优势,看起来速度也不快,精度也不一定更好
也不是不快,你可以关注后续视频,有更好更适合M系列芯片的方案,本地模型对做一些基础的分析或者数据整理精度足够用,但是本地就保证了分析数据的安全性,咱分析个班级成绩单传给厂商也就传了,如果是企业里的数据呢,他宁愿不分析也不会传的
有没有机会测试一下 LM studio,现在支持 MLX 框架了,这个是苹果大模型框架,据说配合 M 系列芯片会更快
可以,我最近也在看说llama.cpp效率好,尤其是coreml支持
@@milaone十分期待
你好,在输入最后一行代码出错(launchctl load ~/Library/LaunchAgents/com.user.ollama.service.plist);提示Load failed: 5: Input/output error
Try running `launchctl bootstrap` as root for richer errors。用本地的iP无法登陆,只能用127.0.0.1登陆。请问如何处理?谢谢
试试
sudo launchctl bootstrap system ~/Library/LaunchAgents/com.user.ollama.service.plist
把这一行删了就行 #com.user.ollama.service.plist文件内容
@ydm9481 哦注释拷贝进去了
@ydm9481 我回头去博客改一下
第三步配置文件中的第一行#com.user.ollama.service.plist文件内容 刪掉就可以了
模型文件怎么挂到外置硬盘呢
我记得可以改模型目录,你搜一下,但是模型放外置除非你外置式usb4的,否则影响速度啊
但很多AIGC 都基于GPU
能不能使用 LM studio 部署 llama 3.2 vision 11B, 能开一节课教导一下就好了, LM studio的UI比较好,还支持导入文件
嗯安排了,这两天腰椎间盘犯了,卧床了,稍等吧
請問我現在用多RTX顯卡約50GB顯存的 PC,換成m4 pro Mac mini 64 GB,跑32b LLM體驗會比較好嗎?
目前看应该是50g的n卡推理体验更好,我也是推测,我手头是16g的n卡和16g的m4,
@@milaone 感謝回復,因為我是用ollama,多卡顯存能載入但是運算不知道是並行運算,不過跑比較大模型的速度體驗還是不錯的。
@yun-chenyen2834 那就感觉50没必要换64的m4
@yun-chenyen2834 苹果自己的mlx框架也是在迅速成熟中,您可以看下我第三个视频关于m4大模型的,但是我感觉还是需要再成熟一些我们才可以闭眼入场,如果单从用户的角度来讲目前并不是太适合
@@milaone 好的,會想問m4 mac是因為功耗差距滿大的,目前PC最高大概會到1200W左右,比熱水瓶還高啊。家用電力系統,再玩下去裝5090就要多弄一套電力系統了。
16G 内存就够用了
看了你的视频后,我用m1pro 32+512测试了一下这几个大模型,然后把mac mini点了退货🤣
嗯你32g如果只为了玩ai确实没必要
@@milaone还可以玩docker 测试部署服务
请问,M1 Max 64GB 可以跑多大的本地模型,运行时间如何,有推荐吗
我原本也有M1pro 16G,但看了M4 mini的参数,我也没再买m4 mini了,gpu还比不上M1 pro
64G可以说能跑很多了啊70b都可以考虑
想看64G的M4Pro有多強😂
128g de M4PRO, 是可以跑llama的3.1(或者3.2) 70B。但是nvidia的显卡不行,显存太小
对啊,nvdia显卡哪有那么大显存的普遍也就是80g的算比较大了吧
小白別亂答,我用4090跑70b很容易!
@@大支爺 说错了,是405B
第一次运行加载模型后,第二次会快一点吗?
会的
3070都比它快不只一倍,一票孫子还说它能把4090干翻,搞笑,我的PC直接跑70b以上模型至少都50~过百tokens,这货才能跑几个b的模型.
功耗呢?
谢谢分享 我准备退了换个大一点的内存
不客气您
千问是真难用,坑人。我现在用开复老哥的Yi
你部署千问干啥,直接官方的大模型都免费用
免费也有次数的吧,不过我现在基本就只用gemma2了,千问一般般了,拉一个做个速度对比
@ 通义千问擅长编程代码相关
安排安排多多安排
还是太慢,还不如一个2080ti 22GB
别着急,后面还有后续
一会儿显存、一会儿内存,我糊涂
统一内存,显存内存一样滴
@ 谢。但内存不能全部分配当显存使用吧。
@Harry_Zh 对啊我说了,要分出来运行内存
求一个教程