Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
RUclips会员:ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4ZwjoinPatreon:www.patreon.com/newtype_ai知识星球:t.zsxq.com/19IaNz5wK
关于使用本地大模型方面,试了Ollama+Mistral+Nomic,通过github上的一些tricks可以构建索引,但是query的时候本地模型好像不能生成json格式的responds,导致报错;后面估计GraphRag更新之后可能会解决。 但是本地模型效果可能还是能力有限
謝謝你的分享。原本也想試試這個,看來你點出了一個很關鍵的問題:即使改善了精確度,可是耗費成本絕對是需要被考慮的,不管是個人用或企業用。
等token费用再降一降,或者改用GPT-3.5,也许可行
你使用本地模型跑,慢的原因应该不是模型参数体量的问题,大概率是你本地GPU估计不行,token吐的慢
一本書summary30分鐘+11美金不是問題,這個成本還是比真人便宜太多了。想像一下一間出版社直接用這個來審內容,一天一個api key可以500美金審完48本書,比工讀生還便宜
但是如果要對書中內容進行多個問答,就會是很嚇人的成本了
在我这个例子里,索引大概要10美元
@@chungrandy780昂貴是在建索引,問答的花費其實還好
GPT-4o mini這不就來了?
說得太好了...以前用RAG看他撈出來的資料都很無奈
能采用 hosted llama3 70b 比如deepinfra 平台,成本低也很快
491 次 api 调用以后生成知识图谱,那之后的问答应该不是一次十几美元吧?生成完图谱之后就没有这么高的成本了了吧?
确实,所以可以生成图谱然后卖图谱?
10美元建立索引。关于低成本使用方法,我昨晚发了视频,在RUclips会员频道
没事, 我有挺多GPU的, 大概有十来个吧. 还有128GB mbp, 训练跑不动还跑不动推理么. 我一直想自己用图计算的方式解决遍历内容的问题, 但是我就知道做了也是白费功夫, 因为有人会给我喂饭的, 等的就是这一天.
而且还可以退回去用3.5嘛.
哈哈。最好一句戳中我了,每次都想有人给我喂饭,所以现在天天调包。
@@simonren4890 没事,我是搞程序语言理论和代数拓扑的,还没见过我不能准确把握性质的包,这种包理论上就不可能存在。
@@3a146 厉害啊,我太了解代数拓扑,只能大概知道概念,它是不是图计算的源头基础?
@@simonren4890 我这么说吧, 代数拓扑回答的是“能不能对齐颗粒度”的问题. 图论回答的是“颗粒和颗粒之间的关系怎么回事”的问题. 对齐颗粒度的时候可以用很多细的去解释一个粗的, 图论的颗粒基本都是对称的, 没有质的差别. 当然代数拓扑的“颗粒度”实际上叫做代数不变量, 典型的叫做基本群, 是用套圈去试空间里面的孔洞那么试出来的, 如果有孔洞你的套圈收缩的时候行为就会不一样. 因为不同的套圈能够串起来, 形成新的套圈, 这样就是代数了. 考虑一个空间对象, 这样试出来不同的元素服从特定群的规则. 然后如果两个空间的群同构, 那它们俩就可以通过对应套圈达到“对齐颗粒度”的目的, 然后它们同伦等价, 属于同一个同伦等价类. 另外, 同伦基本群也不是唯一的代数不变量.
可否区分一下建立索引和单次检索的开销(时间,金钱)?谢谢。11美元如果是建立graph和rag的开销,之后单次检索能控制在cent数量级也不是不能忍。
格式只限制txt fav,把csv丟進去也不理解,一樣有答非所問狀況, 用gpt4o
表格这种,最终估计只能多模态处理
我跑教程的时候用的就是deepseek,搞不好比本地模型成本还低。。。
ollama + mistral linux 本地成功,问题是query的时候很慢,200 token花了140s。另外一个问题是不知道是不是我配置有问题,ollama只能用到一块GPU。机器是4x A100 40GB
请问试过geema2:27b没,感觉中文它更强
Ollama好像是自动分配CPU和GPU
@@huanyihe777 我在docker部署的ollama总是会抽筋,时不时用cpu,昨天干脆直接部署,不跑docker的ollama稳定多了,两块显卡占用正常。
11美元會不會是生成entity,只需跑一次而已,後續每問一次比較便宜?
索引大概要10美元
之前用llama-index做过类似的事情,发现graph类型的索引在后期维护的时候非常困难,尤其是跨文档的关联还有索引删除的时候,不知道是不是我对于graph索引的理解不到位
这确实是大问题。当文档、数据集发生变化时,又得再来一遍索引创建,很头疼。
听你讲的感觉,目前确实用不了这个玩意,等等新的好用的:)
我刚看了一个老哥用ollama和GraphRAG一起
Ollama和LM Studio,各种组合都试过了,不行。不知道是不是Windows系统的原因
别人在Mac、Ubuntu成功了
这个成本是分两部分的吧,建立索引多少消耗,单次查询多少消耗,能不能分开给一下数据?如果大头在建立索引,而单次查询的边际成本可控的话,我觉得这个还是比较有前途的
@@huanyihe777 多谢分享👍
會這麼貴的另外一個原因是因為你用了gpt4-turbo而不是gpt-4o
用gpt-4o降一半也还是贵
@@huanyihe777 所以mini来了
本地模型网上是有成功的,但我用一样的方法还是报错,我最多示例文档跑了一个小时,看了下运行的时候显卡很多时候都要跑100%,估计是性能不够赶不上生成速度就报错了,估计上4090应该就可以了
4090用户告诉你,文件大了一样卡😂,不过我折腾了两个晚上,找到了一个替代方案,用glm 4的本地模型再加glm的网上的embedding api。
@@leonwu355 回去试试,这样成本确实低了很多,就不知道3060能不能跑起来了
@@wumitiyo9754 问题不大,也可以deepseek 替代
我特意换了小文档,到了嵌入阶段一样报错,放弃了
@@huanyihe777 实测用3060的显卡,和ollama的gemma2加上lm-studio的nomic-embed-text-v1.5.Q5_K_M.gguf嵌入是可以的,我把示例的书删减到8万字,花了一个多小时。这个速度太感人,换个好点的显卡应该可以处理百万字数的书了。
刷老闆的卡就不心疼了
用豆包?如果公司注册,会送50亿token
现在不是贵的问题,只要真好用肯定有人付钱。
现在的问题是,太贵了
“好用”的意思还是性价比。 如果“好用”到能预测明天那只股票会涨,肯定11美元不是事,而如果只是总结小说主旨,11美元还是太贵了。
11美元只是RAG了一本书,企业级需要的资料体量应该是这个万倍以上吧一次query需要11万?那必须要很好用了
早買早享受,晚買享折扣
ollma 的 llama3 做出来效果好吗
肯定是不如GPT-4的,毕竟性能摆在那里。
很認同,其實最終就是要走localLLM,但目前GraphRAG只能靠gpt4 api key
3.5不是比較便宜 為什麼要用4
@@manyes7577 能力完全在不同次元
@@manyes7577 跑這種演算法都要api key喔 只有網頁版的聊天才不用付費另外 3.5和4o解決能力在不同次元
@@manyes7577 因為能力完全在不同的次元
@huanyihe777 能不能把11美刀的成分拆分成创建和推理两部分,然后分享一下? 🙏❤现在2B的使用场景很多是比较固定的知识库,创建成本高一点是可以接受的。
知识库只需要创建一次。推理可以反复用
API 换成 gemini 1.5 flash 会快很多。而且便宜很多。 但我不知道他支不支持gemini
RUclips会员:ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4Zwjoin
Patreon:www.patreon.com/newtype_ai
知识星球:t.zsxq.com/19IaNz5wK
关于使用本地大模型方面,试了Ollama+Mistral+Nomic,通过github上的一些tricks可以构建索引,但是query的时候本地模型好像不能生成json格式的responds,导致报错;后面估计GraphRag更新之后可能会解决。 但是本地模型效果可能还是能力有限
謝謝你的分享。原本也想試試這個,看來你點出了一個很關鍵的問題:即使改善了精確度,可是耗費成本絕對是需要被考慮的,不管是個人用或企業用。
等token费用再降一降,或者改用GPT-3.5,也许可行
你使用本地模型跑,慢的原因应该不是模型参数体量的问题,大概率是你本地GPU估计不行,token吐的慢
一本書summary30分鐘+11美金不是問題,這個成本還是比真人便宜太多了。想像一下一間出版社直接用這個來審內容,一天一個api key可以500美金審完48本書,比工讀生還便宜
但是如果要對書中內容進行多個問答,就會是很嚇人的成本了
在我这个例子里,索引大概要10美元
@@chungrandy780昂貴是在建索引,問答的花費其實還好
GPT-4o mini這不就來了?
說得太好了...以前用RAG看他撈出來的資料都很無奈
能采用 hosted llama3 70b 比如deepinfra 平台,成本低也很快
491 次 api 调用以后生成知识图谱,那之后的问答应该不是一次十几美元吧?生成完图谱之后就没有这么高的成本了了吧?
确实,所以可以生成图谱然后卖图谱?
10美元建立索引。关于低成本使用方法,我昨晚发了视频,在RUclips会员频道
没事, 我有挺多GPU的, 大概有十来个吧. 还有128GB mbp, 训练跑不动还跑不动推理么. 我一直想自己用图计算的方式解决遍历内容的问题, 但是我就知道做了也是白费功夫, 因为有人会给我喂饭的, 等的就是这一天.
而且还可以退回去用3.5嘛.
哈哈。最好一句戳中我了,每次都想有人给我喂饭,所以现在天天调包。
@@simonren4890 没事,我是搞程序语言理论和代数拓扑的,还没见过我不能准确把握性质的包,这种包理论上就不可能存在。
@@3a146 厉害啊,我太了解代数拓扑,只能大概知道概念,它是不是图计算的源头基础?
@@simonren4890 我这么说吧, 代数拓扑回答的是“能不能对齐颗粒度”的问题. 图论回答的是“颗粒和颗粒之间的关系怎么回事”的问题. 对齐颗粒度的时候可以用很多细的去解释一个粗的, 图论的颗粒基本都是对称的, 没有质的差别. 当然代数拓扑的“颗粒度”实际上叫做代数不变量, 典型的叫做基本群, 是用套圈去试空间里面的孔洞那么试出来的, 如果有孔洞你的套圈收缩的时候行为就会不一样. 因为不同的套圈能够串起来, 形成新的套圈, 这样就是代数了. 考虑一个空间对象, 这样试出来不同的元素服从特定群的规则. 然后如果两个空间的群同构, 那它们俩就可以通过对应套圈达到“对齐颗粒度”的目的, 然后它们同伦等价, 属于同一个同伦等价类. 另外, 同伦基本群也不是唯一的代数不变量.
可否区分一下建立索引和单次检索的开销(时间,金钱)?谢谢。11美元如果是建立graph和rag的开销,之后单次检索能控制在cent数量级也不是不能忍。
10美元建立索引。关于低成本使用方法,我昨晚发了视频,在RUclips会员频道
格式只限制txt fav,把csv丟進去也不理解,一樣有答非所問狀況, 用gpt4o
表格这种,最终估计只能多模态处理
我跑教程的时候用的就是deepseek,搞不好比本地模型成本还低。。。
ollama + mistral linux 本地成功,问题是query的时候很慢,200 token花了140s。另外一个问题是不知道是不是我配置有问题,ollama只能用到一块GPU。机器是4x A100 40GB
请问试过geema2:27b没,感觉中文它更强
Ollama好像是自动分配CPU和GPU
@@huanyihe777 我在docker部署的ollama总是会抽筋,时不时用cpu,昨天干脆直接部署,不跑docker的ollama稳定多了,两块显卡占用正常。
11美元會不會是生成entity,只需跑一次而已,後續每問一次比較便宜?
索引大概要10美元
之前用llama-index做过类似的事情,发现graph类型的索引在后期维护的时候非常困难,尤其是跨文档的关联还有索引删除的时候,不知道是不是我对于graph索引的理解不到位
这确实是大问题。当文档、数据集发生变化时,又得再来一遍索引创建,很头疼。
听你讲的感觉,目前确实用不了这个玩意,等等新的好用的:)
我刚看了一个老哥用ollama和GraphRAG一起
Ollama和LM Studio,各种组合都试过了,不行。不知道是不是Windows系统的原因
别人在Mac、Ubuntu成功了
这个成本是分两部分的吧,建立索引多少消耗,单次查询多少消耗,能不能分开给一下数据?如果大头在建立索引,而单次查询的边际成本可控的话,我觉得这个还是比较有前途的
在我这个例子里,索引大概要10美元
@@huanyihe777 多谢分享👍
會這麼貴的另外一個原因是因為你用了gpt4-turbo而不是gpt-4o
用gpt-4o降一半也还是贵
@@huanyihe777 所以mini来了
本地模型网上是有成功的,但我用一样的方法还是报错,我最多示例文档跑了一个小时,看了下运行的时候显卡很多时候都要跑100%,估计是性能不够赶不上生成速度就报错了,估计上4090应该就可以了
4090用户告诉你,文件大了一样卡😂,不过我折腾了两个晚上,找到了一个替代方案,用glm 4的本地模型再加glm的网上的embedding api。
@@leonwu355 回去试试,这样成本确实低了很多,就不知道3060能不能跑起来了
@@wumitiyo9754 问题不大,也可以deepseek 替代
我特意换了小文档,到了嵌入阶段一样报错,放弃了
@@huanyihe777 实测用3060的显卡,和ollama的gemma2加上lm-studio的nomic-embed-text-v1.5.Q5_K_M.gguf嵌入是可以的,我把示例的书删减到8万字,花了一个多小时。这个速度太感人,换个好点的显卡应该可以处理百万字数的书了。
刷老闆的卡就不心疼了
用豆包?如果公司注册,会送50亿token
现在不是贵的问题,只要真好用肯定有人付钱。
现在的问题是,太贵了
“好用”的意思还是性价比。 如果“好用”到能预测明天那只股票会涨,肯定11美元不是事,而如果只是总结小说主旨,11美元还是太贵了。
11美元只是RAG了一本书,企业级需要的资料体量应该是这个万倍以上吧
一次query需要11万?那必须要很好用了
早買早享受,晚買享折扣
ollma 的 llama3 做出来效果好吗
肯定是不如GPT-4的,毕竟性能摆在那里。
很認同,其實最終就是要走localLLM,但目前GraphRAG只能靠gpt4 api key
3.5不是比較便宜 為什麼要用4
@@manyes7577 能力完全在不同次元
@@manyes7577 跑這種演算法都要api key喔 只有網頁版的聊天才不用付費
另外 3.5和4o解決能力在不同次元
@@manyes7577 因為能力完全在不同的次元
@huanyihe777 能不能把11美刀的成分拆分成创建和推理两部分,然后分享一下? 🙏❤
现在2B的使用场景很多是比较固定的知识库,创建成本高一点是可以接受的。
知识库只需要创建一次。推理可以反复用
在我这个例子里,索引大概要10美元
API 换成 gemini 1.5 flash 会快很多。而且便宜很多。 但我不知道他支不支持gemini