GraphRAG：很好，但很贵！

huangyihe

Просмотров 27 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 11 янв 2025

Комментарии • 76

@huanyihe777 6 месяцев назад ⁺²
RUclips会员：ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4Zwjoin
Patreon：www.patreon.com/newtype_ai
知识星球：t.zsxq.com/19IaNz5wK
@LordRayleigh55 6 месяцев назад ⁺⁶
关于使用本地大模型方面，试了Ollama+Mistral+Nomic，通过github上的一些tricks可以构建索引，但是query的时候本地模型好像不能生成json格式的responds，导致报错；后面估计GraphRag更新之后可能会解决。但是本地模型效果可能还是能力有限
@AlangHsu 6 месяцев назад ⁺⁸
謝謝你的分享。原本也想試試這個，看來你點出了一個很關鍵的問題：即使改善了精確度，可是耗費成本絕對是需要被考慮的，不管是個人用或企業用。
@huanyihe777 6 месяцев назад ⁺¹
等token费用再降一降，或者改用GPT-3.5，也许可行
@cocoamax8100 6 месяцев назад ⁺⁷
你使用本地模型跑，慢的原因应该不是模型参数体量的问题，大概率是你本地GPU估计不行，token吐的慢
@Sulzbach-dk7ov 6 месяцев назад ⁺¹⁰
一本書summary30分鐘+11美金不是問題，這個成本還是比真人便宜太多了。想像一下一間出版社直接用這個來審內容，一天一個api key可以500美金審完48本書，比工讀生還便宜
@chungrandy780 6 месяцев назад ⁺¹
但是如果要對書中內容進行多個問答，就會是很嚇人的成本了
@huanyihe777 6 месяцев назад ⁺³
在我这个例子里，索引大概要10美元
@rogerroan7583 26 дней назад
@@chungrandy780昂貴是在建索引，問答的花費其實還好
@farleylai1102 5 месяцев назад ⁺³
GPT-4o mini這不就來了？
@Design-Enjoyment-Happiness 6 месяцев назад ⁺²
說得太好了...以前用RAG看他撈出來的資料都很無奈
@adrenfu6238 6 месяцев назад ⁺¹
能采用 hosted llama3 70b 比如deepinfra 平台，成本低也很快
@jy03189211 5 месяцев назад ⁺³
491 次 api 调用以后生成知识图谱，那之后的问答应该不是一次十几美元吧？生成完图谱之后就没有这么高的成本了了吧？
@holsetyhuang2435 5 месяцев назад
确实，所以可以生成图谱然后卖图谱？
@huanyihe777 5 месяцев назад
10美元建立索引。关于低成本使用方法，我昨晚发了视频，在RUclips会员频道
@3a146 6 месяцев назад ⁺²¹
没事, 我有挺多GPU的, 大概有十来个吧. 还有128GB mbp, 训练跑不动还跑不动推理么. 我一直想自己用图计算的方式解决遍历内容的问题, 但是我就知道做了也是白费功夫, 因为有人会给我喂饭的, 等的就是这一天.
@3a146 6 месяцев назад ⁺¹
而且还可以退回去用3.5嘛.
@simonren4890 6 месяцев назад
哈哈。最好一句戳中我了，每次都想有人给我喂饭，所以现在天天调包。
@3a146 6 месяцев назад ⁺¹
@@simonren4890 没事，我是搞程序语言理论和代数拓扑的，还没见过我不能准确把握性质的包，这种包理论上就不可能存在。
@simonren4890 6 месяцев назад
@@3a146 厉害啊，我太了解代数拓扑，只能大概知道概念，它是不是图计算的源头基础？
@3a146 6 месяцев назад
@@simonren4890 我这么说吧, 代数拓扑回答的是“能不能对齐颗粒度”的问题. 图论回答的是“颗粒和颗粒之间的关系怎么回事”的问题. 对齐颗粒度的时候可以用很多细的去解释一个粗的, 图论的颗粒基本都是对称的, 没有质的差别. 当然代数拓扑的“颗粒度”实际上叫做代数不变量, 典型的叫做基本群, 是用套圈去试空间里面的孔洞那么试出来的, 如果有孔洞你的套圈收缩的时候行为就会不一样. 因为不同的套圈能够串起来, 形成新的套圈, 这样就是代数了. 考虑一个空间对象, 这样试出来不同的元素服从特定群的规则. 然后如果两个空间的群同构, 那它们俩就可以通过对应套圈达到“对齐颗粒度”的目的, 然后它们同伦等价, 属于同一个同伦等价类. 另外, 同伦基本群也不是唯一的代数不变量.
@bittergourd 5 месяцев назад ⁺¹
可否区分一下建立索引和单次检索的开销（时间，金钱）？谢谢。11美元如果是建立graph和rag的开销，之后单次检索能控制在cent数量级也不是不能忍。
@huanyihe777 5 месяцев назад
10美元建立索引。关于低成本使用方法，我昨晚发了视频，在RUclips会员频道
@fish-wz4pr 6 месяцев назад ⁺¹
格式只限制txt fav,把csv丟進去也不理解，一樣有答非所問狀況, 用gpt4o
@huanyihe777 6 месяцев назад
表格这种，最终估计只能多模态处理
@chenjieY-z3q 5 месяцев назад
我跑教程的时候用的就是deepseek，搞不好比本地模型成本还低。。。
@mavershang 5 месяцев назад ⁺¹
ollama + mistral linux 本地成功，问题是query的时候很慢，200 token花了140s。另外一个问题是不知道是不是我配置有问题，ollama只能用到一块GPU。机器是4x A100 40GB
@ericxu9566 5 месяцев назад
请问试过geema2:27b没，感觉中文它更强
@huanyihe777 5 месяцев назад ⁺²
Ollama好像是自动分配CPU和GPU
@ericxu9566 5 месяцев назад
@@huanyihe777 我在docker部署的ollama总是会抽筋，时不时用cpu，昨天干脆直接部署，不跑docker的ollama稳定多了，两块显卡占用正常。
@lee1221ee 6 месяцев назад ⁺²
11美元會不會是生成entity，只需跑一次而已，後續每問一次比較便宜？
@huanyihe777 6 месяцев назад ⁺¹
索引大概要10美元
@杨浩-z2g 5 месяцев назад
之前用llama-index做过类似的事情，发现graph类型的索引在后期维护的时候非常困难，尤其是跨文档的关联还有索引删除的时候，不知道是不是我对于graph索引的理解不到位
@huanyihe777 5 месяцев назад
这确实是大问题。当文档、数据集发生变化时，又得再来一遍索引创建，很头疼。
@xinchen6512 5 месяцев назад
听你讲的感觉，目前确实用不了这个玩意，等等新的好用的：）
@zxjason 6 месяцев назад ⁺¹
我刚看了一个老哥用ollama和GraphRAG一起
@huanyihe777 6 месяцев назад
Ollama和LM Studio，各种组合都试过了，不行。不知道是不是Windows系统的原因
@huanyihe777 6 месяцев назад ⁺¹
别人在Mac、Ubuntu成功了
@richardchieng9252 6 месяцев назад
这个成本是分两部分的吧，建立索引多少消耗，单次查询多少消耗，能不能分开给一下数据？如果大头在建立索引，而单次查询的边际成本可控的话，我觉得这个还是比较有前途的
@huanyihe777 6 месяцев назад ⁺³
在我这个例子里，索引大概要10美元
@richardchieng9252 6 месяцев назад
@@huanyihe777 多谢分享👍
@呀咧呀咧 6 месяцев назад ⁺¹
會這麼貴的另外一個原因是因為你用了gpt4-turbo而不是gpt-4o
@huanyihe777 6 месяцев назад
用gpt-4o降一半也还是贵
@bittergourd 5 месяцев назад ⁺¹
@@huanyihe777 所以mini来了
@wumitiyo9754 6 месяцев назад
本地模型网上是有成功的，但我用一样的方法还是报错，我最多示例文档跑了一个小时，看了下运行的时候显卡很多时候都要跑100%，估计是性能不够赶不上生成速度就报错了，估计上4090应该就可以了
@leonwu355 6 месяцев назад
4090用户告诉你，文件大了一样卡😂，不过我折腾了两个晚上，找到了一个替代方案，用glm 4的本地模型再加glm的网上的embedding api。
@wumitiyo9754 6 месяцев назад
@@leonwu355 回去试试，这样成本确实低了很多，就不知道3060能不能跑起来了
@leonwu355 6 месяцев назад
@@wumitiyo9754 问题不大，也可以deepseek 替代
@huanyihe777 6 месяцев назад
我特意换了小文档，到了嵌入阶段一样报错，放弃了
@wumitiyo9754 6 месяцев назад
@@huanyihe777 实测用3060的显卡，和ollama的gemma2加上lm-studio的nomic-embed-text-v1.5.Q5_K_M.gguf嵌入是可以的，我把示例的书删减到8万字，花了一个多小时。这个速度太感人，换个好点的显卡应该可以处理百万字数的书了。
@rogerroan7583 6 месяцев назад ⁺¹
刷老闆的卡就不心疼了
@fivewordsgp5761 2 месяца назад
用豆包？如果公司注册，会送50亿token
@minglv 6 месяцев назад ⁺³
现在不是贵的问题，只要真好用肯定有人付钱。
@huanyihe777 6 месяцев назад ⁺⁵
现在的问题是，太贵了
@tony608 6 месяцев назад ⁺⁵
“好用”的意思还是性价比。如果“好用”到能预测明天那只股票会涨，肯定11美元不是事，而如果只是总结小说主旨，11美元还是太贵了。
@surprisedhamster5576 6 месяцев назад ⁺¹
11美元只是RAG了一本书，企业级需要的资料体量应该是这个万倍以上吧
一次query需要11万？那必须要很好用了
@rogerroan7583 6 месяцев назад ⁺²
早買早享受，晚買享折扣
@tudminer 6 месяцев назад ⁺¹
ollma 的 llama3 做出来效果好吗
@huanyihe777 6 месяцев назад
肯定是不如GPT-4的，毕竟性能摆在那里。
@HomunMage 6 месяцев назад ⁺³
很認同，其實最終就是要走localLLM，但目前GraphRAG只能靠gpt4 api key
@manyes7577 6 месяцев назад
3.5不是比較便宜為什麼要用4
@HomunMage 6 месяцев назад
@@manyes7577 能力完全在不同次元
@HomunMage 5 месяцев назад
@@manyes7577 跑這種演算法都要api key喔只有網頁版的聊天才不用付費
另外 3.5和4o解決能力在不同次元
@HomunMage 5 месяцев назад
@@manyes7577 因為能力完全在不同的次元
@tianyinhuang 6 месяцев назад ⁺²
@huanyihe777 能不能把11美刀的成分拆分成创建和推理两部分，然后分享一下？ 🙏❤
现在2B的使用场景很多是比较固定的知识库，创建成本高一点是可以接受的。
@harrydu6955 6 месяцев назад
知识库只需要创建一次。推理可以反复用
@huanyihe777 6 месяцев назад ⁺¹
在我这个例子里，索引大概要10美元
@tonyw8321 6 месяцев назад
API 换成 gemini 1.5 flash 会快很多。而且便宜很多。但我不知道他支不支持gemini

Следующие

Автовоспроизведение

GraphRAG: LLM-Derived Knowledge Graphs for RAG