GraphRAG:很好,但很贵!

Поделиться
HTML-код
  • Опубликовано: 11 янв 2025

Комментарии • 76

  • @huanyihe777
    @huanyihe777  6 месяцев назад +2

    RUclips会员:ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4Zwjoin
    Patreon:www.patreon.com/newtype_ai
    知识星球:t.zsxq.com/19IaNz5wK

  • @LordRayleigh55
    @LordRayleigh55 6 месяцев назад +6

    关于使用本地大模型方面,试了Ollama+Mistral+Nomic,通过github上的一些tricks可以构建索引,但是query的时候本地模型好像不能生成json格式的responds,导致报错;后面估计GraphRag更新之后可能会解决。 但是本地模型效果可能还是能力有限

  • @AlangHsu
    @AlangHsu 6 месяцев назад +8

    謝謝你的分享。原本也想試試這個,看來你點出了一個很關鍵的問題:即使改善了精確度,可是耗費成本絕對是需要被考慮的,不管是個人用或企業用。

    • @huanyihe777
      @huanyihe777  6 месяцев назад +1

      等token费用再降一降,或者改用GPT-3.5,也许可行

  • @cocoamax8100
    @cocoamax8100 6 месяцев назад +7

    你使用本地模型跑,慢的原因应该不是模型参数体量的问题,大概率是你本地GPU估计不行,token吐的慢

  • @Sulzbach-dk7ov
    @Sulzbach-dk7ov 6 месяцев назад +10

    一本書summary30分鐘+11美金不是問題,這個成本還是比真人便宜太多了。想像一下一間出版社直接用這個來審內容,一天一個api key可以500美金審完48本書,比工讀生還便宜

    • @chungrandy780
      @chungrandy780 6 месяцев назад +1

      但是如果要對書中內容進行多個問答,就會是很嚇人的成本了

    • @huanyihe777
      @huanyihe777  6 месяцев назад +3

      在我这个例子里,索引大概要10美元

    • @rogerroan7583
      @rogerroan7583 26 дней назад

      @@chungrandy780昂貴是在建索引,問答的花費其實還好

  • @farleylai1102
    @farleylai1102 5 месяцев назад +3

    GPT-4o mini這不就來了?

  • @Design-Enjoyment-Happiness
    @Design-Enjoyment-Happiness 6 месяцев назад +2

    說得太好了...以前用RAG看他撈出來的資料都很無奈

  • @adrenfu6238
    @adrenfu6238 6 месяцев назад +1

    能采用 hosted llama3 70b 比如deepinfra 平台,成本低也很快

  • @jy03189211
    @jy03189211 5 месяцев назад +3

    491 次 api 调用以后生成知识图谱,那之后的问答应该不是一次十几美元吧?生成完图谱之后就没有这么高的成本了了吧?

    • @holsetyhuang2435
      @holsetyhuang2435 5 месяцев назад

      确实,所以可以生成图谱然后卖图谱?

    • @huanyihe777
      @huanyihe777  5 месяцев назад

      10美元建立索引。关于低成本使用方法,我昨晚发了视频,在RUclips会员频道

  • @3a146
    @3a146 6 месяцев назад +21

    没事, 我有挺多GPU的, 大概有十来个吧. 还有128GB mbp, 训练跑不动还跑不动推理么. 我一直想自己用图计算的方式解决遍历内容的问题, 但是我就知道做了也是白费功夫, 因为有人会给我喂饭的, 等的就是这一天.

    • @3a146
      @3a146 6 месяцев назад +1

      而且还可以退回去用3.5嘛.

    • @simonren4890
      @simonren4890 6 месяцев назад

      哈哈。最好一句戳中我了,每次都想有人给我喂饭,所以现在天天调包。

    • @3a146
      @3a146 6 месяцев назад +1

      @@simonren4890 没事,我是搞程序语言理论和代数拓扑的,还没见过我不能准确把握性质的包,这种包理论上就不可能存在。

    • @simonren4890
      @simonren4890 6 месяцев назад

      @@3a146 厉害啊,我太了解代数拓扑,只能大概知道概念,它是不是图计算的源头基础?

    • @3a146
      @3a146 6 месяцев назад

      @@simonren4890 我这么说吧, 代数拓扑回答的是“能不能对齐颗粒度”的问题. 图论回答的是“颗粒和颗粒之间的关系怎么回事”的问题. 对齐颗粒度的时候可以用很多细的去解释一个粗的, 图论的颗粒基本都是对称的, 没有质的差别. 当然代数拓扑的“颗粒度”实际上叫做代数不变量, 典型的叫做基本群, 是用套圈去试空间里面的孔洞那么试出来的, 如果有孔洞你的套圈收缩的时候行为就会不一样. 因为不同的套圈能够串起来, 形成新的套圈, 这样就是代数了. 考虑一个空间对象, 这样试出来不同的元素服从特定群的规则. 然后如果两个空间的群同构, 那它们俩就可以通过对应套圈达到“对齐颗粒度”的目的, 然后它们同伦等价, 属于同一个同伦等价类. 另外, 同伦基本群也不是唯一的代数不变量.

  • @bittergourd
    @bittergourd 5 месяцев назад +1

    可否区分一下建立索引和单次检索的开销(时间,金钱)?谢谢。11美元如果是建立graph和rag的开销,之后单次检索能控制在cent数量级也不是不能忍。

    • @huanyihe777
      @huanyihe777  5 месяцев назад

      10美元建立索引。关于低成本使用方法,我昨晚发了视频,在RUclips会员频道

  • @fish-wz4pr
    @fish-wz4pr 6 месяцев назад +1

    格式只限制txt fav,把csv丟進去也不理解,一樣有答非所問狀況, 用gpt4o

    • @huanyihe777
      @huanyihe777  6 месяцев назад

      表格这种,最终估计只能多模态处理

  • @chenjieY-z3q
    @chenjieY-z3q 5 месяцев назад

    我跑教程的时候用的就是deepseek,搞不好比本地模型成本还低。。。

  • @mavershang
    @mavershang 5 месяцев назад +1

    ollama + mistral linux 本地成功,问题是query的时候很慢,200 token花了140s。另外一个问题是不知道是不是我配置有问题,ollama只能用到一块GPU。机器是4x A100 40GB

    • @ericxu9566
      @ericxu9566 5 месяцев назад

      请问试过geema2:27b没,感觉中文它更强

    • @huanyihe777
      @huanyihe777  5 месяцев назад +2

      Ollama好像是自动分配CPU和GPU

    • @ericxu9566
      @ericxu9566 5 месяцев назад

      @@huanyihe777 我在docker部署的ollama总是会抽筋,时不时用cpu,昨天干脆直接部署,不跑docker的ollama稳定多了,两块显卡占用正常。

  • @lee1221ee
    @lee1221ee 6 месяцев назад +2

    11美元會不會是生成entity,只需跑一次而已,後續每問一次比較便宜?

    • @huanyihe777
      @huanyihe777  6 месяцев назад +1

      索引大概要10美元

  • @杨浩-z2g
    @杨浩-z2g 5 месяцев назад

    之前用llama-index做过类似的事情,发现graph类型的索引在后期维护的时候非常困难,尤其是跨文档的关联还有索引删除的时候,不知道是不是我对于graph索引的理解不到位

    • @huanyihe777
      @huanyihe777  5 месяцев назад

      这确实是大问题。当文档、数据集发生变化时,又得再来一遍索引创建,很头疼。

  • @xinchen6512
    @xinchen6512 5 месяцев назад

    听你讲的感觉,目前确实用不了这个玩意,等等新的好用的:)

  • @zxjason
    @zxjason 6 месяцев назад +1

    我刚看了一个老哥用ollama和GraphRAG一起

    • @huanyihe777
      @huanyihe777  6 месяцев назад

      Ollama和LM Studio,各种组合都试过了,不行。不知道是不是Windows系统的原因

    • @huanyihe777
      @huanyihe777  6 месяцев назад +1

      别人在Mac、Ubuntu成功了

  • @richardchieng9252
    @richardchieng9252 6 месяцев назад

    这个成本是分两部分的吧,建立索引多少消耗,单次查询多少消耗,能不能分开给一下数据?如果大头在建立索引,而单次查询的边际成本可控的话,我觉得这个还是比较有前途的

    • @huanyihe777
      @huanyihe777  6 месяцев назад +3

      在我这个例子里,索引大概要10美元

    • @richardchieng9252
      @richardchieng9252 6 месяцев назад

      @@huanyihe777 多谢分享👍

  • @呀咧呀咧
    @呀咧呀咧 6 месяцев назад +1

    會這麼貴的另外一個原因是因為你用了gpt4-turbo而不是gpt-4o

    • @huanyihe777
      @huanyihe777  6 месяцев назад

      用gpt-4o降一半也还是贵

    • @bittergourd
      @bittergourd 5 месяцев назад +1

      @@huanyihe777 所以mini来了

  • @wumitiyo9754
    @wumitiyo9754 6 месяцев назад

    本地模型网上是有成功的,但我用一样的方法还是报错,我最多示例文档跑了一个小时,看了下运行的时候显卡很多时候都要跑100%,估计是性能不够赶不上生成速度就报错了,估计上4090应该就可以了

    • @leonwu355
      @leonwu355 6 месяцев назад

      4090用户告诉你,文件大了一样卡😂,不过我折腾了两个晚上,找到了一个替代方案,用glm 4的本地模型再加glm的网上的embedding api。

    • @wumitiyo9754
      @wumitiyo9754 6 месяцев назад

      @@leonwu355 回去试试,这样成本确实低了很多,就不知道3060能不能跑起来了

    • @leonwu355
      @leonwu355 6 месяцев назад

      @@wumitiyo9754 问题不大,也可以deepseek 替代

    • @huanyihe777
      @huanyihe777  6 месяцев назад

      我特意换了小文档,到了嵌入阶段一样报错,放弃了

    • @wumitiyo9754
      @wumitiyo9754 6 месяцев назад

      @@huanyihe777 实测用3060的显卡,和ollama的gemma2加上lm-studio的nomic-embed-text-v1.5.Q5_K_M.gguf嵌入是可以的,我把示例的书删减到8万字,花了一个多小时。这个速度太感人,换个好点的显卡应该可以处理百万字数的书了。

  • @rogerroan7583
    @rogerroan7583 6 месяцев назад +1

    刷老闆的卡就不心疼了

  • @fivewordsgp5761
    @fivewordsgp5761 2 месяца назад

    用豆包?如果公司注册,会送50亿token

  • @minglv
    @minglv 6 месяцев назад +3

    现在不是贵的问题,只要真好用肯定有人付钱。

    • @huanyihe777
      @huanyihe777  6 месяцев назад +5

      现在的问题是,太贵了

    • @tony608
      @tony608 6 месяцев назад +5

      “好用”的意思还是性价比。 如果“好用”到能预测明天那只股票会涨,肯定11美元不是事,而如果只是总结小说主旨,11美元还是太贵了。

    • @surprisedhamster5576
      @surprisedhamster5576 6 месяцев назад +1

      11美元只是RAG了一本书,企业级需要的资料体量应该是这个万倍以上吧
      一次query需要11万?那必须要很好用了

    • @rogerroan7583
      @rogerroan7583 6 месяцев назад +2

      早買早享受,晚買享折扣

  • @tudminer
    @tudminer 6 месяцев назад +1

    ollma 的 llama3 做出来效果好吗

    • @huanyihe777
      @huanyihe777  6 месяцев назад

      肯定是不如GPT-4的,毕竟性能摆在那里。

  • @HomunMage
    @HomunMage 6 месяцев назад +3

    很認同,其實最終就是要走localLLM,但目前GraphRAG只能靠gpt4 api key

    • @manyes7577
      @manyes7577 6 месяцев назад

      3.5不是比較便宜 為什麼要用4

    • @HomunMage
      @HomunMage 6 месяцев назад

      @@manyes7577 能力完全在不同次元

    • @HomunMage
      @HomunMage 5 месяцев назад

      @@manyes7577 跑這種演算法都要api key喔 只有網頁版的聊天才不用付費
      另外 3.5和4o解決能力在不同次元

    • @HomunMage
      @HomunMage 5 месяцев назад

      @@manyes7577 因為能力完全在不同的次元

  • @tianyinhuang
    @tianyinhuang 6 месяцев назад +2

    @huanyihe777 能不能把11美刀的成分拆分成创建和推理两部分,然后分享一下? 🙏❤
    现在2B的使用场景很多是比较固定的知识库,创建成本高一点是可以接受的。

    • @harrydu6955
      @harrydu6955 6 месяцев назад

      知识库只需要创建一次。推理可以反复用

    • @huanyihe777
      @huanyihe777  6 месяцев назад +1

      在我这个例子里,索引大概要10美元

  • @tonyw8321
    @tonyw8321 6 месяцев назад

    API 换成 gemini 1.5 flash 会快很多。而且便宜很多。 但我不知道他支不支持gemini