教你如何训练自己的大模型知识库| huggingface | llama |langchain |faiss | 零成本 | google colab

Поделиться
HTML-код
  • Опубликовано: 23 фев 2024
  • 本视频手把手教大家如何去训练自己的大模型知识库(rag),并且通过llama+langchain+faiss搭建一套基于大模型的问答系统
    #llama #langchain #faiss #huggingface #llm #colab #sora #openai
    #textgeneration
    参考资料:
    huggingface.co/meta-llama/Lla...
    github.com/langchain-ai/langc...
    github.com/chatchat-space/Lan...
    github.com/huggingface/transf...
    github.com/facebookresearch/f...
    colab.research.google.com/
    / using-llama-2-0-faiss-...
    github.com/murtuza753/llama2-...
  • НаукаНаука

Комментарии • 47

  • @dazhaosay
    @dazhaosay  2 месяца назад +5

    这是rag,如果想了解大模型训练请绕过,这个视频没法帮助到你,谢谢

  • @Jack-gr4hx
    @Jack-gr4hx 3 месяца назад +34

    Rag怎么能叫训练,训练是要改变参数至少是插入参数,这个就是增强检索,不要误导外行

  • @ddwinhzy
    @ddwinhzy 4 месяца назад +1

    先赞后看好习惯!❤

  • @meowalien4160
    @meowalien4160 3 месяца назад +13

    影片是好的影片,但是這不是訓練大模型,只是套出了一個RAG(Retrieval-Augmented Generation)

  • @myboloo1
    @myboloo1 3 месяца назад +12

    准确的说,应该是训练自己的知识库,不是训练自己的大模型,训练好的知识库可以配合多个大模型工作。文本embedding当然也是一种训练,RAG另一个名称是prompt-tuning,指令微调

    • @dazhaosay
      @dazhaosay  3 месяца назад +1

      说的很好,学习了

    • @leojack9228
      @leojack9228 3 месяца назад

      那怎么训练自己的知识库然后部署呢,有没论文或者文章学习一下?感谢!

  • @fangliu1369
    @fangliu1369 Месяц назад

    真不错 谢谢呀 哈哈哈

  • @xinyuliu7346
    @xinyuliu7346 3 месяца назад

    先赞后听 ;)

  • @keyr3557
    @keyr3557 3 месяца назад +2

    增强索引在规定范围内进行回答

  • @abby498
    @abby498 4 месяца назад +2

    很棒的分享,出一个训练好的模型怎么调用到第三方平台,例如微信、网页等,谢谢

    • @dazhaosay
      @dazhaosay  3 месяца назад +4

      训练好后,后面就是建立一个业务场景合适的prompt 去调用大模型,并封装成接口 给具体应用去使用, 后面可以考虑专门出一期视频讲怎么应用问题

    • @abby498
      @abby498 3 месяца назад

      好的谢谢@@dazhaosay

    • @FFL-lff1118
      @FFL-lff1118 3 месяца назад

      挺好的,可以再详细点😂

    • @dazhaosay
      @dazhaosay  3 месяца назад +1

      这个也有现成的解决方案, open webui + ollama

    • @williamliu9928
      @williamliu9928 3 месяца назад

      @@dazhaosay 期待早日看到“专门出一期视频讲怎么应用问题”

  • @user-rb9nw9zu2u
    @user-rb9nw9zu2u 3 месяца назад +2

    老哥,把標題改了吧,這與訓練兩字完全無關的,就是檢索增強生成RAG,不要誤導觀眾

  • @fireopen
    @fireopen 2 месяца назад +1

    这不是典型的rag吗

  • @user-nj7wq8vl3n
    @user-nj7wq8vl3n 3 месяца назад

    讲的很细,学习了 。请教一下。如何把本地的pdf文件上传进行训练?

    • @dazhaosay
      @dazhaosay  3 месяца назад +2

      可以参考一下这个文档:python.langchain.com/docs/modules/data_connection/document_loaders/pdf

    • @user-nj7wq8vl3n
      @user-nj7wq8vl3n 3 месяца назад

      十分感谢@say

  • @fooevr
    @fooevr 3 месяца назад +11

    你这就一个RAG应用,竟然自称大模型训练?你怕是什么是机器学习都不知道,不要耽误别人时间了。

    • @dazhaosay
      @dazhaosay  3 месяца назад +1

      不要把大模型训练概念给狭隘化了

    • @user-pv8jk4vt6t
      @user-pv8jk4vt6t 3 месяца назад

      细分化总归是好的​@@dazhaosay

    • @user-pv8jk4vt6t
      @user-pv8jk4vt6t 3 месяца назад

      ​@dazhao不过感谢你出的视频say

  • @jaydencheng4228
    @jaydencheng4228 3 месяца назад +2

    感谢分享!但这个真的叫训练么?感觉是检索增强啊

    • @dazhaosay
      @dazhaosay  3 месяца назад

      是训练, 只是没有加入微调

    • @samba2012long
      @samba2012long 3 месяца назад +1

      他对训练的理解和一般人不一样,这个就是RAG的一个实现框架,不是通常理解的fine-tuning

  • @todaytomorrow1352
    @todaytomorrow1352 4 месяца назад

    用的GPU是colab的GPU?

  • @hasszhao
    @hasszhao 3 месяца назад +6

    这个不是fine-tuning,这是RAG,本质不同但是目的一样。
    不过的确我也很倾向用RAG,成本低。

    • @dazhaosay
      @dazhaosay  3 месяца назад +3

      是的,控制成本 把业务跑通

  • @23beyond56
    @23beyond56 3 месяца назад

    这个是RAG增强检索,不是训练模型

  • @leojack9228
    @leojack9228 3 месяца назад

    可以本地离线部署吗?数据有私密性,不能联网和传网络上

    • @myboloo1
      @myboloo1 3 месяца назад +2

      我们已经做到了大模型和知识库本地离线部署了,无需安装配置,windows解压双击运行即可,且不需要GPU

    • @dazhaosay
      @dazhaosay  3 месяца назад

      @@myboloo1 降低使用门槛还有成本,才能普及化,让大家都能用上ai

    • @leojack9228
      @leojack9228 3 месяца назад

      但关键是知识库的训练和调用,还有怎么通过微调让它准确一点,不要胡说八道😂@@myboloo1

    • @dazhaosay
      @dazhaosay  3 месяца назад +2

      可以了解一下 open webui+ollama

    • @user-lf7ug2vy6r
      @user-lf7ug2vy6r 3 месяца назад

      如何联系?@@myboloo1

  • @hzhikang6304
    @hzhikang6304 2 месяца назад

    流量密码,你不是不知道原始的模型是机器学习。你这种基于模型的不叫训练,只能叫自定义

  • @user-ks8ir4bo9r
    @user-ks8ir4bo9r 3 месяца назад

    可以回答中文吗

    • @dazhaosay
      @dazhaosay  3 месяца назад +1

      可以,有个开源模型叫llama-chinese

  • @jet8772
    @jet8772 2 месяца назад

    建议去掉BGM

  • @libescavasa
    @libescavasa 2 месяца назад

    感觉你这套东西coze就能做了,而且更简单。

    • @dazhaosay
      @dazhaosay  Месяц назад

      感谢 感谢,我试一下coze