教你如何训练自己的大模型知识库| huggingface | llama |langchain |faiss | 零成本 | google colab

Поделиться
HTML-код
  • Опубликовано: 5 янв 2025

Комментарии • 56

  • @dazhaosay
    @dazhaosay  9 месяцев назад +13

    这是rag,如果想了解大模型训练请绕过,这个视频没法帮助到你,谢谢

    • @simplastx4821
      @simplastx4821 6 месяцев назад +1

      😂有点不专业,我还以为他要讲微调

  • @Jack-gr4hx
    @Jack-gr4hx 10 месяцев назад +55

    Rag怎么能叫训练,训练是要改变参数至少是插入参数,这个就是增强检索,不要误导外行

  • @myboloo1
    @myboloo1 10 месяцев назад +18

    准确的说,应该是训练自己的知识库,不是训练自己的大模型,训练好的知识库可以配合多个大模型工作。文本embedding当然也是一种训练,RAG另一个名称是prompt-tuning,指令微调

    • @dazhaosay
      @dazhaosay  10 месяцев назад +1

      说的很好,学习了

    • @leojack9228
      @leojack9228 10 месяцев назад

      那怎么训练自己的知识库然后部署呢,有没论文或者文章学习一下?感谢!

  • @meowalien4160
    @meowalien4160 10 месяцев назад +17

    影片是好的影片,但是這不是訓練大模型,只是套出了一個RAG(Retrieval-Augmented Generation)

  • @ddwinhzy
    @ddwinhzy 10 месяцев назад +1

    先赞后看好习惯!❤

  • @fireopen
    @fireopen 9 месяцев назад +1

    这不是典型的rag吗

  • @8ysuzaen3
    @8ysuzaen3 4 месяца назад

    这个正是我需要. 谢谢

  • @fangliu1369
    @fangliu1369 7 месяцев назад

    真不错 谢谢呀 哈哈哈

  • @abby498
    @abby498 10 месяцев назад +2

    很棒的分享,出一个训练好的模型怎么调用到第三方平台,例如微信、网页等,谢谢

    • @dazhaosay
      @dazhaosay  10 месяцев назад +4

      训练好后,后面就是建立一个业务场景合适的prompt 去调用大模型,并封装成接口 给具体应用去使用, 后面可以考虑专门出一期视频讲怎么应用问题

    • @abby498
      @abby498 10 месяцев назад

      好的谢谢@@dazhaosay

    • @FFL-lff1118
      @FFL-lff1118 10 месяцев назад

      挺好的,可以再详细点😂

    • @dazhaosay
      @dazhaosay  10 месяцев назад +1

      这个也有现成的解决方案, open webui + ollama

    • @williamliu9928
      @williamliu9928 9 месяцев назад

      @@dazhaosay 期待早日看到“专门出一期视频讲怎么应用问题”

  • @xinyuliu7346
    @xinyuliu7346 10 месяцев назад

    先赞后听 ;)

  • @user-cm4ce5fh4q
    @user-cm4ce5fh4q 6 месяцев назад

    谢谢

  • @粘靖烽-r3o
    @粘靖烽-r3o 9 месяцев назад +4

    老哥,把標題改了吧,這與訓練兩字完全無關的,就是檢索增強生成RAG,不要誤導觀眾

  • @longlim3418
    @longlim3418 3 месяца назад

    求大哥能不能放出那个Colab的地址?😵

    • @dazhaosay
      @dazhaosay  3 месяца назад

      所有资料都在视频的描述里面

  • @luzizi-g9o
    @luzizi-g9o 4 месяца назад

    我以为是对大模型进行微调。。。原来只是rag,anythingllm会不会更简单一点

  • @fooevr
    @fooevr 10 месяцев назад +12

    你这就一个RAG应用,竟然自称大模型训练?你怕是什么是机器学习都不知道,不要耽误别人时间了。

    • @dazhaosay
      @dazhaosay  10 месяцев назад +1

      不要把大模型训练概念给狭隘化了

    • @江生浩
      @江生浩 10 месяцев назад

      细分化总归是好的​@@dazhaosay

    • @江生浩
      @江生浩 10 месяцев назад

      ​@dazhao不过感谢你出的视频say

  • @keyr3557
    @keyr3557 10 месяцев назад +2

    增强索引在规定范围内进行回答

  • @jaydencheng4228
    @jaydencheng4228 10 месяцев назад +2

    感谢分享!但这个真的叫训练么?感觉是检索增强啊

    • @dazhaosay
      @dazhaosay  10 месяцев назад

      是训练, 只是没有加入微调

    • @samba2012long
      @samba2012long 10 месяцев назад +2

      他对训练的理解和一般人不一样,这个就是RAG的一个实现框架,不是通常理解的fine-tuning

  • @teentime-b1y
    @teentime-b1y 10 месяцев назад

    讲的很细,学习了 。请教一下。如何把本地的pdf文件上传进行训练?

    • @dazhaosay
      @dazhaosay  10 месяцев назад +2

      可以参考一下这个文档:python.langchain.com/docs/modules/data_connection/document_loaders/pdf

    • @teentime-b1y
      @teentime-b1y 10 месяцев назад

      十分感谢@say

  • @leojack9228
    @leojack9228 10 месяцев назад

    可以本地离线部署吗?数据有私密性,不能联网和传网络上

    • @myboloo1
      @myboloo1 10 месяцев назад +2

      我们已经做到了大模型和知识库本地离线部署了,无需安装配置,windows解压双击运行即可,且不需要GPU

    • @dazhaosay
      @dazhaosay  10 месяцев назад

      @@myboloo1 降低使用门槛还有成本,才能普及化,让大家都能用上ai

    • @leojack9228
      @leojack9228 10 месяцев назад

      但关键是知识库的训练和调用,还有怎么通过微调让它准确一点,不要胡说八道😂@@myboloo1

    • @dazhaosay
      @dazhaosay  10 месяцев назад +2

      可以了解一下 open webui+ollama

    • @罗大林-w3q
      @罗大林-w3q 10 месяцев назад

      如何联系?@@myboloo1

  • @hasszhao
    @hasszhao 10 месяцев назад +6

    这个不是fine-tuning,这是RAG,本质不同但是目的一样。
    不过的确我也很倾向用RAG,成本低。

    • @dazhaosay
      @dazhaosay  10 месяцев назад +3

      是的,控制成本 把业务跑通

  • @23beyond56
    @23beyond56 9 месяцев назад

    这个是RAG增强检索,不是训练模型

  • @todaytomorrow1352
    @todaytomorrow1352 10 месяцев назад

    用的GPU是colab的GPU?

  • @hzhikang6304
    @hzhikang6304 9 месяцев назад

    流量密码,你不是不知道原始的模型是机器学习。你这种基于模型的不叫训练,只能叫自定义

  • @弘军周
    @弘军周 10 месяцев назад

    可以回答中文吗

    • @dazhaosay
      @dazhaosay  10 месяцев назад +1

      可以,有个开源模型叫llama-chinese

  • @bluewang1146
    @bluewang1146 5 месяцев назад

    这个头像看着像鹅厂员工

  • @jet8772
    @jet8772 9 месяцев назад

    建议去掉BGM

  • @mengfeinwu196
    @mengfeinwu196 2 месяца назад

    生成式AI的核心是transformer 你为什么发音为transfer,太业余

  • @libescavasa
    @libescavasa 8 месяцев назад

    感觉你这套东西coze就能做了,而且更简单。

    • @dazhaosay
      @dazhaosay  8 месяцев назад

      感谢 感谢,我试一下coze

  • @jackcheng7474
    @jackcheng7474 3 месяца назад

    不把标题夸张化,怎么能骗到外行的流量,懂得都懂。