利用Jan客户端在本地部署Llama3-8b-chinese-chat中文微调大模型 输出openAI兼容API同时兼容CPU推理GPU加速

Поделиться
HTML-код
  • Опубликовано: 28 апр 2024
  • 利用Jan客户端在本地部署Llama3-8b-chinese-chat中文微调大模型 输出openAI兼容API同时兼容CPU推理GPU加速
    技术博客:
    www.milaone.com/archives/40.html
    discord讨论群:
    / discord
    twitter:
    / dcpromo924
    这是一个关于使用Llama3大模型进行本地推理的教程。视频主要包括以下内容:
    模型介绍:介绍了Meta发布的Llama3大模型,以及一些关于该模型的评价和讨论。
    模型选择:讨论了如何选择适合自己需求的模型,包括中文微调的Llama3-8B-Chinese-Chart模型。
    推理程序选择:介绍了一种傻瓜式的推理程序Jan,该程序可以支持CPU推理和GPU加速,并且可以转化为OpenAI兼容的API输出。
    使用教程:详细展示了如何在Jan客户端中导入模型、启动推理服务以及进行对话测试。
    性能测试:展示了在CPU和GPU推理模式下的性能表现,并介绍了如何将模型转换为API并使用OpenAI的翻译服务进行测试。
    总结与建议:总结了使用Llama3大模型进行本地推理的优缺点,并给出了一些建议,包括对于一些特定需求建议使用CHatgpt 4等。
    这段视频内容相当详细,提供了大量的操作演示和建议,对于想要了解和尝试使用Llama3大模型的人来说应该会很有帮助。
  • НаукаНаука

Комментарии • 8

  • @liron4954
    @liron4954 2 месяца назад

    这个方便👍

  • @user-qe4xu7ql3c
    @user-qe4xu7ql3c 2 месяца назад

    能转api 好

  • @anonymouswhacx
    @anonymouswhacx 2 месяца назад

    intel CPU核显可以加速吗?

    • @milaone
      @milaone  2 месяца назад

      应该不能吧你看我客户端里没有核显选项不是

    • @anonymouswhacx
      @anonymouswhacx 2 месяца назад

      使用CPU模式的时候CPU占用情况如何啊

    • @milaone
      @milaone  2 месяца назад

      @anonymouswhacx 没跑死,不影响桌面操作,但是cpu肯定100了,没有很夸张,什么桌面卡之类的,我这么老的机器纯cpu都不影响体验,10代以后的估计轻松跑

    • @lzcell9727
      @lzcell9727 2 месяца назад

      这里的GPU加速应该是特指英伟达的CUDA加速,别说是CPU核显不能加速,就算是AMD的硬显卡都加不了。

    • @milaone
      @milaone  2 месяца назад

      对对对你这样说很严谨