限制大模型的,是输出长度

Поделиться
HTML-код
  • Опубликовано: 11 янв 2025

Комментарии •

  • @huanyihe777
    @huanyihe777  4 месяца назад

    RUclips会员:ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4Zwjoin
    Patreon:www.patreon.com/newtype_ai
    知识星球:t.zsxq.com/19IaNz5wK

  • @wz-cj1990
    @wz-cj1990 2 месяца назад

    這個也能微調更大一些的模型吧,8b有點少了

  • @曾铭-u5e
    @曾铭-u5e 4 месяца назад

    你可以试一下,微调之后再使用 Ollama 部署是否会影响到 function call 等模式呢?

  • @dadafu3257
    @dadafu3257 4 месяца назад

    方便添加一下博主吗?有问题需要咨询

  • @huanyihe777
    @huanyihe777  4 месяца назад +2

    对此有疑问的,直接看智谱的论文吧:arxiv.org/pdf/2408.07055

  • @曾铭-u5e
    @曾铭-u5e 4 месяца назад

    训练数据的 huggingface 地址可以贴一下吗?

  • @theCornerOfChina
    @theCornerOfChina 4 месяца назад

    你什么场景需要很长的输出长度?翻译场景?翻译是需要切分的,不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本,它会直接总结文本。另外生成式语言模型,每生成一个新 token 都和之前输入组成新的上下文 ,难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗?而且generate 的成本是很高的,就算kv cache了之前的结果,塞个几万字就能吃掉二三十gb显存,不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话,所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。

  • @uanbohao9071
    @uanbohao9071 4 месяца назад +3

    没有数据的一个原因是大家没有去创造这么长的数据,没有去创造这么长的数据,是因为模型还处理不了这么长的数据输入,你看到的输出其实和输入是等价的。up 这个方面的知识还有待提高。

    • @huanyihe777
      @huanyihe777  4 месяца назад +1

      较短上下文并不会限制输出长度。二者没有强因果关系。

  • @古武-j6b
    @古武-j6b 4 месяца назад

    举双手双脚赞同你的观点。

  • @theCornerOfChina
    @theCornerOfChina 4 месяца назад

    你什么场景需要很长的输出长度?翻译场景?翻译是需要切分的,不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本,它会直接总结文本。另外生成式语言模型,每生成一个新 token 都和之前输入组成新的上下文 ,难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗?而且generate 的成本是很高的,就算kv cache了之前的结果,塞个几万字就能吃掉二三十gb显存,不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话,所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。

    • @huanyihe777
      @huanyihe777  4 месяца назад

      比如我写了一篇三四千字的文章,让模型帮我修改润色。让它一次性返回改好的全文,这不过分吧?不要求输出长度有十万字,但是现在两三千字确实不够用。

    • @huanyihe777
      @huanyihe777  4 месяца назад

      增加输出长度有技术难题,增加上下文长度也有,但这是另一个话题。我说的是现在这么短的输出长度限制了体验、效果。智谱在论文里讲得很清楚,关于上下文长度和输出长度。