Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
RUclips会员:ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4ZwjoinPatreon:www.patreon.com/newtype_ai知识星球:t.zsxq.com/19IaNz5wK
這個也能微調更大一些的模型吧,8b有點少了
你可以试一下,微调之后再使用 Ollama 部署是否会影响到 function call 等模式呢?
方便添加一下博主吗?有问题需要咨询
到知识星球找我
对此有疑问的,直接看智谱的论文吧:arxiv.org/pdf/2408.07055
hhh
训练数据的 huggingface 地址可以贴一下吗?
你搜long writer
你什么场景需要很长的输出长度?翻译场景?翻译是需要切分的,不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本,它会直接总结文本。另外生成式语言模型,每生成一个新 token 都和之前输入组成新的上下文 ,难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗?而且generate 的成本是很高的,就算kv cache了之前的结果,塞个几万字就能吃掉二三十gb显存,不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话,所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。
没有数据的一个原因是大家没有去创造这么长的数据,没有去创造这么长的数据,是因为模型还处理不了这么长的数据输入,你看到的输出其实和输入是等价的。up 这个方面的知识还有待提高。
较短上下文并不会限制输出长度。二者没有强因果关系。
举双手双脚赞同你的观点。
比如我写了一篇三四千字的文章,让模型帮我修改润色。让它一次性返回改好的全文,这不过分吧?不要求输出长度有十万字,但是现在两三千字确实不够用。
增加输出长度有技术难题,增加上下文长度也有,但这是另一个话题。我说的是现在这么短的输出长度限制了体验、效果。智谱在论文里讲得很清楚,关于上下文长度和输出长度。
RUclips会员:ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4Zwjoin
Patreon:www.patreon.com/newtype_ai
知识星球:t.zsxq.com/19IaNz5wK
這個也能微調更大一些的模型吧,8b有點少了
你可以试一下,微调之后再使用 Ollama 部署是否会影响到 function call 等模式呢?
方便添加一下博主吗?有问题需要咨询
到知识星球找我
对此有疑问的,直接看智谱的论文吧:arxiv.org/pdf/2408.07055
hhh
训练数据的 huggingface 地址可以贴一下吗?
你搜long writer
你什么场景需要很长的输出长度?翻译场景?翻译是需要切分的,不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本,它会直接总结文本。另外生成式语言模型,每生成一个新 token 都和之前输入组成新的上下文 ,难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗?而且generate 的成本是很高的,就算kv cache了之前的结果,塞个几万字就能吃掉二三十gb显存,不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话,所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。
没有数据的一个原因是大家没有去创造这么长的数据,没有去创造这么长的数据,是因为模型还处理不了这么长的数据输入,你看到的输出其实和输入是等价的。up 这个方面的知识还有待提高。
较短上下文并不会限制输出长度。二者没有强因果关系。
举双手双脚赞同你的观点。
你什么场景需要很长的输出长度?翻译场景?翻译是需要切分的,不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本,它会直接总结文本。另外生成式语言模型,每生成一个新 token 都和之前输入组成新的上下文 ,难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗?而且generate 的成本是很高的,就算kv cache了之前的结果,塞个几万字就能吃掉二三十gb显存,不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话,所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。
比如我写了一篇三四千字的文章,让模型帮我修改润色。让它一次性返回改好的全文,这不过分吧?不要求输出长度有十万字,但是现在两三千字确实不够用。
增加输出长度有技术难题,增加上下文长度也有,但这是另一个话题。我说的是现在这么短的输出长度限制了体验、效果。智谱在论文里讲得很清楚,关于上下文长度和输出长度。