Best of CES 2025

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

Attention in transformers, visually explained | DL6

I Filled my ENTIRE House with Snow *don’t try this*

Boston FBI announce arrest of two Iranians in connection with fatal drone strike

"BENDY: LONE WOLF" - Official Trailer - Coming 2025

限制大模型的，是输出长度

huangyihe

Просмотров 1,5 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 11 янв 2025

Комментарии •

@huanyihe777 4 месяца назад
RUclips会员：ruclips.net/channel/UCPpdGTNbIKdiWgxCrbka4Zwjoin
Patreon：www.patreon.com/newtype_ai
知识星球：t.zsxq.com/19IaNz5wK
@wz-cj1990 2 месяца назад
這個也能微調更大一些的模型吧,8b有點少了
@曾铭-u5e 4 месяца назад
你可以试一下，微调之后再使用 Ollama 部署是否会影响到 function call 等模式呢？
@dadafu3257 4 месяца назад
方便添加一下博主吗？有问题需要咨询
@huanyihe777 4 месяца назад
到知识星球找我
@huanyihe777 4 месяца назад ⁺²
对此有疑问的，直接看智谱的论文吧：arxiv.org/pdf/2408.07055
@Elon66688 4 месяца назад
hhh
@曾铭-u5e 4 месяца назад
训练数据的 huggingface 地址可以贴一下吗？
@huanyihe777 4 месяца назад
你搜long writer
@theCornerOfChina 4 месяца назад
你什么场景需要很长的输出长度？翻译场景？翻译是需要切分的，不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本，它会直接总结文本。另外生成式语言模型，每生成一个新 token 都和之前输入组成新的上下文，难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗？而且generate 的成本是很高的，就算kv cache了之前的结果，塞个几万字就能吃掉二三十gb显存，不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话，所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。
@uanbohao9071 4 месяца назад ⁺³
没有数据的一个原因是大家没有去创造这么长的数据，没有去创造这么长的数据，是因为模型还处理不了这么长的数据输入，你看到的输出其实和输入是等价的。up 这个方面的知识还有待提高。
@huanyihe777 4 месяца назад ⁺¹
较短上下文并不会限制输出长度。二者没有强因果关系。
@古武-j6b 4 месяца назад
举双手双脚赞同你的观点。
@theCornerOfChina 4 месяца назад
你什么场景需要很长的输出长度？翻译场景？翻译是需要切分的，不然长段文本翻译模型很可能会忽略众多细节或掺杂自己学过的知识。你自己可以尝试让 claude3.5 200k 去翻译长段文本，它会直接总结文本。另外生成式语言模型，每生成一个新 token 都和之前输入组成新的上下文，难道不应该理解为所谓的8k模型、128k 模型是指输入和输出一起这么长吗？而且generate 的成本是很高的，就算kv cache了之前的结果，塞个几万字就能吃掉二三十gb显存，不可能每个人都能用8卡 80gb a800。并且输出到一定程度模型就会乱说话，所以从厂家、解决方案等角度都会引导用户尽量减少输出内容。
@huanyihe777 4 месяца назад
比如我写了一篇三四千字的文章，让模型帮我修改润色。让它一次性返回改好的全文，这不过分吧？不要求输出长度有十万字，但是现在两三千字确实不够用。
@huanyihe777 4 месяца назад
增加输出长度有技术难题，增加上下文长度也有，但这是另一个话题。我说的是现在这么短的输出长度限制了体验、效果。智谱在论文里讲得很清楚，关于上下文长度和输出长度。

Следующие

Автовоспроизведение

Best of CES 2025

Best of CES 2025

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

Attention in transformers, visually explained | DL6

Attention in transformers, visually explained | DL6

I Filled my ENTIRE House with Snow *don’t try this*

I Filled my ENTIRE House with Snow *don’t try this*

Boston FBI announce arrest of two Iranians in connection with fatal drone strike

Boston FBI announce arrest of two Iranians in connection with fatal drone strike

"BENDY: LONE WOLF" - Official Trailer - Coming 2025

"BENDY: LONE WOLF" - Official Trailer - Coming 2025

I Ruined an Entire City With Unrelenting 100% Insanity - Highway Police Simulator

I Ruined an Entire City With Unrelenting 100% Insanity - Highway Police Simulator

【生成式AI導論 2024】第2講：今日的生成式人工智慧厲害在哪裡？從「工具」變為「工具人」

【生成式AI導論 2024】第2講：今日的生成式人工智慧厲害在哪裡？從「工具」變為「工具人」

三打英特尔！苹果芯片“失败”史

三打英特尔！苹果芯片“失败”史

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

Скабеева попросила вернуть северокорейских мальчиков защищать Курскую область

Скабеева попросила вернуть северокорейских мальчиков защищать Курскую область

Qwen Just Casually Started the Local AI Revolution

Qwen Just Casually Started the Local AI Revolution

【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) - 拆解問題與使用工具

【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

Transformer论文逐段精读

Transformer论文逐段精读

罗翔：谁是脱口秀的天花板，我可是在二楼 | 吐槽大会

罗翔：谁是脱口秀的天花板，我可是在二楼 | 吐槽大会

梁海源最新专场尺度就是猛！犀利三连问男人为啥不生孩子？为何正义老是迟到？媒体怎么不说实话？ | 脱口秀大会 | 综艺show

梁海源最新专场尺度就是猛！犀利三连问男人为啥不生孩子？为何正义老是迟到？媒体怎么不说实话？ | 脱口秀大会 | 综艺show

Монтян: ИМ придётся проиграть войну! // Интервью Зеленского, пожары Калифорнии, Трамп шокирует мир

Монтян: ИМ придётся проиграть войну! // Интервью Зеленского, пожары Калифорнии, Трамп шокирует мир

СТАЛА Мамой для Амелии на 24 Часа 🤯 ГАДАЮ НА 2025 год / Вики Шоу

СТАЛА Мамой для Амелии на 24 Часа 🤯 ГАДАЮ НА 2025 год / Вики Шоу

ХАЛЯВНЫЕ ЦЕНЫ. ХИТРЫЙ РАЗВОД НА ДИЛЕРСКИЕ МАШИНЫ

ХАЛЯВНЫЕ ЦЕНЫ. ХИТРЫЙ РАЗВОД НА ДИЛЕРСКИЕ МАШИНЫ

I Helped 2,000 People Walk Again

I Helped 2,000 People Walk Again

"Живу. Зачем, НЕ ЗНАЮ" - курянка

"Живу. Зачем, НЕ ЗНАЮ" — курянка

МОЛОДОЙ ДЕД - 17я серия (смешное видео, прикол, юмор, поржать, приколы)

МОЛОДОЙ ДЕД - 17я серия (смешное видео, прикол, юмор, поржать, приколы)