Llama 3.1论文精读 · 2. 预训练数据【论文精读·54】

李沐讲座：大语言模型的实践经验和未来预测 | 上海交大| 转载

大模型解决不了英伟达的难题，AI新范式必将出现：专访安克创新CEO阳萌

YELLOWSTONE Season 5 Episode 14 Ending Explained

The Breakfast Club Reacts To Jay-Z’s Attorney Saying Him & Diddy Aren’t Friends + More

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

Llama 3.1论文精读 · 1. 导言【论文精读·54】

跟李沐学AI

Просмотров 34 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 28 дек 2024
Наука

Комментарии • 94

@prideprince8712 5 месяцев назад ⁺¹⁴⁹
时隔一年，李老师终于想起来自己的油管账号
@biboyog 5 месяцев назад ⁺¹⁶
回来吧李沐老师！
我最骄傲的信仰！
历历在目的精读！
还有给力的实验！
显卡莫名在流淌！
@kaikang958 5 месяцев назад ⁺²¹
大神终于发视频了，多多支持
@ruiren2643 5 месяцев назад ⁺⁵
大佬，总算更新了，期待很久了，祝boson越来越好。注意身体。谢谢你.
@oo-st5hm 5 месяцев назад ⁺⁴
Llama 3.1 论文精读 · 1. 导言【论文精读·54】
本期视频主要对Meta发布的Llama 3.1 系列语言模型进行了介绍和解读，特别是其最大的405B参数模型。视频指出，Llama 3.1 系列是目前开源模型中的领头羊，其性能在多个方面已经追赶甚至超越了GPT 4，并且在多语言和工具使用方面表现突出。
视频内容主要包括：
摘要解读：论文强调了Llama 3.1 多语言和工具使用的优势，并介绍了其稠密的Transformer架构以及128K的上下文长度。模型已经开源，并发布了Guard 3模型用于增强安全性和可靠性。
导言分析：视频回顾了大型语言模型的两个阶段：预训练和后训练。Llama 3.1 在预训练阶段使用了15TB的多语言数据，并在模型规模上达到了405B参数。
设计选择：视频指出，Llama 3.1 在模型架构和后训练算法上保持了相对简单，使用传统的稠密Transformer架构，并采用了监督微调和一些简单的对齐算法。
性能评估：视频展示了Llama 3.1 在不同任务上的性能表现，包括MMLU、HumanEval、Reasoning等。结果表明，随着模型规模的增大，性能提升较为明显，特别是在知识密集型任务中。
与其他模型比较：视频将Llama 3.1 与其他开源模型进行了对比，特别是Mistral团队的Large Enough模型。Mistral团队对Llama 3.1 的性能进行了针对性评测，并宣称其模型在代码生成和数学推理方面表现更佳。
开源协议：视频提到了Llama 3.1 更新的开源协议，该协议要求使用Llama 3.1 进行训练或微调的模型必须在名称中包含"Llama 3.1"，引发了一些争议。
团队恩怨：视频揭示了Meta Llama 团队与 Mistral 团队之间存在一定的恩怨，双方互相针对对方的模型，并存在一些争议事件。
视频最后简要介绍了Llama 3.1 模型的一些实际应用案例，并对后续的技术细节解读做了预告。
精华片段
00:00:54
Llama 3.1系列发布，坐实了Llama系列在目前开源模型中的老大哥地位，在一段时间内这个地位不会发生变化。
00:02:01
Llama 3.1系列最大的模型参数量为405B，采用的是稠密的Transformer架构，上下文窗口长度为128K，模型在多个方面已经赶上甚至超过了GPT 4的水平。
00:04:59
Llama 3.1系列在训练数据方面使用了15TB的多语言数据，并采用相对简单的后训练过程，包括监督微调、拒绝采样和DPO等算法，避免了使用过于复杂的算法。
00:11:41
Llama 3.1系列在代码生成、数学推理等方面表现出色，但模型的训练和推理成本较高。
@xiao2634 5 месяцев назад ⁺³
欢迎大佬归来！期盼太久了！
@Fat_Cat_Fly 5 месяцев назад ⁺²
激动终于更新了！❤🎉
@menkiguo7805 5 месяцев назад ⁺²
大佬终于终于更新了激动的不行
@sqf-g4n 5 месяцев назад ⁺¹
李老师视频质量很高
@YiGao0430 4 месяца назад
老师又回来了太激动了！！！
@anonymous1943 5 месяцев назад ⁺⁶
李老师眼中，在这一年里没有其他论文。😂😂😂
@一根小黄瓜 4 месяца назад
感谢感谢感谢大神
@sandyshi 5 месяцев назад
失踪人口回归，感谢大佬又更新了
@张胡-s4w Месяц назад
棒棒哒
@garlicman2778 5 месяцев назад ⁺²
给大神点赞了好多，结果视频我还没怎么看，先赞再说
@donzhu4996 5 месяцев назад
撒花，李老师终于回来更新了
@jiajiang8449 4 месяца назад
李老师终于更新了，等了好久了
@Blue-pd3dv 4 месяца назад
开源？好耶，可以遥遥领先了😍
@ZENf4c 5 месяцев назад
沐神终于更新啦！
@MaxwellClerkJames-f5x 3 месяца назад
牛逼了，最喜欢听李老师讲业界八卦，小组内斗，撕逼日常。大佬，多来点。
@misaxu7666 5 месяцев назад
老师你回来了！
@tianyu6021 4 месяца назад
哈哈哈，终于更新了
@aaatmy 5 месяцев назад
好久沒有看到老師了，期待
@theohlong307 5 месяцев назад
哇，回来了，太棒了
@weiwei6111 4 месяца назад
男神回归~爱你哟么么哒
@RyanPan-r3y 5 месяцев назад
终于更新了！
@jialima8298 5 месяцев назад
啊啊啊有生之年终于等到更新了！
@blake-q3s 4 месяца назад
李沐大神回来了🎉🎉🎉
@raiso9759 5 месяцев назад
期待好久了～未看先讚
@nicholashsiang5661 5 месяцев назад
大佬，您终于更新了。。。😂
@joetsai9420 5 месяцев назад
喔喔喔老師回來了！！！
@piink9473 5 месяцев назад
先保存下班立马看🤩
@changtimwu 5 месяцев назад ⁺³
9:35 我也這麼覺得大家死磕 MMLU, 最後都不知不覺 overfit
@部落课程 4 месяца назад
恭喜回归
@simonpeter9617 4 месяца назад
欢迎回归
@chuckchen 4 месяца назад
It's so hilarious to see the llama and mistral teams arguing like kindergarten toddlers fighting for toys. 🤣
@KIWu-th8wr 5 месяцев назад
歡迎回來🎉
@a12050429 5 месяцев назад
希望可以詳細講解整篇論文，很期待李老師的講解 ! 感謝
@catchfishattexas 5 месяцев назад
大神终于发新了
@xhinker 5 месяцев назад
WAAAA 更新了更新了
@MaskedEngineer-kj5kt 4 месяца назад
喜欢听李老师对于这些benchmark的讲解
@Ake178178sVideo 3 месяца назад
for lots of java codes，any embedding model is good for RAG, or we have to use fine-tuning on a model?
@yy5159 5 месяцев назад
刚好周末扫了一眼paper，大神就发视频了，跟着大神来了
@fireshooterwang 5 месяцев назад
哇，赶紧小铃铛点亮
@imbayesian 5 месяцев назад
很清楚
@yiqiujia4587 5 месяцев назад
哈哈，沙发～～～
@wangharold6926 3 месяца назад
老师如何评价Qwen2？
@Sea_Otter 5 месяцев назад
我的天大佬回歸會聊聊Bonson ai嗎
@chenqu773 4 месяца назад
膜拜大佬
@JNL899 4 месяца назад
大神有时间讲一下Mixtral MoE?
@lokihan 4 месяца назад
必须留下言。虽然不知道说什么
@elit7695 5 месяцев назад ⁺¹
现在的llm还是在堆规格的阶段。规格越大就越强。
@莊凱翔-e1h 5 месяцев назад
我的老天啊，沐神終於找回自己遺失的帳號
@shuntianli9651 4 месяца назад
super master
@simonpeter9617 4 месяца назад
说一下mistral的large2模型吧
@Serendipit_Zhang 5 месяцев назад
老师好
@renjietao167 5 месяцев назад
大哥终于想起来youtube账号的密码了！欢迎回来！
@南方中阳 4 месяца назад
看pdf的工具是啥？
@dannychan9461 4 месяца назад
老師 Amazon也會推出自己的模型嗎
@freedom_egg 4 месяца назад
Amazon有一个。但是我觉得他们不会把重点放在那里。有也只是为自己的系统服务的。他们更适合做一个平台。就像bedrock那样。
@xinshengzhang9083 4 месяца назад
好久不见
@smallalsostrong 5 месяцев назад ⁺¹
哇塞
@freedom_egg 4 месяца назад ⁺¹
有谁知道那个PDF reviewer工具叫什么？
@corgirun7892 5 месяцев назад
沐神回归！
@yslslyl622 5 месяцев назад
一年了，去哪了。。。。
@kenzilynn-x9e 4 месяца назад
李老师,能不能讲一下matmul free架构的论文😊😊
@kentu3892 5 месяцев назад ⁺¹
沙发
@dsindun7224 4 месяца назад
请教大神个问题，现在市面上各种模型，我听得最多的是LLM，即大语言模型。但是还有用于生成视频、图片的模型，这些模型也叫大语言模型吗，我看有些叫法是“视频大模型”。我的问题是，有多少种模型，这些模型有本质区别吗？
@ethanzhu4096 4 месяца назад
text2image text2video模型可不叫大语言模型哦，可以叫GenAI或者AIGC
@hanyanglee9018 4 месяца назад
8分钟的八卦很meta，很meta很meta很meta
@陳柏均-d4q 4 месяца назад
想聽Graph rag~~~
@labrook 4 месяца назад
提到的那个llama 3成员是Aston吗？😏
@liuyuqi0732 5 месяцев назад
你去哪里了
@techbays675 3 месяца назад
沐神视频不能停啊，没有你的视频 Research 搞不下去啊，线上导师
@carpm7554 5 месяцев назад ⁺²
老师多更新啊！
@Byc845 5 месяцев назад
爺爺您年輕時訂閱的頻道更新啦
@ShutongChen 4 месяца назад
爷爷你关注的up主更新了
@stardusterliu 5 месяцев назад
沐神，我的沐神🤤
@maxxu8818 5 месяцев назад
🎉
@Stella-se1lg 4 месяца назад
嘿嘿😊
@combustion2479 5 месяцев назад
過年了媽耶
@蛋炒饭7749 4 месяца назад
沐神，你已经歇了4天了，该更新了
@allandogreat 4 месяца назад
李老师生二胎了
@sourire3223 4 месяца назад
兒子快來看李沐大神
@bittergourd 4 месяца назад
思绪万千惦记君,
沐神终回话语真。
解读论文巧夺天才,
预训微调尽展神威。
开源模型莫等闲,
Llama傲视群芳争艳。
聚贤论英谦虚谨,
盼更精彩文笔新。
作者claude sonnet，让它写七言，字数都不对...
@louiswang538 5 месяцев назад
火钳刘明
@weitaotang5702 4 месяца назад
读读sam2啊！！
@汤金瓯 5 месяцев назад
刷下
@FDY1045 4 месяца назад
长胖了，要注意了。哈哈哈
@TINGCHEN-t4v 4 месяца назад ⁺²
Llama 3.1最差劲。问，回锅肉的做法，居然说回锅肉是广东省的一道名菜。做发，完完全全是广东的炸五花肉。简直不要提了。
@shawnz9833 5 месяцев назад ⁺¹
你咋才来呢，可想死个人哩😊
@tangreen3867 5 месяцев назад
哭死

Следующие

Автовоспроизведение

Llama 3.1论文精读 · 2. 预训练数据【论文精读·54】

Llama 3.1论文精读 · 2. 预训练数据【论文精读·54】

李沐讲座：大语言模型的实践经验和未来预测 | 上海交大| 转载

李沐讲座：大语言模型的实践经验和未来预测 | 上海交大| 转载

大模型解决不了英伟达的难题，AI新范式必将出现：专访安克创新CEO阳萌

大模型解决不了英伟达的难题，AI新范式必将出现：专访安克创新CEO阳萌

YELLOWSTONE Season 5 Episode 14 Ending Explained

YELLOWSTONE Season 5 Episode 14 Ending Explained

The Breakfast Club Reacts To Jay-Z’s Attorney Saying Him & Diddy Aren’t Friends + More

The Breakfast Club Reacts To Jay-Z’s Attorney Saying Him & Diddy Aren’t Friends + More

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

MAKING BURR BASKETS FOR EACHOTHER!! ft: EVELYN ORTIZ

MAKING BURR BASKETS FOR EACHOTHER!! ft: EVELYN ORTIZ

ViT论文逐段精读【论文精读】

ViT论文逐段精读【论文精读】

【有手就行系列】动手实践：无需代码，使用llama-factory微调大预言模型QWen2.5 | 第二节

【有手就行系列】动手实践：无需代码，使用llama-factory微调大预言模型QWen2.5 | 第二节

The World's Most Powerful AI Coding Tool-Cursor: Everyone Can Be a Programmer

The World's Most Powerful AI Coding Tool—Cursor: Everyone Can Be a Programmer

InstructGPT 论文精读【论文精读】

InstructGPT 论文精读【论文精读】

AI 狂潮下的求生指南：為何只懂 ChatGPT 讓你離失業更近一步，n8n AI Agent 才是你的救命稻草

AI 狂潮下的求生指南：為何只懂 ChatGPT 讓你離失業更近一步，n8n AI Agent 才是你的救命稻草

【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

Transformer论文逐段精读

Transformer论文逐段精读

简单几步微调Llama3变身中文大模型！PDF清洗外加Ollama和LM Studio本地加载微调好的大模型 #llama3 #meta #llama #finetune #gpt4 #gpt4

简单几步微调Llama3变身中文大模型！PDF清洗外加Ollama和LM Studio本地加载微调好的大模型 #llama3 #meta #llama #finetune #gpt4 #gpt4

东亚小孩听完笑到飙泪！王梓晗聊原生家庭的控制欲获全场共鸣！很少用经典去形容一种亲子关系！#脱口秀 #脱口秀大会 #脱口秀和ta的朋友们 #搞笑 #王梓晗

东亚小孩听完笑到飙泪！王梓晗聊原生家庭的控制欲获全场共鸣！很少用经典去形容一种亲子关系！#脱口秀 #脱口秀大会 #脱口秀和ta的朋友们 #搞笑 #王梓晗

Воздушные СО и СЖО, Noctua D15 G2 VS Assassin IV VC Vision VS СЖО 360.N D

Воздушные СО и СЖО, Noctua D15 G2 VS Assassin IV VC Vision VS СЖО 360.N D

Samsung S4 is the Goat 💀 #trollface #trending #trending #viral #shorts

Samsung S4 is the Goat 💀 #trollface #trending #trending #viral #shorts

Cách tính trở kháng loa khi đấu nối tiếp và song song!

Cách tính trở kháng loa khi đấu nối tiếp và song song!

Какой айфон выбрать в 2025, чтобы НЕ ПОЖАЛЕТЬ? Всё очень просто!

Какой айфон выбрать в 2025, чтобы НЕ ПОЖАЛЕТЬ? Всё очень просто!

Абсолютно стойкий шифр #programming #cybersecurity #hacker

Абсолютно стойкий шифр #programming #cybersecurity #hacker

СРОЧНО ШОШИЛИНГ ЖУДА КАТА акция iPhone 16 Pro Max Samsung A15 ОЛДИК АРЗОН БУЛДИ ШОШИЛИНГ

СРОЧНО ШОШИЛИНГ ЖУДА КАТА акция iPhone 16 Pro Max Samsung A15 ОЛДИК АРЗОН БУЛДИ ШОШИЛИНГ

НЕДЕЛЯ с Samsung Galaxy S24 FE - зачем КОРЕЙЦЫ так ОШИБАЮТСЯ? | ЧЕСТНЫЙ ОТЗЫВ

НЕДЕЛЯ с Samsung Galaxy S24 FE — зачем КОРЕЙЦЫ так ОШИБАЮТСЯ? | ЧЕСТНЫЙ ОТЗЫВ

СРОЧНО ШОШИЛИНГ ЖУДА КАТА акция iPhone 16 Pro Max Samsung A15 ОЛДИК АРЗОН БУЛДИ ШОШИЛИНГ

СРОЧНО ШОШИЛИНГ ЖУДА КАТА акция iPhone 16 Pro Max Samsung A15 ОЛДИК АРЗОН БУЛДИ ШОШИЛИНГ