Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
时隔一年,李老师终于想起来自己的油管账号
回来吧李沐老师!我最骄傲的信仰!历历在目的精读!还有给力的实验!显卡莫名在流淌!
大神终于发视频了,多多支持
大佬,总算更新了,期待很久了,祝boson越来越好。 注意身体。谢谢你.
Llama 3.1 论文精读 · 1. 导言 【论文精读·54】本期视频主要对Meta发布的Llama 3.1 系列语言模型进行了介绍和解读,特别是其最大的405B参数模型。视频指出,Llama 3.1 系列是目前开源模型中的领头羊,其性能在多个方面已经追赶甚至超越了GPT 4,并且在多语言和工具使用方面表现突出。视频内容主要包括:摘要解读: 论文强调了Llama 3.1 多语言和工具使用的优势,并介绍了其稠密的Transformer架构以及128K的上下文长度。模型已经开源,并发布了Guard 3模型用于增强安全性和可靠性。导言分析: 视频回顾了大型语言模型的两个阶段:预训练和后训练。Llama 3.1 在预训练阶段使用了15TB的多语言数据,并在模型规模上达到了405B参数。设计选择: 视频指出,Llama 3.1 在模型架构和后训练算法上保持了相对简单,使用传统的稠密Transformer架构,并采用了监督微调和一些简单的对齐算法。性能评估: 视频展示了Llama 3.1 在不同任务上的性能表现,包括MMLU、HumanEval、Reasoning等。结果表明,随着模型规模的增大,性能提升较为明显,特别是在知识密集型任务中。与其他模型比较: 视频将Llama 3.1 与其他开源模型进行了对比,特别是Mistral团队的Large Enough模型。Mistral团队对Llama 3.1 的性能进行了针对性评测,并宣称其模型在代码生成和数学推理方面表现更佳。开源协议: 视频提到了Llama 3.1 更新的开源协议,该协议要求使用Llama 3.1 进行训练或微调的模型必须在名称中包含"Llama 3.1",引发了一些争议。团队恩怨: 视频揭示了Meta Llama 团队与 Mistral 团队之间存在一定的恩怨,双方互相针对对方的模型,并存在一些争议事件。视频最后简要介绍了Llama 3.1 模型的一些实际应用案例,并对后续的技术细节解读做了预告。精华片段00:00:54Llama 3.1系列发布,坐实了Llama系列在目前开源模型中的老大哥地位,在一段时间内这个地位不会发生变化。00:02:01Llama 3.1系列最大的模型参数量为405B,采用的是稠密的Transformer架构,上下文窗口长度为128K,模型在多个方面已经赶上甚至超过了GPT 4的水平。00:04:59Llama 3.1系列在训练数据方面使用了15TB的多语言数据,并采用相对简单的后训练过程,包括监督微调、拒绝采样和DPO等算法,避免了使用过于复杂的算法。00:11:41Llama 3.1系列在代码生成、数学推理等方面表现出色,但模型的训练和推理成本较高。
欢迎大佬归来!期盼太久了!
激动 终于更新了!❤🎉
大佬终于终于更新了 激动的不行
李老师视频质量很高
老师又回来了 太激动了!!!
李老师眼中,在这一年里没有其他论文。😂😂😂
感谢感谢 感谢大神
失踪人口回归,感谢大佬又更新了
棒棒哒
给大神点赞了好多,结果视频我还没怎么看,先赞再说
撒花,李老师终于回来更新了
李老师终于更新了,等了好久了
开源?好耶,可以遥遥领先了😍
沐神终于更新啦!
牛逼了,最喜欢听李老师讲业界八卦,小组内斗,撕逼日常。大佬,多来点。
老师你回来了!
哈哈哈,终于更新了
好久沒有看到老師了,期待
哇,回来了,太棒了
男神回归~爱你哟么么哒
终于更新了!
啊啊啊有生之年终于等到更新了!
李沐大神回来了🎉🎉🎉
期待好久了~ 未看先讚
大佬,您终于更新了 。。。😂
喔喔喔老師回來了!!!
先保存 下班立马看🤩
9:35 我也這麼覺得 大家死磕 MMLU, 最後都不知不覺 overfit
恭喜回归
欢迎回归
It's so hilarious to see the llama and mistral teams arguing like kindergarten toddlers fighting for toys. 🤣
歡迎回來🎉
希望可以詳細講解整篇論文,很期待李老師的講解 ! 感謝
大神终于发新了
WAAAA 更新了 更新了
喜欢听李老师对于这些benchmark的讲解
for lots of java codes,any embedding model is good for RAG, or we have to use fine-tuning on a model?
刚好周末扫了一眼paper,大神就发视频了,跟着大神来了
哇,赶紧小铃铛点亮
很清楚
哈哈,沙发~~~
老师 如何评价Qwen2?
我的天大佬回歸 會聊聊Bonson ai嗎
膜拜大佬
大神有时间讲一下Mixtral MoE?
必须留下言。虽然不知道说什么
现在的llm还是在堆规格的阶段。规格越大就越强。
我的老天啊,沐神終於找回自己遺失的帳號
super master
说一下mistral的large2模型吧
老师好
大哥终于想起来youtube账号的密码了!欢迎回来!
看pdf的工具是啥?
老師 Amazon也會推出自己的模型嗎
Amazon有一个。但是我觉得他们不会把重点放在那里。有也只是为自己的系统服务的。他们更适合做一个平台。就像bedrock那样。
好久不见
哇塞
有谁知道那个PDF reviewer工具叫什么?
沐神回归!
一年了,去哪了。。。。
李老师,能不能讲一下matmul free架构的论文😊😊
沙发
请教大神个问题,现在市面上各种模型,我听得最多的是LLM,即大语言模型。但是还有用于生成视频、图片的模型,这些模型也叫大语言模型吗,我看有些叫法是“视频大模型”。我的问题是,有多少种模型,这些模型有本质区别吗?
text2image text2video模型可不叫大语言模型哦,可以叫GenAI或者AIGC
8分钟的八卦很meta,很meta很meta很meta
想聽Graph rag~~~
提到的那个llama 3成员是Aston吗?😏
你去哪里了
沐神 视频不能停啊, 没有你的 视频 Research 搞不下去啊, 线上导师
老师多更新啊!
爺爺您年輕時訂閱的頻道更新啦
爷爷你关注的up主更新了
沐神,我的沐神🤤
🎉
嘿嘿😊
過年了媽耶
沐神,你已经歇了4天了,该更新了
李老师生二胎了
兒子 快來看李沐大神
思绪万千惦记君, 沐神终回话语真。解读论文巧夺天才, 预训微调尽展神威。 开源模型莫等闲, Llama傲视群芳争艳。 聚贤论英谦虚谨, 盼更精彩文笔新。作者claude sonnet, 让它写七言,字数都不对...
火钳刘明
读读sam2啊!!
刷下
长胖了,要注意了。哈哈哈
Llama 3.1最差劲。问,回锅肉的做法,居然说回锅肉是广东省的一道名菜。做发,完完全全是广东的炸五花肉。简直不要提了。
你咋才来呢,可想死个人哩😊
哭死
时隔一年,李老师终于想起来自己的油管账号
回来吧李沐老师!
我最骄傲的信仰!
历历在目的精读!
还有给力的实验!
显卡莫名在流淌!
大神终于发视频了,多多支持
大佬,总算更新了,期待很久了,祝boson越来越好。 注意身体。谢谢你.
Llama 3.1 论文精读 · 1. 导言 【论文精读·54】
本期视频主要对Meta发布的Llama 3.1 系列语言模型进行了介绍和解读,特别是其最大的405B参数模型。视频指出,Llama 3.1 系列是目前开源模型中的领头羊,其性能在多个方面已经追赶甚至超越了GPT 4,并且在多语言和工具使用方面表现突出。
视频内容主要包括:
摘要解读: 论文强调了Llama 3.1 多语言和工具使用的优势,并介绍了其稠密的Transformer架构以及128K的上下文长度。模型已经开源,并发布了Guard 3模型用于增强安全性和可靠性。
导言分析: 视频回顾了大型语言模型的两个阶段:预训练和后训练。Llama 3.1 在预训练阶段使用了15TB的多语言数据,并在模型规模上达到了405B参数。
设计选择: 视频指出,Llama 3.1 在模型架构和后训练算法上保持了相对简单,使用传统的稠密Transformer架构,并采用了监督微调和一些简单的对齐算法。
性能评估: 视频展示了Llama 3.1 在不同任务上的性能表现,包括MMLU、HumanEval、Reasoning等。结果表明,随着模型规模的增大,性能提升较为明显,特别是在知识密集型任务中。
与其他模型比较: 视频将Llama 3.1 与其他开源模型进行了对比,特别是Mistral团队的Large Enough模型。Mistral团队对Llama 3.1 的性能进行了针对性评测,并宣称其模型在代码生成和数学推理方面表现更佳。
开源协议: 视频提到了Llama 3.1 更新的开源协议,该协议要求使用Llama 3.1 进行训练或微调的模型必须在名称中包含"Llama 3.1",引发了一些争议。
团队恩怨: 视频揭示了Meta Llama 团队与 Mistral 团队之间存在一定的恩怨,双方互相针对对方的模型,并存在一些争议事件。
视频最后简要介绍了Llama 3.1 模型的一些实际应用案例,并对后续的技术细节解读做了预告。
精华片段
00:00:54
Llama 3.1系列发布,坐实了Llama系列在目前开源模型中的老大哥地位,在一段时间内这个地位不会发生变化。
00:02:01
Llama 3.1系列最大的模型参数量为405B,采用的是稠密的Transformer架构,上下文窗口长度为128K,模型在多个方面已经赶上甚至超过了GPT 4的水平。
00:04:59
Llama 3.1系列在训练数据方面使用了15TB的多语言数据,并采用相对简单的后训练过程,包括监督微调、拒绝采样和DPO等算法,避免了使用过于复杂的算法。
00:11:41
Llama 3.1系列在代码生成、数学推理等方面表现出色,但模型的训练和推理成本较高。
欢迎大佬归来!期盼太久了!
激动 终于更新了!❤🎉
大佬终于终于更新了 激动的不行
李老师视频质量很高
老师又回来了 太激动了!!!
李老师眼中,在这一年里没有其他论文。😂😂😂
感谢感谢 感谢大神
失踪人口回归,感谢大佬又更新了
棒棒哒
给大神点赞了好多,结果视频我还没怎么看,先赞再说
撒花,李老师终于回来更新了
李老师终于更新了,等了好久了
开源?好耶,可以遥遥领先了😍
沐神终于更新啦!
牛逼了,最喜欢听李老师讲业界八卦,小组内斗,撕逼日常。大佬,多来点。
老师你回来了!
哈哈哈,终于更新了
好久沒有看到老師了,期待
哇,回来了,太棒了
男神回归~爱你哟么么哒
终于更新了!
啊啊啊有生之年终于等到更新了!
李沐大神回来了🎉🎉🎉
期待好久了~ 未看先讚
大佬,您终于更新了 。。。😂
喔喔喔老師回來了!!!
先保存 下班立马看🤩
9:35 我也這麼覺得 大家死磕 MMLU, 最後都不知不覺 overfit
恭喜回归
欢迎回归
It's so hilarious to see the llama and mistral teams arguing like kindergarten toddlers fighting for toys. 🤣
歡迎回來🎉
希望可以詳細講解整篇論文,很期待李老師的講解 ! 感謝
大神终于发新了
WAAAA 更新了 更新了
喜欢听李老师对于这些benchmark的讲解
for lots of java codes,any embedding model is good for RAG, or we have to use fine-tuning on a model?
刚好周末扫了一眼paper,大神就发视频了,跟着大神来了
哇,赶紧小铃铛点亮
很清楚
哈哈,沙发~~~
老师 如何评价Qwen2?
我的天大佬回歸 會聊聊Bonson ai嗎
膜拜大佬
大神有时间讲一下Mixtral MoE?
必须留下言。虽然不知道说什么
现在的llm还是在堆规格的阶段。规格越大就越强。
我的老天啊,沐神終於找回自己遺失的帳號
super master
说一下mistral的large2模型吧
老师好
大哥终于想起来youtube账号的密码了!欢迎回来!
看pdf的工具是啥?
老師 Amazon也會推出自己的模型嗎
Amazon有一个。但是我觉得他们不会把重点放在那里。有也只是为自己的系统服务的。他们更适合做一个平台。就像bedrock那样。
好久不见
哇塞
有谁知道那个PDF reviewer工具叫什么?
沐神回归!
一年了,去哪了。。。。
李老师,能不能讲一下matmul free架构的论文😊😊
沙发
请教大神个问题,现在市面上各种模型,我听得最多的是LLM,即大语言模型。但是还有用于生成视频、图片的模型,这些模型也叫大语言模型吗,我看有些叫法是“视频大模型”。我的问题是,有多少种模型,这些模型有本质区别吗?
text2image text2video模型可不叫大语言模型哦,可以叫GenAI或者AIGC
8分钟的八卦很meta,很meta很meta很meta
想聽Graph rag~~~
提到的那个llama 3成员是Aston吗?😏
你去哪里了
沐神 视频不能停啊, 没有你的 视频 Research 搞不下去啊, 线上导师
老师多更新啊!
爺爺您年輕時訂閱的頻道更新啦
爷爷你关注的up主更新了
沐神,我的沐神🤤
🎉
嘿嘿😊
過年了媽耶
沐神,你已经歇了4天了,该更新了
李老师生二胎了
兒子 快來看李沐大神
思绪万千惦记君,
沐神终回话语真。
解读论文巧夺天才,
预训微调尽展神威。
开源模型莫等闲,
Llama傲视群芳争艳。
聚贤论英谦虚谨,
盼更精彩文笔新。
作者claude sonnet, 让它写七言,字数都不对...
火钳刘明
读读sam2啊!!
刷下
长胖了,要注意了。哈哈哈
Llama 3.1最差劲。问,回锅肉的做法,居然说回锅肉是广东省的一道名菜。做发,完完全全是广东的炸五花肉。简直不要提了。
你咋才来呢,可想死个人哩😊
哭死