【人工智能】Llama 3.1 92页技术报告详细解读 | 为何选择405B | 24000块H100集群 | 网络拓扑结构 | 预训练 | 数据混合和退火 | 后训练 | SFT | DPO
HTML-код
- Опубликовано: 28 сен 2024
- Llama3.1发布之后,Meta又公开了Llama 3系列的技术报告,今天我们将从模型参数、基础设施、预训练、后训练这四个方面,来详细的剖析Llama3系列模型。
报告地址:ai.meta.com/re..., download the paper
#llama3 #meta #h100 #人工智能 #llm
成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利:
/ @bestpartners
NCCL不是PyTorch的技术,是Nvidia为解决N卡的MPI通信开发一套类库,PyTorch只是调用了它
太专业了谢谢🙏
辛苦💦👍
朗读的真好
通熟易懂😊
謝謝
FAIR好神
聽不懂但好神
大飛到底是怎麼做到每天更新,而且還是論文級的硬內容啊......
@@cookieyu1 说nccl属于pytorch就说明大飞其实不懂文章的内容。
Thank you 大 飞 ☘ 😄 ✍ 😇 🀄 😃 ☕ 😁 🌸 😀 🧧
再发展下去数据中心边上要造一座专用核电站了……
十万卡集群,可能每分钟都会有一块卡故障,掉线。到时候看看tesla如何实用吧。
这是训练过程,推理要好很多
11:30 草,為什麼要移除成人內容
第二!
插旗
大飞, 报告链接打不开 - URL signature expired。能否上传个COPY? 谢谢!
ai.meta.com/research/publications/the-llama-3-herd-of-models/, download the paper
@@bestpartners Thanks a lot!
太专业,听不懂
我去,我用llama3 学了半天这集的内容
跟ChatGPT比起來呢?
@@scchen2011 好像还是gtp好一点,我还报了两个bug
@@scchen2011 我觉得还是gpt好一点,但是差距不大了。 我还report了个bug