Видео 89
Просмотров 2 427

【10】Sparse Attention & Infini Attention 稀疏注意力和无限注意力

35:20

【4】手写 Model py 大模型代码逻辑

1:04:23

【9】MHA、MQA、GQA各种注意力变种机制讲解

12:10

【8】KV Cache 原理讲解

24:21

【7】Flash Attention 原理讲解

44:33

【6】手写 Inference py 大模型代码逻辑

29:53

【11】Sinusoidal、RoPE、ALiBi等各类位置信息编码

【11】Sinusoidal、RoPE、ALiBi等各类位置信息编码

Видео

【10】Sparse Attention & Infini Attention 稀疏注意力和无限注意力

35:20

【10】Sparse Attention & Infini Attention 稀疏注意力和无限注意力

Просмотров 202 часа назад

【10】Sparse Attention & Infini Attention 稀疏注意力和无限注意力

1:04:23

【4】手写 Model py 大模型代码逻辑

Просмотров 422 часа назад

【4】手写 Model py 大模型代码逻辑

12:10

【9】MHA、MQA、GQA各种注意力变种机制讲解

Просмотров 122 часа назад

【9】MHA、MQA、GQA各种注意力变种机制讲解

24:21

【8】KV Cache 原理讲解

Просмотров 392 часа назад

【8】KV Cache 原理讲解

44:33

【7】Flash Attention 原理讲解

Просмотров 132 часа назад

【7】Flash Attention 原理讲解

29:53

【6】手写 Inference py 大模型代码逻辑

Просмотров 122 часа назад

【6】手写 Inference py 大模型代码逻辑

44:22

【5】手写 Train py 大模型代码逻辑

Просмотров 172 часа назад

【5】手写 Train py 大模型代码逻辑

30:44

【3】Scaling Law & 模型计算量介绍

Просмотров 122 часа назад

【3】Scaling Law & 模型计算量介绍

20:30

【2】模型的解码策略 Decoding Strategy

Просмотров 242 часа назад

【2】模型的解码策略 Decoding Strategy

21:32

【1】什么是线性变换 Linear Transformation

Просмотров 262 часа назад

【1】什么是线性变换 Linear Transformation

32:34

上手代码复现DeepSeek R1强化学习训练演示

Просмотров 3,3 тыс.12 часов назад

上手代码复现DeepSeek R1强化学习训练演示

9:16

Transformer Attention的QKV完结篇

Просмотров 1714 часов назад

Transformer Attention的QKV完结篇

31:50

有难度但必读的一篇论文《DeepSeekMath》

Просмотров 16414 часов назад

有难度但必读的一篇论文《DeepSeekMath》

24:37

最权威的《DeepSeek影响与分析》

Просмотров 6214 часов назад

最权威的《DeepSeek影响与分析》

5:17

新 DeepSeek R 1 推理硬刚o1

Просмотров 2314 часов назад

新 DeepSeek R 1 推理硬刚o1

38:10

读R1的训练过程《DeepSeek R1》论文导读

Просмотров 14114 часов назад

读R1的训练过程《DeepSeek R1》论文导读

28:19

手撕 AlphaGo Zero

Просмотров 1414 дней назад

手撕 AlphaGo Zero

18:34

手撕 Stable Diffusion

Просмотров 714 дней назад

手撕 Stable Diffusion

25:33

通过看DeepSeek v2思考目前大模型学习路径

Просмотров 4514 дней назад

通过看DeepSeek v2思考目前大模型学习路径

5:13

五分钟秒懂层归一化

Просмотров 314 дней назад

五分钟秒懂层归一化

18:34

用NotebookLM总结Meta Video Gen论文

Просмотров 614 дней назад

用NotebookLM总结Meta Video Gen论文

14:27

在Nvidia A10 GPU上跑Llama 3 8B开源模型

Просмотров 1414 дней назад

在Nvidia A10 GPU上跑Llama 3 8B开源模型

中文微调Llama 3 之抛砖引玉（LoRA、Flash Attention2、 Quantization）

13:38

中文微调Llama 3 之抛砖引玉（LoRA、Flash Attention2、 Quantization）

Просмотров 1014 дней назад

中文微调Llama 3 之抛砖引玉（LoRA、Flash Attention2、 Quantization）

9:21

B站小伙伴用华为升腾GPU训练的20亿参数SOTA小模型

Просмотров 314 дней назад

B站小伙伴用华为升腾GPU训练的20亿参数SOTA小模型

1:07:42

DDPM的从零实现与原理讲解

Просмотров 1114 дней назад

DDPM的从零实现与原理讲解

20:15

KAN vs MLP架构的简单解读

Просмотров 614 дней назад

KAN vs MLP架构的简单解读

11:08

Nemotron技术拆解

Просмотров 114 дней назад

Nemotron技术拆解

7:36

OpenAI的最新模型o1技术角度分析

Просмотров 714 дней назад

OpenAI的最新模型o1技术角度分析

53:37

Sora、Stable Diffusion、可灵文生图视频大模型原理讲解

Просмотров 714 дней назад

Sora、Stable Diffusion、可灵文生图视频大模型原理讲解

@zhongzhang3203 8 часов назад
awesome!!!! very helpful!
@yulongtian7783 10 часов назад
点赞网上教写代码的迄今为止我就看到博主这一个❤
@davidwei286 15 часов назад
优秀～
@hon_ng День назад
学习！
@hankpeng7771 День назад
视频里的从DeepSeek V3基础模型到DeepSeek R1模型的流程图在哪里找到的？
@bluewatercg День назад
满满的干货，学习了
@Longnese День назад
求源码
@yedaoliu1229 День назад
源码和强化训练数据在哪里能下载？
@user-ml2nu1ud6t День назад
great
@sanhepeng1792 2 дня назад
AI man
@DigitalAlligator 2 дня назад
老兄, 挺干货的, 写代码一看就知道是做AI的圈内人
@lovewqww 2 дня назад
很干货，牛逼
@zhaowang8913 2 дня назад
很不错的视频，感谢分享
@sahiawolkenm684 25 дней назад
I am a EAchingChonG from year 9143 we have avenged for supplying us bad drugs like opium and promiscutie with help of jeam(ram+Jesus) My fren not get good weapons you must give good weapons and make them red and pink and yellow color with funky decal to confuse enemy Also one of my neighbour girl was in this army......
@LLMer_2025 18 дней назад
so ?

LLMer

Комментарии