LLMer
LLMer
  • Видео 89
  • Просмотров 2 427

Видео

【10】Sparse Attention & Infini Attention 稀疏注意力和无限注意力
Просмотров 202 часа назад
【10】Sparse Attention & Infini Attention 稀疏注意力和无限注意力
【4】手写 Model py 大模型代码逻辑
Просмотров 422 часа назад
【4】手写 Model py 大模型代码逻辑
【9】MHA、MQA、GQA各种注意力变种机制讲解
Просмотров 122 часа назад
【9】MHA、MQA、GQA各种注意力变种机制讲解
【8】KV Cache 原理讲解
Просмотров 392 часа назад
【8】KV Cache 原理讲解
【7】Flash Attention 原理讲解
Просмотров 132 часа назад
【7】Flash Attention 原理讲解
【6】手写 Inference py 大模型代码逻辑
Просмотров 122 часа назад
【6】手写 Inference py 大模型代码逻辑
【5】手写 Train py 大模型代码逻辑
Просмотров 172 часа назад
【5】手写 Train py 大模型代码逻辑
【3】Scaling Law & 模型计算量介绍
Просмотров 122 часа назад
【3】Scaling Law & 模型计算量介绍
【2】模型的解码策略 Decoding Strategy
Просмотров 242 часа назад
【2】模型的解码策略 Decoding Strategy
【1】什么是线性变换 Linear Transformation
Просмотров 262 часа назад
【1】什么是线性变换 Linear Transformation
上手代码复现DeepSeek R1强化学习训练演示
Просмотров 3,3 тыс.12 часов назад
上手代码复现DeepSeek R1强化学习训练演示
Transformer Attention的QKV完结篇
Просмотров 1714 часов назад
Transformer Attention的QKV完结篇
有难度但必读的一篇论文《DeepSeekMath》
Просмотров 16414 часов назад
有难度但必读的一篇论文《DeepSeekMath》
最权威的《DeepSeek影响与分析》
Просмотров 6214 часов назад
最权威的《DeepSeek影响与分析》
新 DeepSeek R 1 推理硬刚o1
Просмотров 2314 часов назад
新 DeepSeek R 1 推理硬刚o1
读R1的训练过程《DeepSeek R1》论文导读
Просмотров 14114 часов назад
读R1的训练过程《DeepSeek R1》论文导读
手撕 AlphaGo Zero
Просмотров 1414 дней назад
手撕 AlphaGo Zero
手撕 Stable Diffusion
Просмотров 714 дней назад
手撕 Stable Diffusion
通过看DeepSeek v2思考目前大模型学习路径
Просмотров 4514 дней назад
通过看DeepSeek v2思考目前大模型学习路径
五分钟秒懂层归一化
Просмотров 314 дней назад
五分钟秒懂层归一化
用NotebookLM总结Meta Video Gen论文
Просмотров 614 дней назад
用NotebookLM总结Meta Video Gen论文
在Nvidia A10 GPU上跑Llama 3 8B开源模型
Просмотров 1414 дней назад
在Nvidia A10 GPU上跑Llama 3 8B开源模型
中文微调Llama 3 之抛砖引玉(LoRA、Flash Attention2、 Quantization)
Просмотров 1014 дней назад
中文微调Llama 3 之抛砖引玉(LoRA、Flash Attention2、 Quantization)
B站小伙伴用华为升腾GPU训练的20亿参数SOTA小模型
Просмотров 314 дней назад
B站小伙伴用华为升腾GPU训练的20亿参数SOTA小模型
DDPM的从零实现与原理讲解
Просмотров 1114 дней назад
DDPM的从零实现与原理讲解
KAN vs MLP架构的简单解读
Просмотров 614 дней назад
KAN vs MLP架构的简单解读
Nemotron技术拆解
Просмотров 114 дней назад
Nemotron技术拆解
OpenAI的最新模型o1技术角度分析
Просмотров 714 дней назад
OpenAI的最新模型o1技术角度分析
Sora、Stable Diffusion、可灵文生图视频大模型原理讲解
Просмотров 714 дней назад
Sora、Stable Diffusion、可灵文生图视频大模型原理讲解

Комментарии

  • @zhongzhang3203
    @zhongzhang3203 8 часов назад

    awesome!!!! very helpful!

  • @yulongtian7783
    @yulongtian7783 10 часов назад

    点赞 网上教写代码的迄今为止 我就看到博主这一个❤

  • @davidwei286
    @davidwei286 15 часов назад

    优秀~

  • @hon_ng
    @hon_ng День назад

    学习!

  • @hankpeng7771
    @hankpeng7771 День назад

    视频里的从DeepSeek V3基础模型到DeepSeek R1模型的流程图在哪里找到的?

  • @bluewatercg
    @bluewatercg День назад

    满满的干货,学习了

  • @Longnese
    @Longnese День назад

    求源码

  • @yedaoliu1229
    @yedaoliu1229 День назад

    源码和强化训练数据在哪里能下载?

  • @user-ml2nu1ud6t
    @user-ml2nu1ud6t День назад

    great

  • @sanhepeng1792
    @sanhepeng1792 2 дня назад

    AI man

  • @DigitalAlligator
    @DigitalAlligator 2 дня назад

    老兄, 挺干货的, 写代码一看就知道是做AI的圈内人

  • @lovewqww
    @lovewqww 2 дня назад

    很干货,牛逼

  • @zhaowang8913
    @zhaowang8913 2 дня назад

    很不错的视频,感谢分享

  • @sahiawolkenm684
    @sahiawolkenm684 25 дней назад

    I am a EAchingChonG from year 9143 we have avenged for supplying us bad drugs like opium and promiscutie with help of jeam(ram+Jesus) My fren not get good weapons you must give good weapons and make them red and pink and yellow color with funky decal to confuse enemy Also one of my neighbour girl was in this army......