Видео 358
Просмотров 555 197

9:57

大语言模型科普：deepseek推理怎么加速矩阵运算？

7:15

和META大佬一起！DeepSeek V3、DeepSeek R1 40分钟深度解析

39:09

投机采样？多令牌预测？DeepSeek V3如何提高大模型输出速度？

7:12

这个方法让大语言模型提速n倍！GQA什么原理？

8:01

【疯狂剁手！】太离谱！这个价格能买一辆车！到底值不值？苹果M2 Studio的结构如何？

15:11

从deepseek看ai，华为芯片超越英伟达？用三分之一的带宽达到三分之二的性能

请引用我们的论文！谢谢！
论文列表：docs.google.com/spreadsheets/d/1z9_60RJ35BzyJUVw4BIAvw9Ru-9vCJLBBCj8SRjUanU/edit?gid=0#gid=0
欢迎来到我的频道，在这里我会讲解机器学习、深度学习最经典或者最前沿的模型，同时我还会讲在美国如何生活，如何找工作，如何刷LeetCode，如何快速融入社会。喜欢记得订阅、点赞哦！如果你有什么想要听的，在下面留言吧！
目前的讲解清单：
线性回归 (LR)、逻辑回归 (LogR)、多项式回归 (PR)、Lasso 回归、Ridge 回归、弹性网络 (Elastic Net)、决策树 (DT)、随机森林 (RF)、梯度提升树 (GBT)、XGBoost、LightGBM、CatBoost、支持向量机 (SVM)、朴素贝叶斯 (NB)、K 最近邻 (KNN)、主成分分析 (PCA)、独立成分分析 (ICA)、线性判别分析 (LDA)、t-分布邻近嵌入 (t-SNE)、高斯混合模型 (GMM)、聚类分析 (CA)、K 均值聚类 (K-means)、DBSCAN、HDBSCAN、层次聚类 (HC)、GAN (生成对抗网络)、CGAN、DCGAN、WGAN (Wasserstein GAN)、StyleGAN、CycleGAN、VAE (变分自编码器)、GPT (生成式预训练模型)、BERT、Transformer、LSTM (长短期记忆网络)、GRU (门控循环单元)、RNN (循环神经网络)、CNN (卷积神经网络)、AlexNet、VGG、GoogLeNet、ResNe...

Видео

9:57

大语言模型科普：谜之操作！如何加速乘法？

7:15

大语言模型科普：deepseek推理怎么加速矩阵运算？

Просмотров 41623 часа назад

和META大佬一起！DeepSeek V3、DeepSeek R1 40分钟深度解析

39:09

和META大佬一起！DeepSeek V3、DeepSeek R1 40分钟深度解析

Просмотров 10 тыс.16 часов назад

7:12

投机采样？多令牌预测？DeepSeek V3如何提高大模型输出速度？

Просмотров 1,7 тыс.День назад

8:01

这个方法让大语言模型提速n倍！GQA什么原理？

Просмотров 97114 дней назад

【疯狂剁手！】太离谱！这个价格能买一辆车！到底值不值？苹果M2 Studio的结构如何？

15:11

【疯狂剁手！】太离谱！这个价格能买一辆车！到底值不值？苹果M2 Studio的结构如何？

Просмотров 1,3 тыс.Месяц назад

7:19

大语言模型不会思考？逆转诅咒是什么？

Просмотров 5 тыс.3 месяца назад

12:59

我们写的书发表了！跪求大家引用！

Просмотров 3,3 тыс.3 месяца назад

11:18

极限骚操作！傅里叶变换怎么加速深度学习？

Просмотров 5 тыс.5 месяцев назад

欢迎来到我的频道，在这里我会讲解机器学习、深度学习最经典或者最前沿的模型，同时我还会讲在美国如何生活，如何找工作，如何刷LeetCode，如何快速融入社会。喜欢记得订阅、点赞哦！如果你有什么想要听的，在下面留言吧！目前的讲解清单：线性回归 (LR)、逻辑回归 (LogR)、多项式回归 (PR)、Lasso 回归、Ridge 回归、弹性网络 (Elastic Net)、决策树 (DT)、随机森林 (RF)、梯度提升树 (GBT)、XGBoost、LightGBM、CatBoost、支持向量机 (SVM)、朴素贝叶斯 (NB)、K 最近邻 (KNN)、主成分分析 (PCA)、独立成分分析 (ICA)、线性判别分析 (LDA)、t-分布邻近嵌入 (t-SNE)、高斯混合模型 (GMM)、聚类分析 (CA)、K 均值聚类 (K-means)、DBSCAN、HDBSCAN、层次聚类 (HC...

7:00

【论文速读#203】最简单的大语言模型？LSTM最巅峰的ELMo讲了什么？

Просмотров 1 тыс.5 месяцев назад

13:27

想要快速拿绿卡吗？跟我一起写Survey吧！（有经验者优先）

Просмотров 2,4 тыс.5 месяцев назад

5:40

【论文速读#202】谷歌开山之作！DeepPose如何试别人体动作？

Просмотров 8135 месяцев назад

7:57

【论文速读#201】如何用一张图片还原3D模型？快速还要精确？

Просмотров 2,2 тыс.5 месяцев назад

4:18

【论文速读#199】最常用方法！数据集不存在的类怎么办？OOD问题怎么解决？

Просмотров 1 тыс.5 месяцев назад

11:46

【论文精读#200】2024最新论文：如何攻击智能语音助手？

Просмотров 1 тыс.6 месяцев назад

【论文精读#200】2024最新论文：如何攻击智能语音助手？

5:38

【论文速读#198】羊驼家族的Alpaca是什么？斯坦福大语言模型有什么用处？

Просмотров 8476 месяцев назад

【论文速读#198】羊驼家族的Alpaca是什么？斯坦福大语言模型有什么用处？

【论文速读#197】吊打LoRA？一小时就能训练的AI大模型？LLaMA Adapter究竟做了什么完成深度融合？

13:38

【论文速读#197】吊打LoRA？一小时就能训练的AI大模型？LLaMA Adapter究竟做了什么完成深度融合？

Просмотров 3,4 тыс.6 месяцев назад

【论文速读#197】吊打LoRA？一小时就能训练的AI大模型？LLaMA Adapter究竟做了什么完成深度融合？

【论文速读#196】数据集中没有的类别怎么办？OOD问题如何解决？学习这篇论文可以快速发表！

7:50

【论文速读#196】数据集中没有的类别怎么办？OOD问题如何解决？学习这篇论文可以快速发表！

Просмотров 1,1 тыс.6 месяцев назад

【论文速读#196】数据集中没有的类别怎么办？OOD问题如何解决？学习这篇论文可以快速发表！

【论文速读#195】雷达数据集太小怎么办？用模拟器直接数据增强！有哪些问题需要考虑？

16:14

【论文速读#195】雷达数据集太小怎么办？用模拟器直接数据增强！有哪些问题需要考虑？

Просмотров 9296 месяцев назад

【论文速读#195】雷达数据集太小怎么办？用模拟器直接数据增强！有哪些问题需要考虑？

4:35

【论文速读#194】用WiFi做雷达？WiFi有哪些神奇的应用？

Просмотров 7786 месяцев назад

【论文速读#194】用WiFi做雷达？WiFi有哪些神奇的应用？

13:51

做AI是否需要数学？线性代数？高等数学？凸优化？概率论？零基础如何快速起步？

Просмотров 3,6 тыс.6 месяцев назад

做AI是否需要数学？线性代数？高等数学？凸优化？概率论？零基础如何快速起步？

【论文速读#193】在监控录像中找物体的最主流算法：DINO好在哪里？为什么是小物体检测之王？速读如何？

11:19

【论文速读#193】在监控录像中找物体的最主流算法：DINO好在哪里？为什么是小物体检测之王？速读如何？

Просмотров 1,6 тыс.6 месяцев назад

【论文速读#193】在监控录像中找物体的最主流算法：DINO好在哪里？为什么是小物体检测之王？速读如何？

【论文速读#192】当今最火的标图算法DETR如何改进？DEFORMABLE DETR讲了什么？

10:51

【论文速读#192】当今最火的标图算法DETR如何改进？DEFORMABLE DETR讲了什么？

Просмотров 1 тыс.6 месяцев назад

【论文速读#192】当今最火的标图算法DETR如何改进？DEFORMABLE DETR讲了什么？

14:20

【论文速读#191】程序员必会！最新物体分割算法DETR如何做到又快又好？

Просмотров 1,6 тыс.6 месяцев назад

【论文速读#191】程序员必会！最新物体分割算法DETR如何做到又快又好？

【论文速读#190】最新AI方向BiFormer做了什么？如何改进Transformer？

11:14

【论文速读#190】最新AI方向BiFormer做了什么？如何改进Transformer？

Просмотров 2,3 тыс.6 месяцев назад

【论文速读#190】最新AI方向BiFormer做了什么？如何改进Transformer？

12:49

【论文速读#189】Clip DIY？不用训练的AI，2024最新趋势！

Просмотров 5 тыс.6 месяцев назад

【论文速读#189】Clip DIY？不用训练的AI，2024最新趋势！

9:16

激光雷达最常用分割算法PIXOR，全网最简单解读！

Просмотров 6376 месяцев назад

激光雷达最常用分割算法PIXOR，全网最简单解读！

【论文速读】UNet的变种WNet MNet YNet都改进了什么？如何快速博士毕业？

7:23

【论文速读】UNet的变种WNet MNet YNet都改进了什么？如何快速博士毕业？

Просмотров 7376 месяцев назад

【论文速读】UNet的变种WNet MNet YNet都改进了什么？如何快速博士毕业？

9:29

稍微改改就能发论文？DeepLab V3+怎么用编码器解码器弄出来一篇新作？

Просмотров 5676 месяцев назад

稍微改改就能发论文？DeepLab V3 怎么用编码器解码器弄出来一篇新作？

@miltonrue9026 23 минуты назад
大佬厉害，还懂硬件
@KongKong-s4c 24 минуты назад
森东？
@hihello2572 Час назад
從言語上聽起來你對這兩篇論文覺得很沒創新，但我可以和你說cvpr icml iclr nips上一堆創新點遠低於deepseek v3的paper。起碼我覺得超大規模的MOE/可訓練的fp8/以及MLA這三點可以在llm上可運作並追上目前sota的gpt4o，這三點任一點都可以上頂規conference沒問題。另外在LLM上以RL取代sft絕對是突破性的，基本上我沒看到有這類型的公開paper來研究探討這件事，並且它一口氣追上當今的llm sota(gpt-o1)，這我想你應該在這一兩年找不到差不多等級的公開llm paper吧。
@gz6x Час назад
都是打工人，不要这么卷啊🤢
@alanchuangi 2 часа назад
Deepseek沒辦法買api token了怎麼辦，如果有中國ip可以買嗎，或是有沒有其他門路能儲值啊😭
@wbyoung4280 Час назад
好多雲服務商都有哦
@LieDing-kb2or 4 часа назад
您怎么看到T-MAC这种基于工程上的优化
@donjohn924 9 часов назад
为啥没被黑社会干掉？
@hanyuxue 11 часов назад
如果视频按topic分割一下，会更方便
@aquathewise7838 22 часа назад
我们公司也开始搞自己的模型了（当然使用别人开源的来训练）我有一个小白问题现在模型更新速度那么快怎么保证如果换新模型的时候可以继承老模型的知识。毕竟不同模型很可能框架都是不一样的这样对其他为了隐私使用开源模型的公司不友好啊
@phdvlog2024 21 час назад
微调只能这样
@aquathewise7838 20 часов назад
@ 要是是类似软工里面可以有某种共同协议就好了
@IriiKa 19 часов назад
换模型了，那你原来在以前的模型上用于训练（微调）的数据还得再新模型上重新训练，或者叫微调。
@翁嘉伟 3 дня назад
啥时候把部署大模型教程的坑给填一下！如果可以的话再讲讲目前怎么自己调整模型之类的.还有就是哪里找一两块钱的a100/hr.目前就找到一两刀的.
@phdvlog2024 2 дня назад
你直接安装一个ollama 然后ollama run llama3.2:3b就完事了下载运行一键部署
@phdvlog2024 2 дня назад
至于说怎么保存点转GGUF 然后GGUF量化4bit 这个直接下载一个llama.cpp然后一个命令下去就灰飞烟灭了
@zhengli2506 3 дня назад
这是北大未名的一个评论： github帖子已经被删。网络进展：电机系的，课题组涉及到这几篇文章的实验平台，主要位于305、101和校外的某实验室。bc同学没怎么被大家看到过在这几个台子上做实验，他确实不怎么擅长做实验。事发之后bc同学把他的电脑转移走了。他和导师花了挺多精力追查github发布者，重点怀疑对象x同学被多次细抠盘问、威胁报警(至今似乎也没报)、追查x同学使用过的电脑，甚至在没有明确证据的情况下通过人脉关系给x同学的雇主递话，要求解雇x同学。电机系确实成立了调查组调查bc同学是否学术不端，当时bc同学没有现场运行代码，而是出具了一份解释材料，其中承认了部分代码为真、并解释这些操作是正常的数据处理。课题组老师的公开立场倾向于“bc同学没有学术不端”，但课题组内部并没有全员一致达成统一意见，电机系时任学术委员会成员也并没有全员一致达成统一意见。 --- M78星云著名学者的同门北京高文律师事务所受s先生委托，处理先生名誉权相关事项:鉴于我当事人确定不存在学术不端的情形(没有任何新闻报道、官方声明等权威信源)，而且上述侵权链接的信息源均来自国外GitHub网站的内容(github.com/ShiArthur03)，目前该链接经过我们与GitHub交涉，也已经全面下架、删除。因此，我们理解，基于上述虚假的、不存在的内容所做的任何提问、分析、影射等均构成对我当事人名誉权的侵害。 --- 来自星星的何教授我是电机系xxx。本次事件爆发后，我一直在进行私下的详细分析，同时我也十分赞同您对此事件在b站发表的意见。然而因为圈内众所周知的原因，此事最后很有可能会以各种方式不了了之甚至不排除以某些侮辱大众智商的方式，因此，我希望自己能成为防范这一结果的最后一道防线，为此想在某些事情上参考您的建议。 --- 来自星星的何教授
@留岛不留人除了周杰伦 4 дня назад
像是2倍加速的讲话听的好累
@phdvlog2024 3 дня назад
开0.75倍速就行了
@BoyuanGuan 4 дня назад
我看有的视频说deepseek使用PTX直接访问GPU训练模型，绕过了cuda。还有人说deepseek用AMD的GPU训练了一部分。。。可是我看git上v3的代码，就是pytorch.cuda之类的啊。只在inference里面有支持AMD的部署，那是两码事啊。有人看到直接用PTX训练或者基于AMD的训练的代码么？
@gongcheng258 4 дня назад
跟我预料的一样,人矿便宜耗出来的
@phdvlog2024 3 дня назад
差不多
@張夢萊 5 дней назад
瓦特不是第一個發明蒸汽機的人。貝爾也不是第一位發明電話的人。
@phdvlog2024 3 дня назад
deepseek也不是第一个发明mta gqa和moe的但是是目前结合最好的一个
@brotherchang 5 дней назад
以推理模型（ OpenAI o1及 DeepSeek R1）需要思考链（CoT) 的阐述内容，常理上使用监督学习（注重每一个步骤细节的掌控）作为训练较为合理完整，而DeepSeek使用的强化学习（只注重目标结果的奖励）训练效果却与监督学习相当，请问你觉得为什么会这样呢？目前这个效果在DeepSeek R1是呈现了，可以jiao直观且合理化解释其中的道理吗？
@phdvlog2024 5 дней назад
人类强行弄个cot 塞给llm告诉他你要理解我的想法 llm表示不从 cot感觉更像是要求llm做一些东西破坏了llm的自主性
@xavierzhou7118 5 дней назад
70b的模型如果用多个苹果主机并联需要几个才能带得动？
@bwnjnoei6245 5 дней назад
exo repo上应该有讲
@phdvlog2024 5 дней назад
别弄这种不稳定买个二手m1或者m2比较合适
@jinwu2430 5 дней назад
能问一下博主叫什么吗 Google Scholar可以给一个吗
@phdvlog2024 2 дня назад
别保密
@jinwu2430 2 дня назад
@ 你paper都发了！那我只好找个intersect看一眼了
@loveplay1983 6 дней назад
在經過了幾天的測試使用后，我有一個感覺，DeepSeek在細節上更加注重。感覺知識點大家都知道，就是在做出回答時的編排。ChatGPT似乎在這一點上沒得比得上前者，同時價格門檻也比較高。另外，文心一言好像更像是一個大眾化的工具，對文檔描述，方案撰寫等方面做得不錯。但是，在數理，工程方面明顯能力不足。三者之間，首推DeepSeek.但是其也有一個致命的弱點，就是后端服務承受能力有點弱。需要加強網絡應用的穩定性。文心一言更像是一個說大道理的。ChatGPT能力比較平衡，什麽都可以干。但是在細節上比DeepSeek稍差一些。
@Jason_SZ 5 дней назад
openai学会了苹果的坏毛病，搞出了plus会员，pro会员。还有条数限制。不开源，无法本地化。还是deepseek好食又便宜。
@lipeng21cn 6 дней назад
用苹果m做集群是最便宜最可靠，最省电的方案
@phdvlog2024 5 дней назад
集群很麻烦
@phdvlog2024 5 дней назад
买个二手大容量苹果比较合适
@mengmeng4312 6 дней назад
我猜是不是使用 promt让chatgpt输出思考过程数据，然后用这些思考过程数据来训练新的模型，新的模型就有思考能力了
@ruizhong9669 6 дней назад
太啰嗦了
@phdvlog2024 2 дня назад
😂
@ruizhong9669 6 дней назад
你是干导游的么？
@phdvlog2024 2 дня назад
😂
@catchfishattexas 6 дней назад
guest的音频声音太小了，能重做一下声音就好了。
@phdvlog2024 2 дня назад
下次
@zmeta8 6 дней назад
其实苹果的benchmark是相当诚实的，跟各路友商比
@ilpreterosso 6 дней назад
We need more good hardcore shit like this
@rinized 6 дней назад
31:37 作为运维来说两句，最下面的Host是单台机器，上面的是交换机用来互相连接主机，用来跑分布式计算。下面RoCE是RDMA over Converged Ethernet，RDMA是一种可以直接访问设备内存（不经过CPU等处理单元）的技术，RoCE就是把RDMA跑在高性能以太网上。
@phdvlog2024 6 дней назад
这个我就不知道了做系统是另外一拨人了
@mintisan 6 дней назад
这次比较费小学生，不费本科生了？哈哈
@mintisan 6 дней назад
还有现在的 LLM 还是会被大语言模型翻译成法学硕士，不知道啥时候可以被翻译对，，，哈哈哈哈😂
@mintisan 6 дней назад
来了，来了，，，
@李明-r5p 6 дней назад
它能使OpenAI提供更好的服务已经足够了
@phdvlog2024 6 дней назад
😂
@Ryan.66666 6 дней назад
具体是在decoder 后边的 linear 和softmax 不只输出一个概率，而是输出多个概率？
@phdvlog2024 6 дней назад
不是两个预测头分别输出
@alanchuangi 6 дней назад
跟上deepseek熱度了
@shinesha5356 6 дней назад
工程上的优化也是创新！如果不是，为什么 openai 等公司、以及其他大厂没有想到呢？别人没想到的，其实都是创新，只是创新的难度、高度不同罢了。deepseek 这次的创新是颠覆性的，打破了堆叠 GPU 的唯一观点，从这个方面来看，这个创新让更多的人能参与到大模型这个游戏中来，而不是被美国垄断。
@phdvlog2024 6 дней назад
我说的创新是能发cvpr icml iclr nips的那种，工程优化没法发会议，只能出技术报告
@cicerochen313 6 дней назад
學術是 open set, 工程是 close set.
@vvxx2287 6 дней назад
@@phdvlog2024如果是美国公司，我猜测你大概率是另外一套说法
@gongcheng258 4 дня назад
没写过程序吗,优化算创新? 你肝功能好就行
@rayonLing День назад
@@gongcheng258 哈哈，按照你的想法，除了宇宙大爆炸，其他的任何都不能叫创新了，都不是从0到1。
@TheRightBet 6 дней назад
Where I can find all the source codes for DS-R1? Thnaks!
@phdvlog2024 6 дней назад
他们只公布了运行的
@bladethirst1 6 дней назад
@@phdvlog2024 训练过程和训练数据才是这类NN复现的关键吧
@YamiYam-k7s 7 дней назад
33分钟那段，为什么异步的操作美国工程师贵做不起？
@王大伟-n5g 6 дней назад
国内4w人民币请几个工程师，给他环境研究一段时间，最后搞的妥妥的
@phdvlog2024 6 дней назад
异步是非常麻烦的，各种报错看都看不懂需要有一拨人24小时盯着在美国绝对做不了
@YamiYam-k7s 6 дней назад
谢谢两位，但这活不能外包吗
@cicerochen313 6 дней назад
@@YamiYam-k7s 我也是這麼想的!!
@LaoXieOnTheGo 6 дней назад
@@YamiYam-k7s 不能,因为技术泄漏的风险,除了中国和中国的台湾,便宜的工程师只有印度了
@gary8421 7 дней назад
另外那个人的声音也太小了，麦克就不能调一下吗？好弱
@phdvlog2024 6 дней назад
忘记打开电脑录音了下次就好了
@fykuotw 7 дней назад
小夥伴的聲音很小~ 下次是不是靠麥克風近點 :)
@phdvlog2024 7 дней назад
obs录屏忘记开电脑声音了。。。
@phdvlog2024 7 дней назад
已经打开了下会不会了
@aquathewise7838 7 дней назад
META大佬的声音有点小，而且也没字幕，听不清楚
@phdvlog2024 7 дней назад
没有办法有字幕因为ppt这个只能识别麦克风他在zoom那一边就没戏了
@aquathewise7838 7 дней назад
@@phdvlog2024 好吧，不过对deepseek 有大概了解了，感谢科普
@無名氏-l1c 7 дней назад
@@phdvlog2024有點麻煩，但能用虛擬麥克風導過去
@katoniaoreo8746 9 дней назад
我想询问一下6:10说的那篇CAPR上的文章在哪个视频？
@triumph260 9 дней назад
你說的ＣＶ是電腦視覺嗎
@phdvlog2024 7 дней назад
对
@triumph260 9 дней назад
DeepSeek~
@phdvlog2024 7 дней назад
讲了
@liumuguan6945 10 дней назад
是不是蒸馏了GPT？
@phdvlog2024 10 дней назад
都这么干 gpt可能也蒸馏了llama 所以这个没法讲
@phdvlog2024 10 дней назад
但deepseek可能做的更绝😂
@tsajm6bh 10 дней назад
多個小模型預測不是老技術了嗎？話說，為何5小時前的影片會有6天前的留言？
@aquathewise7838 10 дней назад
之前有预告啊，可以在预告下面留言，这视频应该是早就做出来的了。
@phdvlog2024 6 дней назад
是老技术但是之前可能调的不好最近又大火了
@haoshidi 11 дней назад
所以DeepSeek到底有没有公布他们Train的代码？我找了一圈只看到了inference的内容。
@pakersmuch3705 10 дней назад
他们好像都只会给inference
@phdvlog2024 7 дней назад
似乎没有
@franciszong188 12 дней назад
GRE似乎也考比较大小😂虽然GRE也很脑残
@李宇轩-h2h 14 дней назад
很好的视频，B站追过来的
@geliangzhu9146 17 дней назад
六天后是农历新年初二。
@陈庶-i3h 17 дней назад
哈哈哈，电子宠物们，给大家提供了好多乐子。有个新的，叫做@新西兰哭姬，也挺好玩。

Ph.D. Vlog

Видео

Комментарии