和META大佬一起!DeepSeek V3、DeepSeek R1 40分钟深度解析

Поделиться
HTML-код
  • Опубликовано: 8 фев 2025
  • 请引用我们的论文!谢谢!
    论文列表:docs.google.co...
    欢迎来到我的频道,在这里我会讲解机器学习、深度学习最经典或者最前沿的模型,同时我还会讲在美国如何生活,如何找工作,如何刷LeetCode,如何快速融入社会。喜欢记得订阅、点赞哦!如果你有什么想要听的,在下面留言吧!
    目前的讲解清单:
    线性回归 (LR)、逻辑回归 (LogR)、多项式回归 (PR)、Lasso 回归、Ridge 回归、弹性网络 (Elastic Net)、决策树 (DT)、随机森林 (RF)、梯度提升树 (GBT)、XGBoost、LightGBM、CatBoost、支持向量机 (SVM)、朴素贝叶斯 (NB)、K 最近邻 (KNN)、主成分分析 (PCA)、独立成分分析 (ICA)、线性判别分析 (LDA)、t-分布邻近嵌入 (t-SNE)、高斯混合模型 (GMM)、聚类分析 (CA)、K 均值聚类 (K-means)、DBSCAN、HDBSCAN、层次聚类 (HC)、GAN (生成对抗网络)、CGAN、DCGAN、WGAN (Wasserstein GAN)、StyleGAN、CycleGAN、VAE (变分自编码器)、GPT (生成式预训练模型)、BERT、Transformer、LSTM (长短期记忆网络)、GRU (门控循环单元)、RNN (循环神经网络)、CNN (卷积神经网络)、AlexNet、VGG、GoogLeNet、ResNet、MobileNet、EfficientNet、Inception、DeepDream、深度信念网络 (DBN)、自动编码器 (AE)、强化学习 (RL)、Q-learning、SARSA、DDPG、A3C、SAC、时序差分学习 (TD)、Actor-Critic、对抗训练 (Adversarial Training)、梯度下降 (GD)、随机梯度下降 (SGD)、批量梯度下降 (BGD)、Adam、RMSprop、AdaGrad、AdaDelta、Nadam、交叉熵损失函数 (Cross-Entropy Loss)、均方误差损失函数 (Mean Squared Error Loss)、KL 散度损失函数 (KL Divergence Loss)、Hinge 损失函数、感知器 (Perceptron)、RBF 神经网络、Hopfield 网络、Boltzmann 机、深度强化学习 (DRL)、自监督学习 (Self-supervised Learning)、迁移学习 (Transfer Learning)、泛化对抗网络 (GAN)、对抗生成网络 (GAN)、训练生成网络 (TGAN)、CycleGAN、深度学习生成模型 (DLGM)、自动编码器生成对抗网络 (AEGAN)、分布式自编码器 (DAE)、网络激活优化器 (NAO)、自编码器 (Autoencoder)、VQ-VAE、LSTM-VAE、卷积自编码器 (CAE)、GAN 自编码器 (GANAE)、U-Net、深度 Q 网络 (DQN)、双重 DQN (DDQN)、优先回放 DQN (Prioritized Experience Replay DQN)、多智能体 DQN (Multi-agent DQN)、深度确定性策略梯度 (DDPG)、感知器 (Perceptron)、稀疏自编码器 (SAE)、稀疏表示分类 (SRC)、深度置信网络 (DBN)、支持向量机 (SVM)、集成学习 (Ensemble Learning)、随机森林 (Random Forest)、极限梯度提升树 (XGBoost)、AdaBoost、梯度提升机 (Gradient Boosting Machine)、Stacking、贝叶斯优化器 (Bayesian Optimization)、贝叶斯网络 (Bayesian Network)、EM 算法 (Expectation-Maximization Algorithm)、高斯过程 (Gaussian Process)、马尔科夫链蒙特卡洛 (MCMC)、强化学习 (Reinforcement Learning)、无监督学习 (Unsupervised Learning)、半监督学习 (Semi-supervised Learning)、监督学习 (Supervised Learning)、迁移学习 (Transfer Learning)、维数约简 (Dimensionality Reduction)、特征选择 (Feature Selection)、特征提取 (Feature Extraction)、正则化 (Regularization)、标准化 (Normalization)、聚类 (Clustering)、分类 (Classification)、回归 (Regression)、降维 (Dimensionality Reduction)、特征映射 (Feature Mapping)、神经网络 (Neural Network)、神经元 (Neuron)、激活函数 (Activation Function)、损失函数 (Loss Function)、优化器 (Optimizer)、学习率 (Learning Rate)、批次大小 (Batch Size)、迭代次数 (Epoch)、超参数 (Hyperparameter)、模型评估 (Model Evaluation)、交叉验证 (Cross Validation)、混淆矩阵 (Confusion Matrix)、ROC 曲线 (ROC Curve)、AUC 值 (AUC Value)、精确度 (Precision)、召回率 (Recall)、F1 分数 (F1 Score)、模型解释 (Model Interpretability)、特征重要性 (Feature Importance)、局部解释 (Local Explanation)、全局解释 (Global Explanation)、机器学习管道 (Machine Learning Pipeline)、一键生成模型 (AutoML)、超参数优化 (Hyperparameter Tuning)、FFT、拉普拉斯变换、z变换、傅里叶变换、短时傅里叶变换 (STFT)、IIR、FIR、卡尔曼滤波、DIP算法、小波变换
    音乐使用许可:RUclips 音频库许可
    你可以将此音频曲目用在任何视频中,包括你用来创收的视频。
    无需署名。
    视频中的音乐(均为以上许可):
    AETHER - Density & Time
    If I Had a Chicken - Kevin MacLeod
    Missing Persons - Jeremy Blake
    PELAGIC - Density & Time

Комментарии • 60

  • @shinesha5356
    @shinesha5356 6 дней назад +18

    工程上的优化也是创新!如果不是,为什么 openai 等公司、以及其他大厂没有想到呢?别人没想到的,其实都是创新,只是创新的难度、高度不同罢了。deepseek 这次的创新是颠覆性的,打破了堆叠 GPU 的唯一观点,从这个方面来看,这个创新让更多的人能参与到大模型这个游戏中来,而不是被美国垄断。

    • @phdvlog2024
      @phdvlog2024  6 дней назад +8

      我说的创新是能发cvpr icml iclr nips的那种,工程优化没法发会议,只能出技术报告

    • @cicerochen313
      @cicerochen313 6 дней назад +1

      學術是 open set, 工程是 close set.

    • @vvxx2287
      @vvxx2287 5 дней назад

      ​@@phdvlog2024如果是美国公司,我猜测你大概率是另外一套说法

    • @gongcheng258
      @gongcheng258 3 дня назад +1

      没写过程序吗,优化算创新? 你肝功能好就行

    • @rayonLing
      @rayonLing День назад

      @@gongcheng258 哈哈,按照你的想法,除了宇宙大爆炸,其他的任何都不能叫创新了,都不是从0到1。

  • @rinized
    @rinized 6 дней назад +1

    31:37 作为运维来说两句,最下面的Host是单台机器,上面的是交换机用来互相连接主机,用来跑分布式计算。下面RoCE是RDMA over Converged Ethernet,RDMA是一种可以直接访问设备内存(不经过CPU等处理单元)的技术,RoCE就是把RDMA跑在高性能以太网上。

    • @phdvlog2024
      @phdvlog2024  5 дней назад

      这个我就不知道了 做系统是另外一拨人了

  • @李明-r5p
    @李明-r5p 6 дней назад +9

    它能使OpenAI提供更好的服务已经足够了

  • @alanchuangi
    @alanchuangi 6 дней назад +3

    跟上deepseek熱度了

  • @張夢萊
    @張夢萊 4 дня назад +4

    瓦特不是第一個發明蒸汽機的人。
    貝爾也不是第一位發明電話的人。

    • @phdvlog2024
      @phdvlog2024  3 дня назад +1

      deepseek也不是第一个发明mta gqa和moe的 但是是目前结合最好的一个

  • @zmeta8
    @zmeta8 5 дней назад +1

    其实苹果的benchmark是相当诚实的,跟各路友商比

  • @brotherchang
    @brotherchang 4 дня назад

    以推理模型( OpenAI o1及 DeepSeek R1) 需要思考链(CoT) 的阐述内容,常理上使用监督学习(注重每一个步骤细节的掌控)作为训练较为合理完整,而DeepSeek使用的强化学习(只注重目标结果的奖励)训练效果却与监督学习相当,请问你觉得为什么会这样呢? 目前这个效果在DeepSeek R1是呈现了,可以jiao直观且合理化解释其中的道理吗?

    • @phdvlog2024
      @phdvlog2024  4 дня назад

      人类强行弄个cot 塞给llm告诉他你要理解我的想法 llm表示不从 cot感觉更像是要求llm做一些东西 破坏了llm的自主性

  • @ilpreterosso
    @ilpreterosso 5 дней назад

    We need more good hardcore shit like this

  • @jinwu2430
    @jinwu2430 5 дней назад +2

    能问一下博主叫什么吗 Google Scholar可以给一个吗

    • @phdvlog2024
      @phdvlog2024  2 дня назад +1

      别 保密

    • @jinwu2430
      @jinwu2430 2 дня назад

      @ 你paper都发了!那我只好找个intersect看一眼了

  • @mintisan
    @mintisan 6 дней назад +1

    还有现在的 LLM 还是会被大语言模型翻译成 法学硕士,不知道啥时候可以被翻译对,,,哈哈哈哈😂

  • @mintisan
    @mintisan 6 дней назад

    来了,来了,,,

  • @xavierzhou7118
    @xavierzhou7118 5 дней назад

    70b的模型如果用多个苹果主机并联需要几个才能带得动?

    • @bwnjnoei6245
      @bwnjnoei6245 4 дня назад

      exo repo上应该有讲

    • @phdvlog2024
      @phdvlog2024  4 дня назад

      别弄这种 不稳定 买个二手m1或者m2比较合适

  • @gary8421
    @gary8421 6 дней назад +3

    另外那个人的声音也太小了,麦克就不能调一下吗?好弱

    • @phdvlog2024
      @phdvlog2024  6 дней назад

      忘记打开电脑录音了 下次就好了

  • @lipeng21cn
    @lipeng21cn 5 дней назад

    用苹果m做集群是最便宜最可靠,最省电的方案

  • @loveplay1983
    @loveplay1983 5 дней назад +2

    在經過了幾天的測試使用后,我有一個感覺,DeepSeek在細節上更加注重。感覺知識點大家都知道,就是在做出回答時的編排。ChatGPT似乎在這一點上沒得比得上前者,同時價格門檻也比較高。另外,文心一言好像更像是一個大眾化的工具,對文檔描述,方案撰寫等方面做得不錯。但是,在數理,工程方面明顯能力不足。三者之間,首推DeepSeek.但是其也有一個致命的弱點,就是后端服務承受能力有點弱。需要加強網絡應用的穩定性。文心一言更像是一個說大道理的。ChatGPT能力比較平衡,什麽都可以干。但是在細節上比DeepSeek稍差一些。

    • @Jason_SZ
      @Jason_SZ 4 дня назад

      openai学会了苹果的坏毛病,搞出了plus会员,pro会员。还有条数限制。不开源,无法本地化。还是deepseek好食又便宜。

  • @TheRightBet
    @TheRightBet 6 дней назад

    Where I can find all the source codes for DS-R1? Thnaks!

    • @phdvlog2024
      @phdvlog2024  6 дней назад

      他们只公布了运行的

    • @bladethirst1
      @bladethirst1 5 дней назад

      @@phdvlog2024 训练过程和训练数据才是这类NN复现的关键吧

  • @gongcheng258
    @gongcheng258 3 дня назад

    跟我预料的一样,人矿便宜耗出来的

  • @fykuotw
    @fykuotw 6 дней назад

    小夥伴的聲音很小~ 下次是不是靠麥克風近點 :)

    • @phdvlog2024
      @phdvlog2024  6 дней назад +1

      obs录屏忘记开电脑声音了。。。

    • @phdvlog2024
      @phdvlog2024  6 дней назад

      已经打开了 下会不会了

  • @catchfishattexas
    @catchfishattexas 5 дней назад

    guest的音频声音太小了,能重做一下声音就好了。

  • @mintisan
    @mintisan 6 дней назад

    这次比较费小学生,不费本科生了?哈哈

  • @aquathewise7838
    @aquathewise7838 6 дней назад +2

    META大佬的声音有点小,而且也没字幕,听不清楚

    • @phdvlog2024
      @phdvlog2024  6 дней назад

      没有办法有字幕 因为ppt这个只能识别麦克风 他在zoom那一边就没戏了

    • @aquathewise7838
      @aquathewise7838 6 дней назад

      @@phdvlog2024 好吧,不过对deepseek 有大概了解了,感谢科普

    • @無名氏-l1c
      @無名氏-l1c 6 дней назад

      @@phdvlog2024有點麻煩,但能用虛擬麥克風導過去

  • @留岛不留人除了周杰伦
    @留岛不留人除了周杰伦 3 дня назад

    像是2倍加速的讲话 听的好累

  • @YamiYam-k7s
    @YamiYam-k7s 6 дней назад +1

    33分钟那段,为什么异步的操作美国工程师贵做不起?

    • @王大伟-n5g
      @王大伟-n5g 6 дней назад

      国内4w人民币请几个工程师,给他环境研究一段时间,最后搞的妥妥的

    • @phdvlog2024
      @phdvlog2024  6 дней назад

      异步是非常麻烦的,各种报错看都看不懂 需要有一拨人24小时盯着 在美国绝对做不了

    • @YamiYam-k7s
      @YamiYam-k7s 6 дней назад

      谢谢两位,但这活不能外包吗

    • @cicerochen313
      @cicerochen313 6 дней назад

      @@YamiYam-k7s 我也是這麼想的!!

    • @LaoXieOnTheGo
      @LaoXieOnTheGo 6 дней назад

      @@YamiYam-k7s 不能,因为技术泄漏的风险,除了中国和中国的台湾,便宜的工程师只有印度了

  • @mengmeng4312
    @mengmeng4312 5 дней назад

    我猜是不是 使用 promt让chatgpt输出思考过程数据,然后用这些思考过程数据来训练新的模型,新的模型就有思考能力了