程序员必会!世界上最重要的论文:Transformer,所有的AI应用都要靠他,简单讲解其原理

Поделиться
HTML-код
  • Опубликовано: 27 июн 2024
  • 欢迎来到我的频道,在这里我会讲解机器学习、深度学习最经典或者最前沿的模型,同时我还会讲在美国如何生活,如何找工作,如何刷LeetCode,如何快速融入社会。喜欢记得订阅、点赞哦!如果你有什么想要听的,在下面留言吧!
    目前的讲解清单:
    线性回归 (LR)、逻辑回归 (LogR)、多项式回归 (PR)、Lasso 回归、Ridge 回归、弹性网络 (Elastic Net)、决策树 (DT)、随机森林 (RF)、梯度提升树 (GBT)、XGBoost、LightGBM、CatBoost、支持向量机 (SVM)、朴素贝叶斯 (NB)、K 最近邻 (KNN)、主成分分析 (PCA)、独立成分分析 (ICA)、线性判别分析 (LDA)、t-分布邻近嵌入 (t-SNE)、高斯混合模型 (GMM)、聚类分析 (CA)、K 均值聚类 (K-means)、DBSCAN、HDBSCAN、层次聚类 (HC)、GAN (生成对抗网络)、CGAN、DCGAN、WGAN (Wasserstein GAN)、StyleGAN、CycleGAN、VAE (变分自编码器)、GPT (生成式预训练模型)、BERT、Transformer、LSTM (长短期记忆网络)、GRU (门控循环单元)、RNN (循环神经网络)、CNN (卷积神经网络)、AlexNet、VGG、GoogLeNet、ResNet、MobileNet、EfficientNet、Inception、DeepDream、深度信念网络 (DBN)、自动编码器 (AE)、强化学习 (RL)、Q-learning、SARSA、DDPG、A3C、SAC、时序差分学习 (TD)、Actor-Critic、对抗训练 (Adversarial Training)、梯度下降 (GD)、随机梯度下降 (SGD)、批量梯度下降 (BGD)、Adam、RMSprop、AdaGrad、AdaDelta、Nadam、交叉熵损失函数 (Cross-Entropy Loss)、均方误差损失函数 (Mean Squared Error Loss)、KL 散度损失函数 (KL Divergence Loss)、Hinge 损失函数、感知器 (Perceptron)、RBF 神经网络、Hopfield 网络、Boltzmann 机、深度强化学习 (DRL)、自监督学习 (Self-supervised Learning)、迁移学习 (Transfer Learning)、泛化对抗网络 (GAN)、对抗生成网络 (GAN)、训练生成网络 (TGAN)、CycleGAN、深度学习生成模型 (DLGM)、自动编码器生成对抗网络 (AEGAN)、分布式自编码器 (DAE)、网络激活优化器 (NAO)、自编码器 (Autoencoder)、VQ-VAE、LSTM-VAE、卷积自编码器 (CAE)、GAN 自编码器 (GANAE)、U-Net、深度 Q 网络 (DQN)、双重 DQN (DDQN)、优先回放 DQN (Prioritized Experience Replay DQN)、多智能体 DQN (Multi-agent DQN)、深度确定性策略梯度 (DDPG)、感知器 (Perceptron)、稀疏自编码器 (SAE)、稀疏表示分类 (SRC)、深度置信网络 (DBN)、支持向量机 (SVM)、集成学习 (Ensemble Learning)、随机森林 (Random Forest)、极限梯度提升树 (XGBoost)、AdaBoost、梯度提升机 (Gradient Boosting Machine)、Stacking、贝叶斯优化器 (Bayesian Optimization)、贝叶斯网络 (Bayesian Network)、EM 算法 (Expectation-Maximization Algorithm)、高斯过程 (Gaussian Process)、马尔科夫链蒙特卡洛 (MCMC)、强化学习 (Reinforcement Learning)、无监督学习 (Unsupervised Learning)、半监督学习 (Semi-supervised Learning)、监督学习 (Supervised Learning)、迁移学习 (Transfer Learning)、维数约简 (Dimensionality Reduction)、特征选择 (Feature Selection)、特征提取 (Feature Extraction)、正则化 (Regularization)、标准化 (Normalization)、聚类 (Clustering)、分类 (Classification)、回归 (Regression)、降维 (Dimensionality Reduction)、特征映射 (Feature Mapping)、神经网络 (Neural Network)、神经元 (Neuron)、激活函数 (Activation Function)、损失函数 (Loss Function)、优化器 (Optimizer)、学习率 (Learning Rate)、批次大小 (Batch Size)、迭代次数 (Epoch)、超参数 (Hyperparameter)、模型评估 (Model Evaluation)、交叉验证 (Cross Validation)、混淆矩阵 (Confusion Matrix)、ROC 曲线 (ROC Curve)、AUC 值 (AUC Value)、精确度 (Precision)、召回率 (Recall)、F1 分数 (F1 Score)、模型解释 (Model Interpretability)、特征重要性 (Feature Importance)、局部解释 (Local Explanation)、全局解释 (Global Explanation)、机器学习管道 (Machine Learning Pipeline)、一键生成模型 (AutoML)、超参数优化 (Hyperparameter Tuning)、FFT、拉普拉斯变换、z变换、傅里叶变换、短时傅里叶变换 (STFT)、IIR、FIR、卡尔曼滤波、DIP算法、小波变换
    音乐使用许可:RUclips 音频库许可
    你可以将此音频曲目用在任何视频中,包括你用来创收的视频。
    无需署名。
    视频中的音乐(均为以上许可):
    AETHER - Density & Time
    If I Had a Chicken - Kevin MacLeod
    Missing Persons - Jeremy Blake
    PELAGIC - Density & Time
  • НаукаНаука

Комментарии • 28

  • @eddylin6679
    @eddylin6679 15 дней назад +6

    昨天剛看完李弘毅教授講Transformer,今天馬上來複習😆

  • @boxiongtan69
    @boxiongtan69 15 дней назад +3

    终于等到了

  • @laniakealee
    @laniakealee 9 дней назад +1

    大佬开讲速度前来学习~~🤗

  • @waynechiu9078
    @waynechiu9078 15 дней назад +3

    之前以為你講過了,翻特別久,今天認真聽聽

    • @phdvlog2024
      @phdvlog2024  15 дней назад +1

      没讲过 讲过vit vilt 没讲过transformer

  • @user-tu9em6ks8b
    @user-tu9em6ks8b 15 дней назад +5

    玩了几天,变压器必须第一时间看

  • @fdsmolasfae
    @fdsmolasfae 15 дней назад +1

    牛逼🎉

  • @dig84128
    @dig84128 12 дней назад

    vlog 大有一處是不是怪怪的? 想討論下
    12:17 如果是解說原文的 multi-head, 根據論文第4 頁,描述是 "Multi-Head Attention consists of several attention layers running in parallel." , 我的理解是對於每個 multi-head attention 單元來說各個 Attention 是並行訓練,最後以concact層將所有head處理完的資料連在一起成為長資料,再送入add & norm 層,旁邊 nx 比較像 12:17 所示,是encoder, decoder 的深度,也就是stack 數

  • @boxiongtan69
    @boxiongtan69 13 дней назад

    纠正一点, scores / √d 是因为怕embedding的维度(d)过大导致softmax的梯度变得过小,而不是句子长度过大。每次读入的句子长度是固定的 (不足处用pad补齐), pad是一种mask,在计算score的时候也会被忽略不计

    • @phdvlog2024
      @phdvlog2024  13 дней назад

      哦 是这样的 句子有padding

  • @aaaallleen
    @aaaallleen 15 дней назад +1

    這麼重要的論文 凌晨4:55也要搶先看!

  • @jason6411
    @jason6411 14 дней назад +2

    赞内容。博主背景音隔一段时间有咚咚声,能麻烦把它关掉吗😂

  • @waynechiu9078
    @waynechiu9078 15 дней назад

    問下Mamba講過了嗎

  • @shantou
    @shantou 14 дней назад

    看完一直在思考这个咚咚声是怎么来的

  • @codecodefly
    @codecodefly 13 дней назад

    美女陪聊与管道疏通,看似毫无关联,实则意味深长😂😂😂

  • @dreamingkid2227
    @dreamingkid2227 15 дней назад

    最近更新的有点慢啊!还想不想要十万粉丝的牌子了?

  • @dennissoso4749
    @dennissoso4749 15 дней назад +1

    你這字幕加了更難看懂。。

    • @phdvlog2024
      @phdvlog2024  15 дней назад

      😂

    • @phdvlog2024
      @phdvlog2024  15 дней назад

      美国人都不加字幕的,纯听力。依赖太多并不好

    • @niauwu
      @niauwu 14 дней назад +1

      真的怪難受的,一個一個詞蹦出來,如果辨識正確還可接受,辨識不正確時,後面的詞還會修改前面的詞,超難看的。為甚麼不用剪映或Whisper進行語音字幕辨識呢?

    • @phdvlog2024
      @phdvlog2024  14 дней назад

      麻烦 而且我是老电脑了,用坏了换新的