【機器學習2021】自注意力機制 (Self-attention) (上)

Поделиться
HTML-код
  • Опубликовано: 25 дек 2024

Комментарии • 101

  • @RobinHappyLife
    @RobinHappyLife 3 года назад +249

    李宏毅教授的团队,让大家极大地节省了时间,节省了生命损耗。堪称救苦救难,胜造七级浮屠 :)

    • @li-pingho1441
      @li-pingho1441 2 года назад +6

      同意 拯救大家的人生

    • @willy7703
      @willy7703 Год назад +10

      雖然您講得很誇張 但我很認同是真的

  • @zhewang1294
    @zhewang1294 3 года назад +299

    李老师好!我是来自大陆的您的粉丝~ 深度学习的课我和我身边的人基本都在跟随于您,您的课在中文圈里绝对是顶级的,现在来法国读博啦~~ 我会继续跟随下去! 祝老师身体健康~~

    • @a12050429
      @a12050429 Год назад +7

      只有我看成黑暗大陸嗎?

    • @joy79419
      @joy79419 Год назад +4

      最頂的

    • @汪浩-x2o
      @汪浩-x2o Год назад

      不碰点政治都不会做人了是吧,认认真真讨论技术不好吗@@a12050429

    • @sendohzhang110
      @sendohzhang110 11 месяцев назад

      @@a12050429 not funny here,focus on deep learning plz

    • @michaelwang66
      @michaelwang66 11 месяцев назад

      难绷@@a12050429

  • @Ahwu_AIClass
    @Ahwu_AIClass 10 дней назад +1

    🎯 Key points for quick navigation:
    00:01 *🧠 Self-Attention解決變長輸入挑戰*
    - 簡介Self-Attention架構,解決輸入為變長向量的問題,適用於語言和序列資料處理。
    - 預測場景從固定長度向量轉為序列處理,輸入向量數量和大小可能不同。
    - 例子:文字處理中的句子長度變化。
    02:06 *🧩 Word Embedding介紹*
    - 簡介Word Embedding,解決One-Hot Encoding無語義資訊的問題。
    - 提供語義向量,讓詞彙相似性更明顯,如動物和動詞分群。
    - 例子:如何從向量分布觀察語義關係。
    03:08 *🎵 聲音訊號與序列表示*
    - 將聲音訊號切分為小窗口,每段描述為向量。
    - 描述方式:每秒鐘音訊分成100個Frame,對應成序列。
    - 古聖先賢的參數調整方式提升描述效果。
    05:15 *🌐 Graph作為向量集合*
    - Graph應用於社交網路與分子模型。
    - 節點向量化表示個體特性,關係定義為邊。
    - Graph用於藥物發現及其他研究領域,特徵由模型輸入處理。
    06:50 *📊 輸入與輸出對應關係的類型*
    - 第一類型:輸入與輸出數目相同,例子包括POS Tagging和語音辨識的簡化任務。
    - 第二類型:整個序列僅輸出一個Label,如情感分析。
    - 將不同場景輸出需求分類解釋,便於理解應用範圍。
    11:24 *🔄 Sequence-to-Sequence 任務介紹*
    - 介紹 Sequence-to-Sequence 的任務類型,如翻譯及語音辨識,
    - 簡述作業五的內容,未來會進一步講解相關應用。
    11:53 *🏷️ Sequence Labeling 概念*
    - 解釋 Sequence Labeling 任務,需為每個向量分配標籤,
    - 使用 Fully-Connected Network 的局限性,如無法考慮上下文資訊。
    13:27 *🌐 Context Window 的應用*
    - 引入前後窗口的概念,改善 Fully-Connected Network 的效果,
    - 說明作業二的處理方法,看多個 frame 判斷音標。
    15:01 *🚧 長序列問題與局限性*
    - 探討用大窗口處理整個序列的挑戰,如計算量及過擬合風險,
    - 強調需更高效的方法考慮完整序列資訊。
    16:04 *✨ Self-Attention 技術簡介*
    - Self-Attention 能同時考慮整個序列資訊,
    - 輸入與輸出向量數量一致,考慮上下文後生成結果。
    17:33 *🤖 Self-Attention 與 Transformer*
    - Self-Attention 可多次使用,結合 Fully-Connected Network 增強效果,
    - 提及 Transformer 的架構及其關鍵角色。
    19:02 *🔍 Self-Attention 計算過程*
    - Self-Attention 將序列向量生成新向量,考慮整體關聯性,
    - 解釋向量之間關聯的計算方式,為後續分類或回歸提供依據。
    23:08 *🔍 Self-Attention 的關聯性計算*
    - 解釋如何利用向量計算關聯性,特別是使用 Query 和 Key 的方式,
    - 提到用內積計算 Query 和 Key 的關聯性,得出 Attention Score(注意力分數),
    - 提到每個向量間都需要進行關聯性計算,包括與自身的計算。
    25:42 *📊 使用 Soft-Max 進行歸一化*
    - 說明將 Attention Score 通過 Soft-Max 進行歸一化以得到 α',
    - 提到 Soft-Max 並非唯一選擇,可以使用其他激活函數(如 ReLU),並鼓勵實驗,
    - 強調 Soft-Max 是最常見的選擇,但根據不同情境可以嘗試優化。
    27:18 *✨ 抽取重要資訊*
    - 說明如何根據 α' 提取序列中重要資訊,
    - 解釋將每個向量乘上權重矩陣 Wv 生成新的向量,再依據 α' 加權求和,
    - 強調利用 Attention 分數對資訊進行篩選,突出相關性最高的部分。
    Made with HARPA AI

  • @吩咐豆腐干
    @吩咐豆腐干 3 года назад +51

    李老师好!我也是来自大陆的您的粉丝~ 您绝对是顶级的,我会继续跟随下去! 祝老师身体健康~~

  • @LifeKiT-i
    @LifeKiT-i Год назад +21

    李老師你好! 我是香港大學computer science的學生, 我覺得你教得特別清晰, 遠比我港大的老師要好...請你保持upload影片給我們學習!!

    • @XXZSaikou
      @XXZSaikou 11 месяцев назад +2

      哈哈哈我也是 HKU CS 学生

  • @yongliangteh7957
    @yongliangteh7957 Год назад +5

    Watched quite a few videos on self-attention and this is hands-down the best explanation I have seen. World-class professor on ML without a doubt.

  • @liangzhu6074
    @liangzhu6074 3 года назад +9

    刚开始学,李老师的课程是我能接触到的最简单最清晰的了

  • @lilianaaa98
    @lilianaaa98 9 месяцев назад +4

    看李老师的视频看出了追番的快感❤❤

  • @pythmalion2080
    @pythmalion2080 3 года назад +14

    李老师讲的机器学习真的很有美感, 之前在论文中死活看不明白的东西一下子就搞懂了

  • @客家饒舌執牛耳
    @客家饒舌執牛耳 3 года назад +10

    台灣最帥男人 只服李教授

  • @martinkuhk
    @martinkuhk 3 года назад +11

    The best explanation on the attention mechanism I've ever watched so far. Superb.

  • @梵天神器
    @梵天神器 2 года назад +1

    听完李老师的课真的有一种醍醐灌顶的感觉,强烈推荐任何对机器学习/深度学习感兴趣的人听一下李老师的课。

  • @aili8573
    @aili8573 Год назад +1

    您简直就是我的神!!!呜呜呜,感到哭了。希望老师越来越好

  • @CatnissCullen
    @CatnissCullen Год назад +4

    老师好!我是来自大陆的粉丝!现在本科大二然后在学校做科研实习,是导师推荐我看您的视频的,真的好爱看讲得好清晰易懂!很感激您的视频带我入门机器学习和深度学习!!

  • @derek142
    @derek142 10 месяцев назад

    感谢李老师的分享,逻辑清晰,表达流畅,受益匪浅,祝您一切顺利。

  • @sumowll8903
    @sumowll8903 Год назад +1

    李老师讲的太有条理了! 听了好多英文的课程都没有弄明白的问题 一下子就清晰了。 来自美国的华人粉丝

  • @fdm-foredemo2598
    @fdm-foredemo2598 10 месяцев назад +1

    Hi Prof Lee, I am a fans from Singapore. Thanks so much for your lectures!

  • @xinxinwang3700
    @xinxinwang3700 3 года назад +9

    精彩!太喜欢您的课了

  • @southfox2012
    @southfox2012 6 месяцев назад +1

    Great job ! 听了好几个视频了,这个最棒.

  • @deskeyi
    @deskeyi Год назад +2

    這絕對是我見過最棒的deep learning課,不限於中文,用最通俗的語言講明白看起來很複雜的東西😂其實只看原paper沒有大神講解,即使是專業人士也會比較迷茫,k、v那裡我看到這裡才明白那個點乘具體的位置😅之前自己腦補得不對

  • @vivisol-qi
    @vivisol-qi 4 месяца назад +1

    这里之所以要用softmax而不用其他激活函数,是因为最好使输入元素之间各个关联度之和为1,这样才有意义。

  • @zerojuhao
    @zerojuhao Год назад

    非常好的课程,使我的大脑高兴,爱来自丹麦😃

  • @li-pingho1441
    @li-pingho1441 2 года назад +5

    老師講的太好了....全網第一

  • @电热毯
    @电热毯 Год назад +1

    非常好课程,爱来自日本

  • @DaviPeng
    @DaviPeng Год назад

    It is incredibly crystal clear for the layman ! Many thanks !

  • @richard5018
    @richard5018 3 года назад +4

    字幕打成phonetic的部分李教授應該是指phoneme喔

  • @hb.z7992
    @hb.z7992 3 года назад +4

    讲的真好,自己懂的深入才能讲的浅出。

  • @Recordingization
    @Recordingization Год назад

    请问老师这里面的a2的key是什么,怎么求出来的?视频在24:28的位置.

  • @pengdu7233
    @pengdu7233 Год назад +2

    非常感谢。直接啃论文太痛苦了

  • @lsycxyj
    @lsycxyj Год назад

    有大神能解答一下吗:
    1. 为什么alpha需要自己与自己相乘?
    2. 为什么向量要分q和k,而不能是只有k,alpha由k相乘所得?
    3. 为什么b要是乘另一个v所得,而不能是直接通过某些方式合并alpha所得?

  • @jayedision1889
    @jayedision1889 Год назад

    受益匪浅,非常感谢李老师

  • @zhouoxosmodefr4061
    @zhouoxosmodefr4061 Год назад

    老师说的真的好!人在慕尼黑,拯救我的endterm哈哈哈

  • @zenios-br9en
    @zenios-br9en 6 месяцев назад +1

    感谢李宏毅老师

  • @EgD996
    @EgD996 3 года назад +2

    word embedding: ruclips.net/video/X7PH3NuYW0Q/видео.html (普通话)

  • @姜博怀
    @姜博怀 3 года назад +1

    老师您好,想问下attention 的 Wq Wv Wk 是共享权重么, 因为看到tf bert 原代码 Q,K,V使用的dense 而不是conv

  • @niceonea4343
    @niceonea4343 Год назад

    为什么不用原始输入向量a_1,而要使用新的v来计算最后的结果

  • @halilozcan8
    @halilozcan8 Год назад

    any chance to present in english , seems great content

  • @Teng_XD
    @Teng_XD 3 года назад +3

    在那里可以看助教的程序?

    • @HungyiLeeNTU
      @HungyiLeeNTU  3 года назад +6

      都在這裡了: speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

  • @HebrewSongPod
    @HebrewSongPod Год назад

    想請問老師,作業的內容有公開嗎?

  • @leohsusolid
    @leohsusolid 3 года назад

    想請問老師25:30 自己與自己的關聯性一定是1嗎?

  • @garfieldlavi
    @garfieldlavi Год назад

    請問alpha' 跟 W的相乘也是element wise的相乘嗎?

  • @leohsusolid
    @leohsusolid 3 года назад +1

    想在請問老師27:16 的transform Wv跟前面的Wk要怎麼決定呢?謝謝~

    • @EduanHa
      @EduanHa 3 года назад

      也有同樣問題,是random initial嗎?

    • @DED_Search
      @DED_Search 3 года назад

    • @jiangwuheng
      @jiangwuheng Год назад

      Trainable parameter.

  • @difeitang1823
    @difeitang1823 2 года назад +1

    我永远喜欢李宏毅老师

  • @ierjgtmrels
    @ierjgtmrels 2 года назад +7

    首先感謝李老師,這是我見過對attention的最好的教學。想請教一個問題,就是為什麼a1 要算q1 ,k1,然後計算自己的attention score。q1 k1的物理意義是什麼呢?

    • @ajnik9081
      @ajnik9081 2 года назад +15

      我自己浅显的理解:QKV分别代表“查询标准”,“待查询指标”,和“本质”。Q是a去查询的时候,带着的查询标准。K是任何单字被查询的时候,展现出来的“待查询指标”。V是每个单字提取出来的本质。
      我打个单身汉找对象的比方吧。假设一个人要找对象,他一共有十个潜在的人选(包括他自己,这里请忽略性别)。Q代表他的择偶标准(比如说外形7分,年收入100万,年龄25岁以下,房子豪华)。K代表一个目标对象表现出来的指标(比如努力打扮让外形变成了6分,装成年收入60万,显得很年轻26岁,房子装修得还不错)。V代表一个目标对象本质的指标(比如这个人本质是个外形4分的人,年收入实际只有40万,实际年龄32岁)。那么Q和K相乘,实际上就是“择偶标准”和“表现出来的样子”里的匹配程度。然后通过这个匹配程度,和每个对象的本质数值做一个加权求和,出来的结果就是找到的对象最后所包含的数值。
      这里有两个点可以注意一下:第一个就是你未必最喜欢你自己。你跟自己的QK相似度未必是最高的。第二就是QKV本质其实可以是一样的。比如如果在一个平行世界里,人们的择偶标准和他表现出来的样子以及他的本质完全一致,那么QKV没有必要存在。QKV存在的意义就是模拟这类“我想要的”和“每个人表现出来的”以及“每个人实际的”样子是不一样的情况。但这里也有一个假设,就是本质上QKV乘以的都是同一个东西,所以同一个词的q,k,v不会差得太离谱,类比到相亲,你可以理解为一个外形3分的人很难装成外形9分,一个年收入10万的人很难装成年收入500万。

    • @mgvk6005
      @mgvk6005 Год назад +2

      我的理解是这样的,Q代表你在浏览器中输入的问题,K代表浏览器返回的不同网页(回答),attention score由Q和K计算得到,代表我们对每个网页的质量判断,判断我们觉得哪个网页应该更容易找到问题的解答。最后V代表每个网页中的内容,之后由attention score和V计算得到b,代表我们最后得到最终答案

  • @ruanjiayang
    @ruanjiayang 3 года назад +2

    老师念dot product的时候太可爱了。。。

  • @bnglr
    @bnglr 2 года назад

    这是2021年录制的还是之前的视频?

  • @flisztf5333
    @flisztf5333 2 года назад

    请问李老师,如果权重都是共享的,那么self attention是如何做pos tagging的?因为权重共享,相同的输入应该就是相同的输出了呀,所以做pos tagging是要加窗口结合上下文作为输入吗?

  • @jinli1835
    @jinli1835 8 месяцев назад

    想看作业的内容

  • @baoyanguo2017
    @baoyanguo2017 3 года назад

    李老师你好,我在您的网站上看到有2020年春季的课程,但是只找到了相关的作业和PPT,请问哪里有相关的视频呢?我在 RUclips 上面并没有找到 2020年春季的视频

  • @FlashK246
    @FlashK246 2 года назад +1

    讲得太好了!赞赞赞!

  • @Recordingization
    @Recordingization Год назад

    wk和wq都是神经网络里的参数吗?

  • @binchaopeng2123
    @binchaopeng2123 3 года назад

    哪里可以看您的线上直播课呢?

  • @tonygan1132
    @tonygan1132 7 месяцев назад

    硬Train一发神教教徒,支持一下

  • @張家睿-w5w
    @張家睿-w5w Год назад

    不知道哪邊有作業可以讓我練習…

    • @YanVictor-ex4ug
      @YanVictor-ex4ug Месяц назад

      我也在找...张前辈有可以分享的资源吗..万分感谢

  • @jiashupan9181
    @jiashupan9181 3 года назад

    请问Prof. Wu的影片会上传吗?

    • @hanwang4779
      @hanwang4779 3 года назад

      同问,谢谢!

    • @HungyiLeeNTU
      @HungyiLeeNTU  3 года назад +2

      @@hanwang4779 不好意思,我這邊不會在 YT 上公開 Prof. Wu 的影片

    • @hanwang4779
      @hanwang4779 3 года назад

      @@HungyiLeeNTU 很可惜了,不过还是特别感谢李老师的精彩课程!

  • @baobaolong423
    @baobaolong423 2 года назад

    常常来温故而知新。

  • @feifeizhang7757
    @feifeizhang7757 Год назад

    太厉害了!老师

  • @陈伟杰-u1o
    @陈伟杰-u1o 3 года назад +2

    (下)还没有update吗?

    • @HungyiLeeNTU
      @HungyiLeeNTU  3 года назад +5

      還沒有 update ,而且本週我沒有上課,所以下次 update 的時間是 3/26

  • @zongtaowang7840
    @zongtaowang7840 3 года назад

    李老师,Wq,Wk,Wv应该不是共享的吧,是不是讲错了?

    • @HungyiLeeNTU
      @HungyiLeeNTU  3 года назад

      請問你的問題是來自影片中的哪一個段落呢?

    • @zongtaowang7840
      @zongtaowang7840 3 года назад

      @@HungyiLeeNTU 比如:24:01的ppt,看上去不同的a_i都是和相同的W^q相乘,也就是W^q是共享的,这个是对的吗?为什么要共享,而不是比如W^{q}_{i},每个a_i对应一个不同的W呢?

    • @HungyiLeeNTU
      @HungyiLeeNTU  3 года назад +1

      @@zongtaowang7840 是共享的沒錯喔

    • @zongtaowang7840
      @zongtaowang7840 3 года назад

      @@HungyiLeeNTU 谢谢您的回复,但是为什么要共享呢?有什么目的吗?

    • @user-xd3yp1kv4y
      @user-xd3yp1kv4y 3 года назад +1

      您好,
      如果: "W^{q}_{i},每个a_i对应一个不同的W",
      我认为您可以将 "非共享W" 视作一个共享的 W^q 生成了 query, 并分别于每个query注入与 i 关联的位置信息
      但 i 的位置信息可以透过 Positional Encoding 提供就好
      而且 "非共享W" 会导致你的 a 长度必须固定, 那么整个数学式写下来就是等效一个"对 a序列 的全连接层FCN"了

  • @luery
    @luery 3 года назад

    谢谢老师

  • @taodjango5877
    @taodjango5877 Год назад

    讲得好

  • @kevin80934
    @kevin80934 5 месяцев назад

    2:39

  • @ilovelife-m4t
    @ilovelife-m4t 2 года назад +1

    听完我怀疑我是不是在学机器学习,听完感觉好简单

  • @senx8758
    @senx8758 Год назад

    比看paper 容易多了。 谢谢

  • @beizhou2488
    @beizhou2488 3 года назад +1

    李老师,现在的RNN基本都被Self-Attention取代了吗?

    • @窃格电动车养你
      @窃格电动车养你 3 года назад +7

      ruclips.net/video/S27pHKBEp30/видео.html 这个视频将lstm与transformer进行了解析,最终的结论是transformer已经非常优秀了,但有些情况下仍然还是首选lstm,可以参考一下,不过没有字幕

  • @binghongli
    @binghongli 11 месяцев назад

    把一些模糊地帶用古聖先賢帶過,這個說法不太好。

  • @btc1000k
    @btc1000k Год назад

    老师,你是留学党的精神粮食😂

  • @gjlmotea
    @gjlmotea 5 месяцев назад +1

    神串留

  • @FengLi-x6k
    @FengLi-x6k Год назад

    mark

  • @zhaungjiexuan0854
    @zhaungjiexuan0854 Год назад

    666

  • @CornuDev
    @CornuDev 9 месяцев назад

  • @left_right_men
    @left_right_men 3 года назад +9

    台灣最帥男人 只服李教授