【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

Поделиться
HTML-код
  • Опубликовано: 19 ноя 2024

Комментарии • 63

  • @HungyiLeeNTU
    @HungyiLeeNTU  Год назад +47

    感謝黃敬峰先生提供字幕

    • @nikeshoxmiles123
      @nikeshoxmiles123 Год назад +10

      感謝老師時常貢獻您寶貴的知識!

  • @飛鴻-q1c
    @飛鴻-q1c Год назад +34

    有一个紧跟前沿技术又会讲课的高水平老师,是学生们的幸事。感谢李老师无私分享😘

  • @ytl0623
    @ytl0623 Год назад +14

    4:03 1024x1024
    5:39 5:40 5:46 CLIP Score
    6:54 U-Net size
    6:59 9:48 13:54 Imagen
    7:04 增大
    9:30 Fréchet
    10:19 前一頁投影片
    13:56 DALL-E
    14:40 Downsampling
    18:08 18:30 19:16 Midjourney
    19:31 state-of-the-art

  • @TheBeader
    @TheBeader Год назад +75

    講的太好了,簡直是人類版的ChatGPT

    • @hudsonvan4322
      @hudsonvan4322 9 месяцев назад +5

      其實是ChatGPT已經學過李宏毅老師的套路了

  • @dorgon-research
    @dorgon-research Год назад +7

    感謝老師上傳影片,以前學生時期碩論是做ML相關(約10年前),但畢業開始工作後就完全沒碰了,最近AI應用暴發,回來看才發現已經有一堆名詞不認識,老師影片真的造褔了廣大的學子們。 有發現老師影片並不是全部都有字幕,就想到不知道現在的AI在幫忙產生影片SRT字幕檔上的效果如何。

  • @皇甫承佑-x5j
    @皇甫承佑-x5j Год назад +5

    週更影片中我最想追的就是李老師的教學影片了!

  • @HungyiLeeNTU
    @HungyiLeeNTU  Год назад +11

    下週停更一次喔

  • @蒂蒂-f7o
    @蒂蒂-f7o Год назад +8

    最想聽的課程來了!!!🎉🎉🎉

  • @蓝狐
    @蓝狐 Год назад +4

    0:00 简单介绍三家的套路有啥异同
    4:30 首先介绍第 1 个Encoder
    11:43 然后介绍第 3 个 Decoder
    15:01 最后介绍第 2 个 Generation Model

  • @FirminShao
    @FirminShao Год назад +1

    讲的太好了,李老师。让没做过生成模型的我也对SOTA的生成式模型有了大致的了解,十分感谢!

  • @iLOGICNOTE
    @iLOGICNOTE 9 месяцев назад +1

    雪中送炭, 非常感谢李宏毅老师.

  • @lidongxing
    @lidongxing Год назад

    李老师的课没有高谈阔论,一次听懂,讲得通俗易懂

  • @nikeshoxmiles123
    @nikeshoxmiles123 Год назад +10

    老師 你的影片沒有逐字稿 我有幫你生成 該如何給你呢~

    • @HungyiLeeNTU
      @HungyiLeeNTU  Год назад +4

      非常感謝幫忙生成逐字稿,這可以造福更多學生,歡迎把逐字稿寄到我的信箱:hungyilee@ntu.edu.tw

  • @nanakaka7
    @nanakaka7 Год назад +1

    這禮拜也跟上進度了 感謝老師!!

  • @joyfudesign
    @joyfudesign Год назад +4

    感謝老師的講解,讓我在看完一堆國外youtuber的影片後,有了更清晰的輪廓!
    另有幾個環節我一直無法搞懂,想請教老師,AI是怎麼理解繪畫中的「物理性質」與「風格問題」?
    「物理性質」:例如光影表現,假設是狗頭人身,AI如何維持同一光源,頭與脖子間的影子又是如何判斷的呢?
    「風格問題」:例如一隻畢卡索風格的狗,AI是如何轉化的呢?
    感謝老師撥冗解答!

    • @蓝狐
      @蓝狐 Год назад +2

      我也有这方面的疑惑,如果不同类别的光影需要像物品那样每张图重新做文字配对数据,工作量太大了,如果理解了明暗变化对应的向量关系,然后 AI 判断出来属于人类文字的某种光影描述,效率会很高

  • @binren8267
    @binren8267 Год назад

    太Nice了!!!圈粉了,学到了很多!

  • @PeiyangNi
    @PeiyangNi 11 месяцев назад +2

    15:55 这里在生成Latent Representation的时候用到了Encoder,然后再向Latent Representation中加入噪声得到Generation Model的训练资料。那这个Encoder是在Generation Model训练的过程中一起训练的吗?

    • @jiashupan9181
      @jiashupan9181 11 месяцев назад

      我也有这个问题。我目前的猜想是我们只用图片训练了一个autoencoder,然后用autoencoder里的encoder生成训练generation model的latent representation。在生成图片时,我们用autoencoder里的decoder再把生成的latent representation返回pixel space。

  • @aiden3596
    @aiden3596 Год назад +3

    老师请教一下,15:25的encoder是不是autoencoder里的那个encoder?按照我的理解,decoder所期望的input应该是原本autoencoder里encoder的output,那么在训练的时候,我应该拿那个encoder来获得图片的latent representation,从而使得generation model能够得到decoder所期望的input。不知道这种理解是否正确?

    • @j-jd8yf
      @j-jd8yf 5 месяцев назад

      True

  • @En-pe3sh
    @En-pe3sh 10 месяцев назад

    老師不好意思請教您一個問題,假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候,剛好也sample出雜訊n,但文字敘述是"a person in the snow",請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?

  • @pleasuremore
    @pleasuremore 11 месяцев назад

    感谢课程分享

  • @sanzhang-ph4pr
    @sanzhang-ph4pr 4 месяца назад +1

    为什么中间产物是图片的压缩版本,是考虑到内存大小的原因吗?

  • @716Lufei
    @716Lufei Год назад

    感谢感谢,讲的太好了

  • @lingshanliu5812
    @lingshanliu5812 Год назад

    哇 期待!

  • @wuyanchu
    @wuyanchu Год назад

    thx and god bless.. regards from hong kong ^_^

  • @mikitan5782
    @mikitan5782 Год назад +1

    好有趣的课程

  • @llyy7386
    @llyy7386 Год назад

    感谢老师的解说。很容易懂

  • @Richard-k5x4j
    @Richard-k5x4j 13 дней назад

    李老师真是台湾的mvp

  • @張功逸
    @張功逸 Год назад

    想請問17:05中的 Noise Predictor,是如何同時餵進三種參數(text input, noise input, and step)的?有相關論文可以提供嗎?

  • @蘇柏廷
    @蘇柏廷 Год назад +1

    有機會聽到老師說明LORA嗎?哈哈

  • @jiacshane7952
    @jiacshane7952 Год назад +2

    讲的太好了

  • @wenquanchang4903
    @wenquanchang4903 Год назад

    installed, everything works, thanks!

  • @femtogary3723
    @femtogary3723 Год назад +1

    请教老师,a cat in the snow, 当text encoder时候,是每一个token生成对应向量,那么5个token有5个向量,10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer, 把整个句子的意思转变成一个向量。

    • @run963741
      @run963741 Год назад +2

      Stable Diffusion 所使用的 Text Encoder 是 CLIP ViT-L/14,這模型輸入句子最大長度為 77,在輸入時就會把 Text Padding (Truncate)為 77 再通過 CLIP ViT-L/14,輸出矩陣維度就是 77x768 (768 為 hidden_size),所以 Stable diffustion 的 Text encoder 會統一將句子弄成 77x768 矩陣。當然最新的 Stable Diffusion 一定會想辦法突破 77 長度的限制,例如拿其他 Text encoder 來做...

  • @zhangbo0037
    @zhangbo0037 6 месяцев назад

  • @garfieldlavi
    @garfieldlavi Год назад

    老師請問一下,像stable diffusion下載的safetensor, ckpt, LoRa都對應到diffusion model嗎?然後VAE對應到decoder model嗎?

  • @jason77nhri
    @jason77nhri Год назад

    請問stereo mix就是立體混音嗎? 那開啟google文件聽寫,錄音檔播放之後,桌機電腦需要另外接並開啟喇叭和麥克風嗎?

  • @FirminShao
    @FirminShao Год назад

    讲的很清楚👍

  • @Aru-z4q
    @Aru-z4q Год назад

    請問哪邊可以進一步了解encoder ,不太清楚用途和原理

  • @j-jd8yf
    @j-jd8yf 5 месяцев назад

    18:20 gaussian distribution出来的竟然是模糊的图片,解释依然令人费解,我觉得是因为加了文字的原因,而不是因为decoder。换而言之,一开始gaussian的第一张图绝对是杂乱无序的,只有当第二次输入加入文字后,才会显现出轮廓,即便没有decoder,我想应该也会这样。

  • @peterlin963
    @peterlin963 Год назад +1

    讲错了一个东西,Midjourney在生成过程中,要把有噪声的latent转成x0再给decoder,这样就有模糊的过程图。不是把带噪声的latent直接给decoder,这样子出来的会全是噪声

    • @hwj8640
      @hwj8640 Год назад +1

      請問x0是什麼

    • @peterlin963
      @peterlin963 Год назад +2

      @@hwj8640 去读ddpm的paper。diffusion模型可以有不同的formulation,可以predict epsilon噪声,x0原图,或mu。这些都有公式可以转换。现在的模型一般predict epsilon,然后 ddim step 转成 mu。但要过decoder看过程图,就必须每一步转成x0再过decoder。

    • @hwj8640
      @hwj8640 Год назад

      @@peterlin963 好,多謝了

    • @aaronyang6917
      @aaronyang6917 Год назад

      原来如此,多谢

    • @yoshiyuki1732ify
      @yoshiyuki1732ify Год назад

      我想问一下decoder是分开训练的么?按照老师说的,这个decoder的训练似乎不需要考虑从输入的文字到输出的图片。感觉上是对输出做了一个变换,然后前面Encoder貌似用的pretrained model,对输入做一个变换。这样其实主要训练的就是中间的generator?

  • @miku3920
    @miku3920 Год назад

    感覺生文字也能用這個套路

  • @shanggangli369
    @shanggangli369 Год назад

    超级好

  • @fgh680
    @fgh680 Год назад

    Please share the transcript of your lecture.

  • @victornanka
    @victornanka Год назад

    学习了

  • @atlrytusername
    @atlrytusername Год назад

    老师怎么不更新了?

  • @ruanjiayang
    @ruanjiayang Год назад

    2年没关注图像生成领域,怎么GAN已经没人在玩了吗?

  • @ethaneaston6443
    @ethaneaston6443 Год назад

    那中间产物直接是小图不是更方便吗?为何还会有选择中间产物是latent representation的呢?

    • @yoshiyuki1732ify
      @yoshiyuki1732ify Год назад

      小图难以满足香农定理,随机向量一般保留的高频信息比较多。

    • @itchainx4375
      @itchainx4375 Год назад

      @@yoshiyuki1732ify这个解释哪一篇论文里有提到吗

  • @yoshiyuki1732ify
    @yoshiyuki1732ify Год назад

    这个Decoder感觉训练是在整个loop之外的?有些迷惑。

  • @waltermossis2694
    @waltermossis2694 Год назад

    听的懵逼,还没有更基础一点的教程

  • @洗金瓶-l8k
    @洗金瓶-l8k Год назад