【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

Hung-yi Lee

Просмотров 97 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 31 дек 2024

Комментарии • 64

@HungyiLeeNTU Год назад ⁺⁴⁷
感謝黃敬峰先生提供字幕
@nikeshoxmiles123 Год назад ⁺¹⁰
感謝老師時常貢獻您寶貴的知識！
@飛鴻-q1c Год назад ⁺³⁴
有一个紧跟前沿技术又会讲课的高水平老师，是学生们的幸事。感谢李老师无私分享😘
@ytl0623 Год назад ⁺¹⁴
4:03 1024x1024
5:39 5:40 5:46 CLIP Score
6:54 U-Net size
6:59 9:48 13:54 Imagen
7:04 增大
9:30 Fréchet
10:19 前一頁投影片
13:56 DALL-E
14:40 Downsampling
18:08 18:30 19:16 Midjourney
19:31 state-of-the-art
@皇甫承佑-x5j Год назад ⁺⁶
週更影片中我最想追的就是李老師的教學影片了!
@HungyiLeeNTU Год назад ⁺¹²
下週停更一次喔
@dorgon-research Год назад ⁺⁷
感謝老師上傳影片，以前學生時期碩論是做ML相關(約10年前)，但畢業開始工作後就完全沒碰了，最近AI應用暴發，回來看才發現已經有一堆名詞不認識，老師影片真的造褔了廣大的學子們。有發現老師影片並不是全部都有字幕，就想到不知道現在的AI在幫忙產生影片SRT字幕檔上的效果如何。
@蓝狐 Год назад ⁺⁴
0:00 简单介绍三家的套路有啥异同
4:30 首先介绍第 1 个Encoder
11:43 然后介绍第 3 个 Decoder
15:01 最后介绍第 2 个 Generation Model
@TheBeader Год назад ⁺⁷⁶
講的太好了，簡直是人類版的ChatGPT
@hudsonvan4322 10 месяцев назад ⁺⁵
其實是ChatGPT已經學過李宏毅老師的套路了
@蒂蒂-f7o Год назад ⁺⁸
最想聽的課程來了！！！🎉🎉🎉
@FirminShao Год назад ⁺¹
讲的太好了，李老师。让没做过生成模型的我也对SOTA的生成式模型有了大致的了解，十分感谢！
@iLOGICNOTE 11 месяцев назад ⁺¹
雪中送炭, 非常感谢李宏毅老师.
@nanakaka7 Год назад ⁺¹
這禮拜也跟上進度了感謝老師!!
@lidongxing Год назад
李老师的课没有高谈阔论，一次听懂，讲得通俗易懂
@PeiyangNi Год назад ⁺²
15:55 这里在生成Latent Representation的时候用到了Encoder，然后再向Latent Representation中加入噪声得到Generation Model的训练资料。那这个Encoder是在Generation Model训练的过程中一起训练的吗？
@jiashupan9181 Год назад ⁺¹
我也有这个问题。我目前的猜想是我们只用图片训练了一个autoencoder，然后用autoencoder里的encoder生成训练generation model的latent representation。在生成图片时，我们用autoencoder里的decoder再把生成的latent representation返回pixel space。
@aiden3596 Год назад ⁺⁴
老师请教一下，15:25的encoder是不是autoencoder里的那个encoder？按照我的理解，decoder所期望的input应该是原本autoencoder里encoder的output，那么在训练的时候，我应该拿那个encoder来获得图片的latent representation，从而使得generation model能够得到decoder所期望的input。不知道这种理解是否正确？
@j-jd8yf 6 месяцев назад ⁺¹
True
@binren8267 Год назад
太Nice了！！！圈粉了，学到了很多！
@nikeshoxmiles123 Год назад ⁺¹⁰
老師你的影片沒有逐字稿我有幫你生成該如何給你呢~
@HungyiLeeNTU Год назад ⁺⁴
非常感謝幫忙生成逐字稿，這可以造福更多學生，歡迎把逐字稿寄到我的信箱：hungyilee@ntu.edu.tw
@joyfudesign Год назад ⁺⁴
感謝老師的講解，讓我在看完一堆國外youtuber的影片後，有了更清晰的輪廓！
另有幾個環節我一直無法搞懂，想請教老師，AI是怎麼理解繪畫中的「物理性質」與「風格問題」?
「物理性質」：例如光影表現，假設是狗頭人身，AI如何維持同一光源，頭與脖子間的影子又是如何判斷的呢?
「風格問題」：例如一隻畢卡索風格的狗，AI是如何轉化的呢?
感謝老師撥冗解答!
@蓝狐 Год назад ⁺²
我也有这方面的疑惑，如果不同类别的光影需要像物品那样每张图重新做文字配对数据，工作量太大了，如果理解了明暗变化对应的向量关系，然后 AI 判断出来属于人类文字的某种光影描述，效率会很高
@lingshanliu5812 Год назад
哇期待！
@wuyanchu Год назад
thx and god bless.. regards from hong kong ^_^
@716Lufei Год назад
感谢感谢，讲的太好了
@sanzhang-ph4pr 6 месяцев назад ⁺¹
为什么中间产物是图片的压缩版本，是考虑到内存大小的原因吗？
@jiacshane7952 Год назад ⁺²
讲的太好了
@wenquanchang4903 Год назад
installed, everything works, thanks!
@pleasuremore Год назад
感谢课程分享
@llyy7386 Год назад
感谢老师的解说。很容易懂
@mikitan5782 Год назад ⁺¹
好有趣的课程
@Richard-k5x4j Месяц назад
李老师真是台湾的mvp
@femtogary3723 Год назад ⁺¹
请教老师,a cat in the snow, 当text encoder时候，是每一个token生成对应向量,那么5个token有5个向量，10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer，把整个句子的意思转变成一个向量。
@run963741 Год назад ⁺²
Stable Diffusion 所使用的 Text Encoder 是 CLIP ViT-L/14，這模型輸入句子最大長度為 77，在輸入時就會把 Text Padding (Truncate)為 77 再通過 CLIP ViT-L/14，輸出矩陣維度就是 77x768 (768 為 hidden_size)，所以 Stable diffustion 的 Text encoder 會統一將句子弄成 77x768 矩陣。當然最新的 Stable Diffusion 一定會想辦法突破 77 長度的限制，例如拿其他 Text encoder 來做...
@張功逸 Год назад
想請問17:05中的 Noise Predictor，是如何同時餵進三種參數(text input, noise input, and step)的？有相關論文可以提供嗎？
@j-jd8yf 6 месяцев назад
18:20 gaussian distribution出来的竟然是模糊的图片，解释依然令人费解，我觉得是因为加了文字的原因，而不是因为decoder。换而言之，一开始gaussian的第一张图绝对是杂乱无序的，只有当第二次输入加入文字后，才会显现出轮廓，即便没有decoder，我想应该也会这样。
@蘇柏廷 Год назад ⁺¹
有機會聽到老師說明LORA嗎?哈哈
@FirminShao Год назад
讲的很清楚👍
@En-pe3sh 11 месяцев назад
老師不好意思請教您一個問題，假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候，剛好也sample出雜訊n，但文字敘述是"a person in the snow"，請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?
@niko6968 26 дней назад
12:39 唐突噴出
@fgh680 Год назад
Please share the transcript of your lecture.
@zhangbo0037 7 месяцев назад
棒
@peterlin963 Год назад ⁺¹
讲错了一个东西，Midjourney在生成过程中，要把有噪声的latent转成x0再给decoder，这样就有模糊的过程图。不是把带噪声的latent直接给decoder，这样子出来的会全是噪声
@hwj8640 Год назад ⁺¹
請問x0是什麼
@peterlin963 Год назад ⁺²
@@hwj8640 去读ddpm的paper。diffusion模型可以有不同的formulation，可以predict epsilon噪声，x0原图，或mu。这些都有公式可以转换。现在的模型一般predict epsilon，然后 ddim step 转成 mu。但要过decoder看过程图，就必须每一步转成x0再过decoder。
@hwj8640 Год назад
@@peterlin963 好，多謝了
@aaronyang6917 Год назад
原来如此，多谢
@yoshiyuki1732ify Год назад
我想问一下decoder是分开训练的么？按照老师说的，这个decoder的训练似乎不需要考虑从输入的文字到输出的图片。感觉上是对输出做了一个变换，然后前面Encoder貌似用的pretrained model，对输入做一个变换。这样其实主要训练的就是中间的generator？
@shanggangli369 Год назад
超级好
@garfieldlavi Год назад
老師請問一下，像stable diffusion下載的safetensor, ckpt, LoRa都對應到diffusion model嗎？然後VAE對應到decoder model嗎？
@jason77nhri Год назад
請問stereo mix就是立體混音嗎? 那開啟google文件聽寫，錄音檔播放之後，桌機電腦需要另外接並開啟喇叭和麥克風嗎?
@Aru-z4q Год назад
請問哪邊可以進一步了解encoder ，不太清楚用途和原理
@victornanka Год назад
学习了
@atlrytusername Год назад
老师怎么不更新了？
@ethaneaston6443 Год назад
那中间产物直接是小图不是更方便吗？为何还会有选择中间产物是latent representation的呢？
@yoshiyuki1732ify Год назад
小图难以满足香农定理，随机向量一般保留的高频信息比较多。
@itchainx4375 Год назад
@@yoshiyuki1732ify这个解释哪一篇论文里有提到吗
@miku3920 Год назад
感覺生文字也能用這個套路
@ruanjiayang Год назад
2年没关注图像生成领域，怎么GAN已经没人在玩了吗？
@yoshiyuki1732ify Год назад
这个Decoder感觉训练是在整个loop之外的？有些迷惑。
@waltermossis2694 Год назад
听的懵逼，还没有更基础一点的教程
@洗金瓶-l8k Год назад

Следующие

Автовоспроизведение

【生成式AI】Diffusion Model 原理剖析 (1/4) (optional)