请教老师,a cat in the snow, 当text encoder时候,是每一个token生成对应向量,那么5个token有5个向量,10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer, 把整个句子的意思转变成一个向量。
老師不好意思請教您一個問題,假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候,剛好也sample出雜訊n,但文字敘述是"a person in the snow",請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?
感謝黃敬峰先生提供字幕
感謝老師時常貢獻您寶貴的知識!
有一个紧跟前沿技术又会讲课的高水平老师,是学生们的幸事。感谢李老师无私分享😘
4:03 1024x1024
5:39 5:40 5:46 CLIP Score
6:54 U-Net size
6:59 9:48 13:54 Imagen
7:04 增大
9:30 Fréchet
10:19 前一頁投影片
13:56 DALL-E
14:40 Downsampling
18:08 18:30 19:16 Midjourney
19:31 state-of-the-art
週更影片中我最想追的就是李老師的教學影片了!
下週停更一次喔
感謝老師上傳影片,以前學生時期碩論是做ML相關(約10年前),但畢業開始工作後就完全沒碰了,最近AI應用暴發,回來看才發現已經有一堆名詞不認識,老師影片真的造褔了廣大的學子們。 有發現老師影片並不是全部都有字幕,就想到不知道現在的AI在幫忙產生影片SRT字幕檔上的效果如何。
0:00 简单介绍三家的套路有啥异同
4:30 首先介绍第 1 个Encoder
11:43 然后介绍第 3 个 Decoder
15:01 最后介绍第 2 个 Generation Model
講的太好了,簡直是人類版的ChatGPT
其實是ChatGPT已經學過李宏毅老師的套路了
最想聽的課程來了!!!🎉🎉🎉
讲的太好了,李老师。让没做过生成模型的我也对SOTA的生成式模型有了大致的了解,十分感谢!
雪中送炭, 非常感谢李宏毅老师.
這禮拜也跟上進度了 感謝老師!!
李老师的课没有高谈阔论,一次听懂,讲得通俗易懂
15:55 这里在生成Latent Representation的时候用到了Encoder,然后再向Latent Representation中加入噪声得到Generation Model的训练资料。那这个Encoder是在Generation Model训练的过程中一起训练的吗?
我也有这个问题。我目前的猜想是我们只用图片训练了一个autoencoder,然后用autoencoder里的encoder生成训练generation model的latent representation。在生成图片时,我们用autoencoder里的decoder再把生成的latent representation返回pixel space。
老师请教一下,15:25的encoder是不是autoencoder里的那个encoder?按照我的理解,decoder所期望的input应该是原本autoencoder里encoder的output,那么在训练的时候,我应该拿那个encoder来获得图片的latent representation,从而使得generation model能够得到decoder所期望的input。不知道这种理解是否正确?
True
太Nice了!!!圈粉了,学到了很多!
老師 你的影片沒有逐字稿 我有幫你生成 該如何給你呢~
非常感謝幫忙生成逐字稿,這可以造福更多學生,歡迎把逐字稿寄到我的信箱:hungyilee@ntu.edu.tw
感謝老師的講解,讓我在看完一堆國外youtuber的影片後,有了更清晰的輪廓!
另有幾個環節我一直無法搞懂,想請教老師,AI是怎麼理解繪畫中的「物理性質」與「風格問題」?
「物理性質」:例如光影表現,假設是狗頭人身,AI如何維持同一光源,頭與脖子間的影子又是如何判斷的呢?
「風格問題」:例如一隻畢卡索風格的狗,AI是如何轉化的呢?
感謝老師撥冗解答!
我也有这方面的疑惑,如果不同类别的光影需要像物品那样每张图重新做文字配对数据,工作量太大了,如果理解了明暗变化对应的向量关系,然后 AI 判断出来属于人类文字的某种光影描述,效率会很高
哇 期待!
thx and god bless.. regards from hong kong ^_^
感谢感谢,讲的太好了
为什么中间产物是图片的压缩版本,是考虑到内存大小的原因吗?
讲的太好了
installed, everything works, thanks!
感谢课程分享
感谢老师的解说。很容易懂
好有趣的课程
李老师真是台湾的mvp
请教老师,a cat in the snow, 当text encoder时候,是每一个token生成对应向量,那么5个token有5个向量,10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer, 把整个句子的意思转变成一个向量。
Stable Diffusion 所使用的 Text Encoder 是 CLIP ViT-L/14,這模型輸入句子最大長度為 77,在輸入時就會把 Text Padding (Truncate)為 77 再通過 CLIP ViT-L/14,輸出矩陣維度就是 77x768 (768 為 hidden_size),所以 Stable diffustion 的 Text encoder 會統一將句子弄成 77x768 矩陣。當然最新的 Stable Diffusion 一定會想辦法突破 77 長度的限制,例如拿其他 Text encoder 來做...
想請問17:05中的 Noise Predictor,是如何同時餵進三種參數(text input, noise input, and step)的?有相關論文可以提供嗎?
18:20 gaussian distribution出来的竟然是模糊的图片,解释依然令人费解,我觉得是因为加了文字的原因,而不是因为decoder。换而言之,一开始gaussian的第一张图绝对是杂乱无序的,只有当第二次输入加入文字后,才会显现出轮廓,即便没有decoder,我想应该也会这样。
有機會聽到老師說明LORA嗎?哈哈
讲的很清楚👍
老師不好意思請教您一個問題,假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候,剛好也sample出雜訊n,但文字敘述是"a person in the snow",請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?
12:39 唐突噴出
Please share the transcript of your lecture.
棒
讲错了一个东西,Midjourney在生成过程中,要把有噪声的latent转成x0再给decoder,这样就有模糊的过程图。不是把带噪声的latent直接给decoder,这样子出来的会全是噪声
請問x0是什麼
@@hwj8640 去读ddpm的paper。diffusion模型可以有不同的formulation,可以predict epsilon噪声,x0原图,或mu。这些都有公式可以转换。现在的模型一般predict epsilon,然后 ddim step 转成 mu。但要过decoder看过程图,就必须每一步转成x0再过decoder。
@@peterlin963 好,多謝了
原来如此,多谢
我想问一下decoder是分开训练的么?按照老师说的,这个decoder的训练似乎不需要考虑从输入的文字到输出的图片。感觉上是对输出做了一个变换,然后前面Encoder貌似用的pretrained model,对输入做一个变换。这样其实主要训练的就是中间的generator?
超级好
老師請問一下,像stable diffusion下載的safetensor, ckpt, LoRa都對應到diffusion model嗎?然後VAE對應到decoder model嗎?
請問stereo mix就是立體混音嗎? 那開啟google文件聽寫,錄音檔播放之後,桌機電腦需要另外接並開啟喇叭和麥克風嗎?
請問哪邊可以進一步了解encoder ,不太清楚用途和原理
学习了
老师怎么不更新了?
那中间产物直接是小图不是更方便吗?为何还会有选择中间产物是latent representation的呢?
小图难以满足香农定理,随机向量一般保留的高频信息比较多。
@@yoshiyuki1732ify这个解释哪一篇论文里有提到吗
感覺生文字也能用這個套路
2年没关注图像生成领域,怎么GAN已经没人在玩了吗?
这个Decoder感觉训练是在整个loop之外的?有些迷惑。
听的懵逼,还没有更基础一点的教程