Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
下一段課程錄影會講 Diffusion 等經典的圖像生成方法,晚點再上傳
謝謝老師,繼續上課!
謝謝老師!上年您講解Diffusion Model的數學已經令我很受用!這次又可以學新東西了!
謝謝老師🎉🎉🎉
謝謝老師
重點整理:- 影片 - **生成式AI的影像生成兩方向**:生成式AI可依據影像生成對應的文字描述,或基於條件生成影像或影片,課程聚焦於後者。 - **GPT-4影像辨識的應用**:可識別影像中的細節並推測人物背景,但對審美問題通常迴避。 - **SORA影像生成模型**:OpenAI展示SORA生成非現實場景的影片效果,顯示生成式AI能創造擬真影像,但仍存在細微瑕疵,如場景物體變形。 - **影像生成瑕疵案例**:SORA生成多隻狼、塑膠椅的影片中顯示AI尚未完美處理物體結構和場景。 - **影像續寫與風格轉換**:AI可對影片進行風格轉換(如黑白轉彩色),適用於影像修復及畫質提升等。 - **Talking Head技術**:AI可根據錄音與照片生成合成影片,可應用於VTuber等虛擬人物生成。 - **ControlNet多條件生成**:使用草圖或姿態來生成特定影像的技術,透過ControlNet可基於不同的條件生成圖片。 - **圖片與影片的基本構成**:圖片由像素組成,影片由圖片連續組成。影片流暢度取決於每秒幀數(fps)。 - **影像生成的模型運作**:透過Encoder將圖片分割成Patch進行壓縮,再利用Decoder還原。圖片生圖模型通常使用Transformer的非自回歸生成。 - **生成品質的評估方法**:Clip模型能通過圖片與文本的相似性來評估生成效果,成為主流的生成圖片模型的評分方式。 - **影像生成的個人化方法**:透過少量樣本來客製化模型生成指定物件,如稱特定雕像為“S-STAR”,並進行微調。 - **影片生成的挑戰**:每秒生成高fps影片的計算量龐大,常用2D+1D的偽3D Attention來降低運算負擔。 - **流水線式生成方法**:生成影片的多階段模型,逐步提高解析度和幀數,最終生成高品質影片。- 補充概念 - **影像生成模型的計算負擔**:影片生成的Attention計算量龐大,常用Spatial(空間)和Temporal(時間)Attention結合來減少運算。 - **個人化生成技術的應用**:客製化影像生成技術允許生成特定物件的多樣化影像,減少文本描述的局限性。 - **影片生成的多步驟模型**:Imagen示例了多階段生成策略,每階段專注於一項特定任務(如解析度增強),提高生成效率。 - **生成模型的評估技術**:Clip模型透過圖文相似性評估生成品質,有助於克服純人力評估的局限。
🎉🎉🎉
老师帅⛈
老師講得很生動有趣🤣😆我上個月也有稍微研究一下 Sora我推薦也可以看一下OpenAI員工Head of Safety Systems--Lilian Weng她4/24 那篇部落格文章Diffusion Models for Video Generation講得也很詳細(但有點硬就是了)
这个和有些强化模型的方法还有feature aware的做法很像.
Spatial 和 Temporal attention 像极了视频编解码里的intra frame 和 inter frame。
老師是配合老黃嗎 上片時間從美國時間變台灣時間
同學,上課囉
谢谢老师的课程👍。想问一个问题,在文字生影片时,能不能patch只和它空间和时间上相邻进的patch 做attention呢?这样是不是可以更加大大减少attention的次数呢?
当然可以 有这种改进的paper 但是主流不这样做 因为用transformer本身就是追求non local的interaction,这样做相当于开倒车
Impressive, tks
氣球人那個已經被揭露是人工後製的😂
只要不讲 就不会被告😂😂
愛死!
第5
Neuro-sama
第一
老師最帥了!左邊那個有點娘,帥不帥就不好說了。
下一段課程錄影會講 Diffusion 等經典的圖像生成方法,晚點再上傳
謝謝老師,繼續上課!
謝謝老師!上年您講解Diffusion Model的數學已經令我很受用!這次又可以學新東西了!
謝謝老師🎉🎉🎉
謝謝老師
重點整理:
- 影片
- **生成式AI的影像生成兩方向**:生成式AI可依據影像生成對應的文字描述,或基於條件生成影像或影片,課程聚焦於後者。
- **GPT-4影像辨識的應用**:可識別影像中的細節並推測人物背景,但對審美問題通常迴避。
- **SORA影像生成模型**:OpenAI展示SORA生成非現實場景的影片效果,顯示生成式AI能創造擬真影像,但仍存在細微瑕疵,如場景物體變形。
- **影像生成瑕疵案例**:SORA生成多隻狼、塑膠椅的影片中顯示AI尚未完美處理物體結構和場景。
- **影像續寫與風格轉換**:AI可對影片進行風格轉換(如黑白轉彩色),適用於影像修復及畫質提升等。
- **Talking Head技術**:AI可根據錄音與照片生成合成影片,可應用於VTuber等虛擬人物生成。
- **ControlNet多條件生成**:使用草圖或姿態來生成特定影像的技術,透過ControlNet可基於不同的條件生成圖片。
- **圖片與影片的基本構成**:圖片由像素組成,影片由圖片連續組成。影片流暢度取決於每秒幀數(fps)。
- **影像生成的模型運作**:透過Encoder將圖片分割成Patch進行壓縮,再利用Decoder還原。圖片生圖模型通常使用Transformer的非自回歸生成。
- **生成品質的評估方法**:Clip模型能通過圖片與文本的相似性來評估生成效果,成為主流的生成圖片模型的評分方式。
- **影像生成的個人化方法**:透過少量樣本來客製化模型生成指定物件,如稱特定雕像為“S-STAR”,並進行微調。
- **影片生成的挑戰**:每秒生成高fps影片的計算量龐大,常用2D+1D的偽3D Attention來降低運算負擔。
- **流水線式生成方法**:生成影片的多階段模型,逐步提高解析度和幀數,最終生成高品質影片。
- 補充概念
- **影像生成模型的計算負擔**:影片生成的Attention計算量龐大,常用Spatial(空間)和Temporal(時間)Attention結合來減少運算。
- **個人化生成技術的應用**:客製化影像生成技術允許生成特定物件的多樣化影像,減少文本描述的局限性。
- **影片生成的多步驟模型**:Imagen示例了多階段生成策略,每階段專注於一項特定任務(如解析度增強),提高生成效率。
- **生成模型的評估技術**:Clip模型透過圖文相似性評估生成品質,有助於克服純人力評估的局限。
🎉🎉🎉
老师帅⛈
老師講得很生動有趣🤣😆
我上個月也有稍微研究一下 Sora
我推薦也可以看一下OpenAI員工Head of Safety Systems--Lilian Weng
她4/24 那篇部落格文章Diffusion Models for Video Generation
講得也很詳細(但有點硬就是了)
这个和有些强化模型的方法还有feature aware的做法很像.
Spatial 和 Temporal attention 像极了视频编解码里的intra frame 和 inter frame。
老師是配合老黃嗎 上片時間從美國時間變台灣時間
同學,上課囉
谢谢老师的课程👍。想问一个问题,在文字生影片时,能不能patch只和它空间和时间上相邻进的patch 做attention呢?这样是不是可以更加大大减少attention的次数呢?
当然可以 有这种改进的paper 但是主流不这样做 因为用transformer本身就是追求non local的interaction,这样做相当于开倒车
Impressive, tks
🎉🎉🎉
氣球人那個已經被揭露是人工後製的😂
只要不讲 就不会被告😂😂
愛死!
第5
Neuro-sama
第一
老師最帥了!左邊那個有點娘,帥不帥就不好說了。