【生成式AI導論 2024】第18講：有關影像的生成式AI (下) - 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

【生成式AI導論 2024】第15講：為什麼語言模型用文字接龍，圖片生成不用像素接龍呢？- 淺談生成式人工智慧的生成策略

Openai Sora 上【论文精读·55】

AMAD WORLD CLASS! MAN CITY 1-2 MAN UTD GOLDBRIDGE MATCH REACTION

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

Pachuca (MEX) vs Al Ahly (EGY) Penalty Shootout | Intercontinental Cup | 12/14/2024 | beIN SPORTS

【生成式AI導論 2024】第17講：有關影像的生成式AI (上) - AI 如何產生圖片和影片 (Sora 背後可能用的原理)

Hung-yi Lee

Просмотров 32 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 13 янв 2025

Комментарии • 25

@HungyiLeeNTU 7 месяцев назад ⁺⁴⁹
下一段課程錄影會講 Diffusion 等經典的圖像生成方法，晚點再上傳
@danpoo007 7 месяцев назад ⁺¹
謝謝老師，繼續上課!
@chakery3 7 месяцев назад ⁺²
謝謝老師！上年您講解Diffusion Model的數學已經令我很受用！這次又可以學新東西了！
@蒂蒂-f7o 7 месяцев назад ⁺¹
謝謝老師🎉🎉🎉
@lendixful7932 7 месяцев назад ⁺¹
謝謝老師
@echoslayerblack7987 2 месяца назад ⁺¹
重點整理：
- 影片
- **生成式AI的影像生成兩方向**：生成式AI可依據影像生成對應的文字描述，或基於條件生成影像或影片，課程聚焦於後者。
- **GPT-4影像辨識的應用**：可識別影像中的細節並推測人物背景，但對審美問題通常迴避。
- **SORA影像生成模型**：OpenAI展示SORA生成非現實場景的影片效果，顯示生成式AI能創造擬真影像，但仍存在細微瑕疵，如場景物體變形。
- **影像生成瑕疵案例**：SORA生成多隻狼、塑膠椅的影片中顯示AI尚未完美處理物體結構和場景。
- **影像續寫與風格轉換**：AI可對影片進行風格轉換（如黑白轉彩色），適用於影像修復及畫質提升等。
- **Talking Head技術**：AI可根據錄音與照片生成合成影片，可應用於VTuber等虛擬人物生成。
- **ControlNet多條件生成**：使用草圖或姿態來生成特定影像的技術，透過ControlNet可基於不同的條件生成圖片。
- **圖片與影片的基本構成**：圖片由像素組成，影片由圖片連續組成。影片流暢度取決於每秒幀數（fps）。
- **影像生成的模型運作**：透過Encoder將圖片分割成Patch進行壓縮，再利用Decoder還原。圖片生圖模型通常使用Transformer的非自回歸生成。
- **生成品質的評估方法**：Clip模型能通過圖片與文本的相似性來評估生成效果，成為主流的生成圖片模型的評分方式。
- **影像生成的個人化方法**：透過少量樣本來客製化模型生成指定物件，如稱特定雕像為“S-STAR”，並進行微調。
- **影片生成的挑戰**：每秒生成高fps影片的計算量龐大，常用2D+1D的偽3D Attention來降低運算負擔。
- **流水線式生成方法**：生成影片的多階段模型，逐步提高解析度和幀數，最終生成高品質影片。
- 補充概念
- **影像生成模型的計算負擔**：影片生成的Attention計算量龐大，常用Spatial（空間）和Temporal（時間）Attention結合來減少運算。
- **個人化生成技術的應用**：客製化影像生成技術允許生成特定物件的多樣化影像，減少文本描述的局限性。
- **影片生成的多步驟模型**：Imagen示例了多階段生成策略，每階段專注於一項特定任務（如解析度增強），提高生成效率。
- **生成模型的評估技術**：Clip模型透過圖文相似性評估生成品質，有助於克服純人力評估的局限。
@王二小-d1g Месяц назад
🎉🎉🎉
@lw2519 7 месяцев назад ⁺¹
老师帅⛈
@willy7703 7 месяцев назад ⁺²
老師講得很生動有趣🤣😆
我上個月也有稍微研究一下 Sora
我推薦也可以看一下OpenAI員工Head of Safety Systems--Lilian Weng
她4/24 那篇部落格文章Diffusion Models for Video Generation
講得也很詳細(但有點硬就是了)
@beauty1268 2 месяца назад
这个和有些强化模型的方法还有feature aware的做法很像.
@xlgnepo 7 месяцев назад
Spatial 和 Temporal attention 像极了视频编解码里的intra frame 和 inter frame。
@xygen9527 7 месяцев назад ⁺¹
老師是配合老黃嗎上片時間從美國時間變台灣時間
@jhddhjivuurhhf 7 месяцев назад ⁺¹
同學，上課囉
@徐陈凯 7 месяцев назад
谢谢老师的课程👍。想问一个问题，在文字生影片时，能不能patch只和它空间和时间上相邻进的patch 做attention呢？这样是不是可以更加大大减少attention的次数呢？
@corgirun7892 7 месяцев назад
当然可以有这种改进的paper 但是主流不这样做因为用transformer本身就是追求non local的interaction，这样做相当于开倒车
@feixiongluo4198 7 месяцев назад ⁺¹
Impressive, tks
@mixshare 7 месяцев назад
🎉🎉🎉
@YetEthanOnly 7 месяцев назад ⁺¹
氣球人那個已經被揭露是人工後製的😂
@mixshare 7 месяцев назад ⁺¹
只要不讲就不会被告😂😂
@林人傑-t7i 4 месяца назад
愛死!
@mengyuge3369 7 месяцев назад ⁺¹
第5
@老溫溫 7 месяцев назад
Neuro-sama
@raylin9412 7 месяцев назад ⁺¹
第一
@dragonball41876 5 месяцев назад
老師最帥了！左邊那個有點娘，帥不帥就不好說了。

Следующие

Автовоспроизведение

【生成式AI導論 2024】第18講：有關影像的生成式AI (下) - 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

【生成式AI導論 2024】第18講：有關影像的生成式AI (下) — 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

【生成式AI導論 2024】第15講：為什麼語言模型用文字接龍，圖片生成不用像素接龍呢？- 淺談生成式人工智慧的生成策略

【生成式AI導論 2024】第15講：為什麼語言模型用文字接龍，圖片生成不用像素接龍呢？— 淺談生成式人工智慧的生成策略

Openai Sora 上【论文精读·55】

Openai Sora 上【论文精读·55】

AMAD WORLD CLASS! MAN CITY 1-2 MAN UTD GOLDBRIDGE MATCH REACTION

AMAD WORLD CLASS! MAN CITY 1-2 MAN UTD GOLDBRIDGE MATCH REACTION

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

Pachuca (MEX) vs Al Ahly (EGY) Penalty Shootout | Intercontinental Cup | 12/14/2024 | beIN SPORTS

Pachuca (MEX) vs Al Ahly (EGY) Penalty Shootout | Intercontinental Cup | 12/14/2024 | beIN SPORTS

Avengers wake up, Marvel Rivals is fire

Avengers wake up, Marvel Rivals is fire

GPT-4o 背後可能的語音技術猜測

GPT-4o 背後可能的語音技術猜測

【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

Subtitle✔️ Sora AI: Master Video Generation Before It's Too Late | Complete Tutorial + Future Impact

Subtitle✔️ Sora AI: Master Video Generation Before It's Too Late | Complete Tutorial + Future Impact

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

大模型解决不了英伟达的难题，AI新范式必将出现：专访安克创新CEO阳萌

大模型解决不了英伟达的难题，AI新范式必将出现：专访安克创新CEO阳萌

【生成式AI導論 2024】第9講：以大型語言模型打造的AI Agent (14:50 教你怎麼打造芙莉蓮一級魔法使考試中出現的泥人哥列姆)

【生成式AI導論 2024】第9講：以大型語言模型打造的AI Agent (14:50 教你怎麼打造芙莉蓮一級魔法使考試中出現的泥人哥列姆)

大白话AI | 图像生成模型之DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型 | Diffusion Model

大白话AI | 图像生成模型之DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型 | Diffusion Model

Британцы учудили новый интересный кабель! И как вы думаете для чего? #секрет #энерголикбез #uk

Британцы учудили новый интересный кабель! И как вы думаете для чего? #секрет #энерголикбез #uk

Слабоумие и отвага | @sn1p3r90

Слабоумие и отвага | @sn1p3r90

REAL MADRID 2 vs 5 FC BARCELONA | SPANISH SUPER CUP FINAL | EL CLÁSICO 🔵🔴

REAL MADRID 2 vs 5 FC BARCELONA | SPANISH SUPER CUP FINAL | EL CLÁSICO 🔵🔴

Самая черная краска в мире! #musou #kiwami

Самая черная краска в мире! #musou #kiwami

I Helped 2,000 People Walk Again

I Helped 2,000 People Walk Again

Mission Impossible 😝 Funny Moment 🤣

Mission Impossible 😝 Funny Moment 🤣

ИГРЫ МОГУТ ЗАПРЕТИТЬ

ИГРЫ МОГУТ ЗАПРЕТИТЬ

МОЛОДОЙ ДЕД - 16я серия (смешное видео, юмор, приколы, поржать)

МОЛОДОЙ ДЕД - 16я серия (смешное видео, юмор, приколы, поржать)