【生成式AI導論 2024】第17講:有關影像的生成式AI (上) - AI 如何產生圖片和影片 (Sora 背後可能用的原理)

Поделиться
HTML-код
  • Опубликовано: 13 янв 2025

Комментарии • 25

  • @HungyiLeeNTU
    @HungyiLeeNTU  7 месяцев назад +49

    下一段課程錄影會講 Diffusion 等經典的圖像生成方法,晚點再上傳

  • @danpoo007
    @danpoo007 7 месяцев назад +1

    謝謝老師,繼續上課!

  • @chakery3
    @chakery3 7 месяцев назад +2

    謝謝老師!上年您講解Diffusion Model的數學已經令我很受用!這次又可以學新東西了!

  • @蒂蒂-f7o
    @蒂蒂-f7o 7 месяцев назад +1

    謝謝老師🎉🎉🎉

  • @lendixful7932
    @lendixful7932 7 месяцев назад +1

    謝謝老師

  • @echoslayerblack7987
    @echoslayerblack7987 2 месяца назад +1

    重點整理:
    - 影片
    - **生成式AI的影像生成兩方向**:生成式AI可依據影像生成對應的文字描述,或基於條件生成影像或影片,課程聚焦於後者。
    - **GPT-4影像辨識的應用**:可識別影像中的細節並推測人物背景,但對審美問題通常迴避。
    - **SORA影像生成模型**:OpenAI展示SORA生成非現實場景的影片效果,顯示生成式AI能創造擬真影像,但仍存在細微瑕疵,如場景物體變形。
    - **影像生成瑕疵案例**:SORA生成多隻狼、塑膠椅的影片中顯示AI尚未完美處理物體結構和場景。
    - **影像續寫與風格轉換**:AI可對影片進行風格轉換(如黑白轉彩色),適用於影像修復及畫質提升等。
    - **Talking Head技術**:AI可根據錄音與照片生成合成影片,可應用於VTuber等虛擬人物生成。
    - **ControlNet多條件生成**:使用草圖或姿態來生成特定影像的技術,透過ControlNet可基於不同的條件生成圖片。
    - **圖片與影片的基本構成**:圖片由像素組成,影片由圖片連續組成。影片流暢度取決於每秒幀數(fps)。
    - **影像生成的模型運作**:透過Encoder將圖片分割成Patch進行壓縮,再利用Decoder還原。圖片生圖模型通常使用Transformer的非自回歸生成。
    - **生成品質的評估方法**:Clip模型能通過圖片與文本的相似性來評估生成效果,成為主流的生成圖片模型的評分方式。
    - **影像生成的個人化方法**:透過少量樣本來客製化模型生成指定物件,如稱特定雕像為“S-STAR”,並進行微調。
    - **影片生成的挑戰**:每秒生成高fps影片的計算量龐大,常用2D+1D的偽3D Attention來降低運算負擔。
    - **流水線式生成方法**:生成影片的多階段模型,逐步提高解析度和幀數,最終生成高品質影片。
    - 補充概念
    - **影像生成模型的計算負擔**:影片生成的Attention計算量龐大,常用Spatial(空間)和Temporal(時間)Attention結合來減少運算。
    - **個人化生成技術的應用**:客製化影像生成技術允許生成特定物件的多樣化影像,減少文本描述的局限性。
    - **影片生成的多步驟模型**:Imagen示例了多階段生成策略,每階段專注於一項特定任務(如解析度增強),提高生成效率。
    - **生成模型的評估技術**:Clip模型透過圖文相似性評估生成品質,有助於克服純人力評估的局限。

  • @lw2519
    @lw2519 7 месяцев назад +1

    老师帅⛈

  • @willy7703
    @willy7703 7 месяцев назад +2

    老師講得很生動有趣🤣😆
    我上個月也有稍微研究一下 Sora
    我推薦也可以看一下OpenAI員工Head of Safety Systems--Lilian Weng
    她4/24 那篇部落格文章Diffusion Models for Video Generation
    講得也很詳細(但有點硬就是了)

  • @beauty1268
    @beauty1268 2 месяца назад

    这个和有些强化模型的方法还有feature aware的做法很像.

  • @xlgnepo
    @xlgnepo 7 месяцев назад

    Spatial 和 Temporal attention 像极了视频编解码里的intra frame 和 inter frame。

  • @xygen9527
    @xygen9527 7 месяцев назад +1

    老師是配合老黃嗎 上片時間從美國時間變台灣時間

  • @jhddhjivuurhhf
    @jhddhjivuurhhf 7 месяцев назад +1

    同學,上課囉

  • @徐陈凯
    @徐陈凯 7 месяцев назад

    谢谢老师的课程👍。想问一个问题,在文字生影片时,能不能patch只和它空间和时间上相邻进的patch 做attention呢?这样是不是可以更加大大减少attention的次数呢?

    • @corgirun7892
      @corgirun7892 7 месяцев назад

      当然可以 有这种改进的paper 但是主流不这样做 因为用transformer本身就是追求non local的interaction,这样做相当于开倒车

  • @feixiongluo4198
    @feixiongluo4198 7 месяцев назад +1

    Impressive, tks

  • @mixshare
    @mixshare 7 месяцев назад

    🎉🎉🎉

  • @YetEthanOnly
    @YetEthanOnly 7 месяцев назад +1

    氣球人那個已經被揭露是人工後製的😂

  • @mixshare
    @mixshare 7 месяцев назад +1

    只要不讲 就不会被告😂😂

  • @林人傑-t7i
    @林人傑-t7i 4 месяца назад

    愛死!

  • @mengyuge3369
    @mengyuge3369 7 месяцев назад +1

    第5

  • @老溫溫
    @老溫溫 7 месяцев назад

    Neuro-sama

  • @raylin9412
    @raylin9412 7 месяцев назад +1

    第一

  • @dragonball41876
    @dragonball41876 5 месяцев назад

    老師最帥了!左邊那個有點娘,帥不帥就不好說了。