- Видео 243
- Просмотров 465 535
nnabla ディープラーニングチャンネル
Япония
Добавлен 3 фев 2021
ソニーで働く研究者たちが、自社開発中のオープンソースソフトウェアや最先端論文などの最新AI情報をお届けします。
チャンネル登録と応援よろしくおねがいします!
■ ソニーによるディープラーニング開発用ソフトウェア
Neural Network Libraries (nnabla)
オープンソースの深層学習フレームワーク
Neural Network Console
直感的なGUIベースの深層学習開発環境
チャンネル登録と応援よろしくおねがいします!
■ ソニーによるディープラーニング開発用ソフトウェア
Neural Network Libraries (nnabla)
オープンソースの深層学習フレームワーク
Neural Network Console
直感的なGUIベースの深層学習開発環境
【ソニー社内講演】音と動画の両方を扱う生成モデル(2024年研究動向)
社内で行った講演を再録した動画です。音と動画の両方を扱う生成モデルについて、以下の3種類に分けて2024年の研究動向を概説します。
・Video-to-Audio:動画の内容に沿った音の生成
・Audio-to-Video:音の内容に沿った動画の生成
・Joint generation:音と動画の同時生成
昨年度の動画は以下で視聴できます。
ruclips.net/video/o1ijdfbeGEE/видео.html
--
ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( nnabla.org/, github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( ruclips.net/user/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします!
同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( dl.sony.com/ )が発信する大人気のRUclipsチャンネル( ruclips.net/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。
・Video-to-Audio:動画の内容に沿った音の生成
・Audio-to-Video:音の内容に沿った動画の生成
・Joint generation:音と動画の同時生成
昨年度の動画は以下で視聴できます。
ruclips.net/video/o1ijdfbeGEE/видео.html
--
ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( nnabla.org/, github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( ruclips.net/user/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします!
同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( dl.sony.com/ )が発信する大人気のRUclipsチャンネル( ruclips.net/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。
Просмотров: 513
Видео
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
Просмотров 744Месяц назад
本動画は「 ruclips.net/p/PLbtqZvaoOVPAthFz0kt_O_UNwQohC9Xkd 」の第4回の動画です。画像や言語など複数のモーダル情報を同時に扱うことのできる “マルチモーダルモデル” における Transformer の応用について、説明いたします。また、マルチモーダルモデルの応用例として、ロボティクス分野や強化学習における Transformer の応用例についても説明いたします。 資料はslideshareで公開しています(www.slideshare.net/slideshow/deeplearning-transfomer-4/273664253) 【参考文献】 ・Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Ac...
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
Просмотров 684Месяц назад
本動画は「 ruclips.net/p/PLbtqZvaoOVPAthFz0kt_O_UNwQohC9Xkd 」の第3回の動画です。Transformerの画像での応用について説明しています.また自然言語との融合でどのようなタスクができるようになったかを説明します。 資料はslideshareで公開しています(www.slideshare.net/slideshow/deeplearning-transformer-3-transformer/273664122) 【参考文献】 ・Deep Residual Learning for Image Recognition arxiv.org/abs/1512.03385 ・An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale arxiv.or...
【DeepLearning研修】Transformerの基礎と応用 -- 第2回 Transformerの言語での応用
Просмотров 732Месяц назад
本動画は「 ruclips.net/p/PLbtqZvaoOVPAthFz0kt_O_UNwQohC9Xkd 」の第2回の動画です。Transformerの言語での応用について、大規模言語モデルの事前学習と事後学習を中心に説明しています。 資料はslideshareで公開しています(www.slideshare.net/slideshow/deeplearning-transformer-2-transformer/273663841) 【参考文献】 ・A Survey of Large Language Models arxiv.org/abs/2303.18223 ・GPT-4 Technical Report arxiv.org/abs/2303.08774 ・The Dawn of LMMs: Preliminary Explorations with GPT-4V(isio...
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
Просмотров 3 тыс.Месяц назад
本動画は「 ruclips.net/p/PLbtqZvaoOVPAthFz0kt_O_UNwQohC9Xkd 」の第1回の動画です。Deep Learning についての基本的な知識がある方を対象に、 LLM (大規模言語モデル)、画像認識・生成、ビデオ生成、オーディオ・音楽の理解・生成など様々なアプリケーションで使われている Transformer の基本構成について説明しています。 資料はslideshareで公開しています(www.slideshare.net/slideshow/deeplearning-transformer-1-transformer/273663671) 【参考文献】 ・On the Opportunities and Risks of Foundation Models arxiv.org/abs/2108.07258 ・Attention Is Al...
【AI論文解説】拡散モデルと自己回帰型モデルの融合 Part2
Просмотров 6173 месяца назад
拡散モデルと自己回帰型モデルの融合をテーマに以下の2本の論文を紹介しています。 資料はslideshareで公開しています(www.slideshare.net/slideshow/ai-910b/273418425) Part 1: Autoregressive Image Generation without Vector Quantization arxiv.org/abs/2406.11838 Part 2: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model www.arxiv.org/abs/2408.11039 ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( nnab...
【AI論文解説】拡散モデルと自己回帰型モデルの融合 Part1
Просмотров 2,4 тыс.3 месяца назад
拡散モデルと自己回帰型モデルの融合をテーマに以下の2本の論文を紹介しています。 資料はslideshareで公開しています(www.slideshare.net/slideshow/ai-910b/273418425) Part 1: Autoregressive Image Generation without Vector Quantization arxiv.org/abs/2406.11838 Part 2: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model www.arxiv.org/abs/2408.11039 ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( nnab...
【AI Paper】Perform efficient portrait animation with LivePortrait!
Просмотров 3963 месяца назад
This is the paper explanation lecture of "LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control", recently published on arXiv as a pre-print. Authors propose a portrait animation framework with a focus on better generalization, controllability, and efficiency. Arxiv: arxiv.org/pdf/2407.03168 Project Page: liveportrait.github.io/ Code: github.com/KwaiVGI/LivePortrait ...
【学会聴講報告】CVPR2024からみるVision最先端トレンド
Просмотров 3 тыс.5 месяцев назад
この動画では、Computer VisionのトップカンファレンスであるCVPR2024の概要や発表動向について解説します。 【目次】 00:00 - 学会概要 00:51 - CVPRトレンド分析 05:54 - 基盤モデル動向 30:06 - 3D Vision動向 48:04 - 全体まとめ 【参考】 CVPR2023からみるVision最先端トレンド (ruclips.net/video/4OTcSYmovf0/видео.html) CVPR2022からみるVision最先端トレンド (ruclips.net/video/SeioHA14ND8/видео.html) CVPR2021からみるVision最先端トレンド (ruclips.net/video/l8kjADOcsKE/видео.html) ソニーが提供するオープンソースのディープラーニング(深層学習)フレーム...
【AI論文解説】クラスタリングによる大規模データセット自動キュレーション
Просмотров 6285 месяцев назад
大規模データセット自動キュレーションの論文解説です. Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach arxiv.org/abs/2405.15613 ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( nnabla.org/, github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( ruclips.net/user/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねが...
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
Просмотров 6175 месяцев назад
Autoregressive Image Modelsの解説です. Scalable Pre-training of Large Autoregressive Image Models arxiv.org/abs/2401.08541 ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( nnabla.org/, github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( ruclips.net/user/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供す...
[AI paper] CTM: Advanced Single-Step DIffusion Model for Fast and High-Quality Sampling (日本語字幕付)
Просмотров 7266 месяцев назад
Sony's Research Minds is an interview program where we invite individuals conducting outstanding research to delve into the allure of their work. This time, we discuss the accepted paper "CTM" at ICLR 2024. Kim, Dongjun and Lai, Chieh-Hsin and Liao, Wei-Hsiang and Murata, Naoki and Takida, Yuhta and Uesaka, Toshimitsu and He, Yutong and Mitsufuji, Yuki and Ermon, Stefano, Consistency Trajectory...
[AI論文解説] MPGD: 拡散モデルそのままであらゆる編集を可能に!ICLR採択論文を解説 | Sony's Research Minds
Просмотров 2,2 тыс.6 месяцев назад
Sony's Research Mindsは、優れた研究を行っている方をお呼びして、その魅力を引き出す対談番組です 今回はICLR2024採択論文"MPGD"についての対談です Yutong He, Naoki Murata, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Dongjun Kim, Wei-Hsiang Liao, Yuki Mitsufuji, J Zico Kolter, Ruslan Salakhutdinov, Stefano Ermon, Manifold Preserving Guided Diffusion In ICLR2024 project page: kellyyutonghe.github.io/mpgd/ code: github.com/KellyYutongHe/mpgd_pytorch...
[AI論文解説] SAN: 識別器を再構成してあらゆるGANの性能をアップ!ICLR採択論文を解説 | Sony's Research Minds
Просмотров 2,7 тыс.6 месяцев назад
[AI論文解説] SAN: 識別器を再構成してあらゆるGANの性能をアップ!ICLR採択論文を解説 | Sony's Research Minds
【AI論文解説】RLHF不要なLLMの強化学習手法Direct Preference Optimization(+α)
Просмотров 1,2 тыс.7 месяцев назад
【AI論文解説】RLHF不要なLLMの強化学習手法Direct Preference Optimization( α)
【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part1~
Просмотров 1,6 тыс.8 месяцев назад
【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part1~
【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part2~
Просмотров 1,1 тыс.8 месяцев назад
【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part2~
【AI論文解説】Consistency ModelsとRectified Flow ~前置き&概要編~
Просмотров 2,1 тыс.8 месяцев назад
【AI論文解説】Consistency ModelsとRectified Flow ~前置き&概要編~
【AI Paper】Perform one-shot face reenactment with HyperReenact!
Просмотров 4268 месяцев назад
【AI Paper】Perform one-shot face reenactment with HyperReenact!
【AI論文解説】リアルで自然な人体画像生成を実現!マルチモーダルなジオメトリ情報を理解した拡散モデル: HyperHumanを解説!
Просмотров 9499 месяцев назад
【AI論文解説】リアルで自然な人体画像生成を実現!マルチモーダルなジオメトリ情報を理解した拡散モデル: HyperHumanを解説!
【AI Paper Review】Using Generative AI for Image Classification!
Просмотров 88010 месяцев назад
【AI Paper Review】Using Generative AI for Image Classification!
【AI論文解説】離散+連続のハイブリッド強化学習 Hybrid Action Representation (HyAR)
Просмотров 947Год назад
【AI論文解説】離散 連続のハイブリッド強化学習 Hybrid Action Representation (HyAR)
【学会聴講報告】ICCV2023からみるVisionトレンド Part3 ~表現学習,人認識,3D表現編~
Просмотров 1,6 тыс.Год назад
【学会聴講報告】ICCV2023からみるVisionトレンド Part3 ~表現学習,人認識,3D表現編~
【学会聴講報告】ICCV2023からみるVisionトレンド Part1 ~学会概要編~
Просмотров 1,3 тыс.Год назад
【学会聴講報告】ICCV2023からみるVisionトレンド Part1 ~学会概要編~
【学会聴講報告】ICCV2023からみるVisionトレンド Part2 ~効率の良い深層学習モデル編~
Просмотров 1,8 тыс.Год назад
【学会聴講報告】ICCV2023からみるVisionトレンド Part2 ~効率の良い深層学習モデル編~
【ICML2022】離散と連続のハイブリッド!新しい生成モデル "SQVAE"を紹介 | Sony's Research Minds
Просмотров 2,5 тыс.Год назад
【ICML2022】離散と連続のハイブリッド!新しい生成モデル "SQVAE"を紹介 | Sony's Research Minds
【ICML2023】あらゆるデータ修復を可能に! "GibbsDDRM"を紹介 | Sony's Research Minds
Просмотров 2 тыс.Год назад
【ICML2023】あらゆるデータ修復を可能に! "GibbsDDRM"を紹介 | Sony's Research Minds
【AI Paper】Perform high fidelity portrait avatar reconstruction in real-time with StyleAvatar!
Просмотров 668Год назад
【AI Paper】Perform high fidelity portrait avatar reconstruction in real-time with StyleAvatar!
【AI論文解説】GRES(Generalized RES) 参照表現セグメンテーションタスクの前提を覆す!multi- / single- / no-targetに対応するタスクと手法の提案
Просмотров 635Год назад
【AI論文解説】GRES(Generalized RES) 参照表現セグメンテーションタスクの前提を覆す!multi- / single- / no-targetに対応するタスクと手法の提案
詳しい説明をありがとうございます 大変に参考になります 2点 教えを乞うてもよろしいでしょうか? 1 17:30頃の説明のマルチヘッドアテンションで行列Wは学習対象なのでしょうか? もしそうなら、Wの誤差はどこで計算されるのでしょうか? 2 FeedForwardを挟む目的は何でしょうか?
ご視聴、ご質問いただき、ありがとうございます! 1. 多くの場合、Wも学習対象となります。(一度大量のデータで事前学習したモデルを、別のデータでファインチューニングするときは更新せず固定することもあります) 更新方法については、動画の 8:00 付近の図で今回紹介しているTransformer Blockあるいはその中のMulti-Head AttentionはTransformerやViTを構成する部品であることを図で示しているのですが、TransformerやViT全体を学習する時にそれらの部品であるAttentionのパラメータWも一緒に更新されます。オリジナルのTransformerはNext Token Predictionと呼ばれる途中まで自然言語の文章が与えられたときに次に登場する単語を予測するというタスクで、ViTは画像の分類・認識タスクでロス関数を設定して、誤差逆伝搬によりモデル全体を更新・学習します。 オリジナルのTransformerのNext Token Predictionについては第2章の動画 ruclips.net/video/ZjB9iulW9G0/видео.html を、ViTの詳細については第3章の動画 ruclips.net/video/rkuayDInyF0/видео.html をご覧になっていただけたら幸いです。 2. もしFeedForwardがないと、最終的に得られるベクトル表現はAttentionで計算されるValueベクトルの線形な加重和になってしまいます。Valueベクトルも入力ベクトルに対して線形なAffine変換したものなので、得られる表現はTransformer Blockに入力されたベクトルからほぼ線形な変換だけで得られるような表現になってしまい、複雑な処理が難しくなります。 FeedForward、特にReLUやGELUのような非線形な活性化関数を導入することで、ニューラルネットワークの表現力や処理能力がグンと向上します。Multi-Head Attentionが特徴的なので、どうしてもそちらに目が行きがちですが、FeedForwardもかなり重要な役割を果たしており、そのことに関する論文も複数発表されています。下記が代表的な論文となります。 "Transformer Feed-Forward Layers Are Key-Value Memories" arxiv.org/abs/2012.14913
@@nnabla 大変 丁寧な記述をいただきありがとうございました。 理解できました
めっちゃわかりやすくてよかったです。ありがとうございます。
あなたの努力に本当に感謝しています! アドバイスが必要です: USDTを含むSafePalウォレットを持っていて、シードフレーズを持っています. (alarm fetch churn bridge exercise tape speak race clerk couch crater letter). それらをBinanceに転送するためにはどうすればよいですか?
説明がわかりにくすぎる
Do all these steps work when performed on the phone?
Thanks for watching our video. The answer depends on how you want to use this. You can access to Google Colaboratory and run this demo via smartphone, but that means it is not performed on the phone, but on their server. I hope this answers your question.
分かりやすい解説ありがとうございます! 生成の度に一部のパラメタを再最適化する作用で多様性が上がる、面白い!
ありがとうございます!βのスケーリングを勾配降下で最適化するアイディアは他の深層学習手法でも使えそう!
You can check the slides used in this video in www.slideshare.net/slideshow/20240819_nm_liveportrait_nnabla_youtube_final-pdf/271869953
本動画で利用されている資料はこちらでも公開しています! www.slideshare.net/slideshow/cvpr2024-vision-cvpr2024-report-8a60/270524692
素晴らしい動画をありがとうございます
わかりやすく解説ありがとうございます。 質問なのですが、LSTMの模式図(スライドp16)についてお聞きします。 LSTMはRNNの中間層の各ユニットをメモリセルで置き換えていると認識しているのですが、この図だと、RNNの中間層そのものをメモリセルで置き換えているように見えるのですが、どのように解釈をすればよいでしょうか?
不勉強ゆえ、流れはわかるのですが、どういうNNを用いて画像とテクストの行列を統一して変換できる写像を生成するかわかりませんでした。元論文をしっかり理解できるようになるまでこのチャンネルなどを使ってもっと勉強しないといけないなと改めて思いました。
すごお
do you know how to make Ai Avatars? if so, please contact me i am looking for someone
神授業
いつも参考になります。丁寧な動画、ありがとうございます。
ありがとうございます 助かりました 意外と力技なイメージですかね 色々試してみて貢献してるとこを見つける感じですよね そんなに難しい理論は使っていないのかなと思いました
3:12 結果パート「GANベースのADM」--> 「Diffusion ModelのADM」です 4:25 右側の論文タイトルは「Pre-training Vision Transformers with Very Limited Synthesized Images」-->「SegRCDB: Semantic Segmentation via Formula-Driven Supervised Learning」です
分かりやすい解説ありがとうございます!
Hi, thanks for the video. This really good. How do I run an inference for a set of images and get the prediction results saved?
Hi, thanks for using our Colab demo. Since it's a bit hard to show you how to do that here, we've opened an issue and answered your question. Please refer to github.com/sony/nnabla-examples/issues/394.
生成系の途中経過を見せてくれると内部でどのように処理されているのかのイメージがわきますね。ありがとう!
RetNetの紹介記事を探していたのでとても助かります。論文を見ただけではいまいち理解が及んでいなかった部分に見通しが立ちました。ありがとうございます。
Congratulations everyone! おめでとうございます!
数学弱者なので疑似コード助かります😢
オープンワールド リコグニションは本来そうあるべき汎用的なタスクですよね。 ネットワークの分野でも教師データのクラス以外のものが観測されるケースを考えるものは少ないです😢
Thanks for this! Does the png image and mp4 video have to be the same pixel ratio? I tried uploading an mp4 from my files and ffmpeg gave me a warning, then tried to play and it gave this error: FileNotFoundError: [Errno 2] No such file or directory: 'result/arbitrary/input_image.png_by_input_video.mp4'
Hi, sorry for a bit late reply. Thanks for using our demo! > Does the png image and mp4 video have to be the same pixel ratio? No. We confirmed it works even when they have different pixel ratio. Note that it would affect the generation quality. Judging from the error message, it seems inference code failed to generate the resulting video. I don't think it was because of the different ratio. There might be something wrong in input video such as some special codec or non-ascii filename? Can you try again if you're still interested? Thanks.
Thanks for replying! I've tried several different ai lipsyncing models, they all seem to warp the face. I feel ai lipsyncing is still in its infancy, and I don't know python too well so that is the biggest hurdle. SO many dependencies with so many different versions makes using any program in python very difficult, again if you don't really know what you're doing. I appreciate the reply, and the collab demo, as collabs are the only thing i can get to work!@@nnabla
毎度勉強させてもらっています!
いつも論文紹介お世話になってます!
1万人おめでとうございます!🎵
すごくわかりやすかったです! これを機に自分でも最新の論文を追っていきたいと思います!!
お腹すいたカバ!可愛い名前
Currently not working. Code stops at from generate import *
Hi, thanks for using our demo. We confirmed that the problem has been solved and it works as expected. Can you try that if you're still interested? Thanks!
今GPT人気爆発ですね もっと前からこれを見るべきだった~
やろうと思ったけどグラボ積んでるpcなかった
Brother I am doing in mobile And the site is Demo for paper "First Order Motion Model for Image Animation" And I was playing cells, those cells were being played well, after mounting Google drive, the next cell was Creat a model and load checkpoints When i pressed, it showed me error of ImportError Traceback (most recent call last) <ipython-input-6-dbd18151b569> in <module> ----> 1 from demo import load_checkpoints 2 generator, kp_detector = load_checkpoints(config_path='config/vox-256.yaml', 3 checkpoint_path='/content/gdrive/My Drive/first-order-motion-model/vox-cpk.pth.tar') 3 frames /content/first-order-model/augmentation.py in <module> 10 11 from skimage.transform import resize, rotate ---> 12 from skimage.util import pad 13 import torchvision 14 ImportError: cannot import name 'pad' from 'skimage.util' (/usr/local/lib/python3.9/dist-packages/skimage/util/__init__.py
11:08 わかりやすい
ファインチューニングなしでUniTuneできるZeroTuneがほしいですね
拡散モデル完全に理解した
python初心者なので質問の意図が動画の主旨から外れている場合は無視してください。コラボラトリ上のRun the trainingの再生ボタン(実行ボタン?)をクリックするとenv.close()の行でNameError:name 'env' is definedとなりました。githubにアップロードしていただいている内容に問題ないでしょうか。
ご質問ありがとうございます。おそらくですが、最後のRun the trainingの再生/実行ボタンだけ押していないでしょうか?Google Colaboratory上での実行では上から順番に全部の再生/実行ボタンを押して準備をしていくので、上にある他のブロックの再生ボタンを押した後で、最後にRun the trainingを押せば、学習が開始されると思います。
Thanks for watching this video and trying the Colab demo! Unfortunately, as of now (Nov. 8, 2022), we observe an error when running the Colab demo. We will fix this issue very soon and let you know here.
hey man can you do update for this?
Yes, we observe there'll be an error if you run the current Colab demo as is. A simple solution is to install the latest nnabla ("!pip install nnabla-ext-cuda114" in the first cell). Anyway we will update the demo soon.
@@nnabla thank you
good!
21:18で「そしてこのようにせ、、、」と途中で切れています。この部分で大切な何かをご説明いただいているというわけでは無い場合はご放念ください。
ご指摘ありがとうございます! 確認させていただき、必要に応じて修正版をアップロードします!
確認したところ、内容に影響がないので再アップロードは必要なかったです。しかし、ご指摘の旨を概要欄に反映させていただきました。今後ともどうぞよろしくお願いいたします!
来年は、diffusion と GAN が逆転してそう
何ができるんだろう?ワクワクドキドキ ↓ なんやこれ?🤔
詳細動画はこちら! ruclips.net/video/pJg4qY3hOzA/видео.html
詳細動画はこちら:ruclips.net/video/eB4cqe4R43s/видео.html
最近話題になったmimicもこれに近いの使ってるのかな
I tried and the result is a disaster...
Quality of generation results depends on the input images or videos. One recommendation is to use well-aligned (same scale and same orientation) images as input videos (or vice versa). Or, there could be an issue when downloading the required pretrained weights file, and the AI model failed to use it. If the model was forced to run without proper weights file, generation results would be totally collapsed.