ビジョンセンサーチャンネル
ビジョンセンサーチャンネル
  • Видео 37
  • Просмотров 51 723
たった1枚の画像から3Dが!? 単眼カメラの深度推定(Monocular Depth Estimation) Depth Anything
たった1枚の画像から、3次元の距離を推定できる技術を紹介します。
<出典>
・サーベイ
 www.ipol.im/pub/art/2023/459/
・MiDaS
 arxiv.org/abs/1907.01341
・DepthAnything
 arxiv.org/abs/2401.10891
・多視点撮像との組み合わせ
 sparsenerf.github.io/
#computervision
#deeplearning
#imageprocessing
#ディープラーニング
#画像処理
#単眼デプス推定
#単眼深度推定
Просмотров: 731

Видео

画像生成AIのしくみを直感的に解説 Stable Diffusion VAE 拡散モデル
Просмотров 1,1 тыс.2 месяца назад
Stable Diffusionなど、ディープラーニングを使った画像生成の仕組みの話題です 技術解説コンテンツは既にたくさん出ていますが、 大抵は知っていて当たり前のように、いろいろな専門用語が出てきます (拡散モデル、ノイズ除去、潜在空間、テキストプロンプト、VAE…) これらは一体何者なのか?どのように画像生成に関係するのか? について 詳しい数学の理論はなるだけ省いて、直感的にわかるように説明します 参考:もう少し詳しく知りたい。。。という方は、以下のブログがとても分かりやすくてお勧めです hoshikat.hatenablog.com/entry/2023/03/15/221428 #ディープラーニング #画像処理 #AI画像生成 #aiimagegenerator #computervision #deeplearning #generativemodels #vae #s...
CNN vs Vision Transformer 強み弱み 比較解説
Просмотров 1,1 тыс.2 месяца назад
画像処理用のニューラルネットワークの2大アーキテクチャ、CNNとVisionTransformerを比較します。最近の技術についても紹介します。 どちらが強いかの判定もします(私の独断と偏見です。詳細内容の正しさはご容赦ください) <出展> ・Masked Autoencoder:  arxiv.org/abs/2111.06377 ・Swin-Transformer:  arxiv.org/abs/2103.14030 ・CNNとVisionTransformerの融合(CoAtNet):  arxiv.org/abs/2106.04803 ・高速なVisionTransformer(EfficientViT):  arxiv.org/abs/2205.14756 #ディープラーニング #画像処理 #トランスフォーマー #CNN #transformer #vit #compute...
ディープラーニングの軽量化 枝刈り 知識蒸留
Просмотров 5946 месяцев назад
ディープラーニングを使った画像処理は、巨大なモデルほど高い性能を出せますが、実用上はいつでもに強力な計算機を使えるとは限りません。 そこで今回紹介するのは学習済みのモデルを、精度を保ったまま軽量化する方法です。 <出展>  スケーリング則   ConvNets Match Vision Transformers at Scale    arxiv.org/abs/2310.16764  枝刈り   Pruning Neural Networks   towardsdatascience.com/pruning-neural-networks-1bb3ab5791f9  知識蒸留   Knowledge Distillation: A Survey    arxiv.org/abs/2006.05525 #computervision #deeplearning #ディープラーニング ...
画像の明るさ補正(Low-Light Enhancement)
Просмотров 3476 месяцев назад
窓のある室内でのように、明るさが極端に差がある場所で撮影すると、極端に真っ黒な領域ができてしまいます。そのような画像から見やすい明るさの画像を作り出す方法を紹介します <出展>  Deep Retinex Decomposition for Low-Light Enhancement  arxiv.org/abs/1808.04560 <参考>  Retinex (無料フォトレタッチツールGIMPの機能)  docs.gimp.org/2.6/ja/plug-in-retinex.html #computervision #deeplearning #imageprocessing #画像修正 #ディープラーニング #画像処理
多視点画像からの3次元復元(フォトグラメトリとNeRF)
Просмотров 7358 месяцев назад
様々な方向から撮影された画像から、物体の3次元形状を復元する方法として、フォトグラメトリとNeRFの紹介です。 詳細な理論や詳しい数式は省き、直感的に説明します <参考> NeRF(speakerdeck.com/kentaitakura/nerf-3ci-yuan-xji-jie-xue-xi-ru-men-zhu-mu-no3ci-yuan-hua-ji-shu-woyasasikujie-shuo) キャリブレーション(ruclips.net/video/cyF0Mqfzhk0/видео.html) #computervision #deeplearning #nerf #photogrammetry #3dscanner #ディープラーニング #画像処理
画像のボケ修正(Deblurring)
Просмотров 5348 месяцев назад
ピントがずれたり、手振れによってボケてしまった画像を修正するアルゴリズムです。 画像処理としては、かなり難しい問題になりますが、ディープラーニングを使って実現する技術を紹介します 出展:  DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks(arxiv.org/abs/1711.07064) 参考:  ・Deep Image Deblurring: A Survey(arxiv.org/abs/2201.10700)  ・ディープラーニングによるノイズ除去(ruclips.net/video/JMdyoMqmZPE/видео.html)   #imageprocessing #deeplearning #deblurring #computervision #画像修正 #ディープラーニン...
画像のノイズ除去(Denoising)
Просмотров 7058 месяцев назад
画像を撮るとどうしても乗ってしまうノイズを除去する技術を紹介します <出典>  【DnCNN】"Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising"(arxiv.org/abs/1608.03981)  【Noise2Noise】"Noise2Noise: Learning Image Restoration without Clean Data"(arxiv.org/abs/1803.04189) 【拡散モデルを用いた手法】"Denoising Diffusion Restoration Models"(arxiv.org/abs/2201.11793) <参考>  バイラテラルフィルタ  imagingsolution.net/imaging/bilateralfilter/ ...
SegmentAnything ざっくり解説
Просмотров 591Год назад
最新の画像セグメンテーション技術である「SegmentAnything」について、概念的なお話しをします。 かなり内容を端折ってありますので、情報の詳細さ・正確さについてはご容赦ください <出典> webデモ segment-anything.com/ 論文 arxiv.org/abs/2304.02643 #ディープラーニング #画像処理 #トランスフォーマー #セグメンテーション #computervision #deeplearning #segmentation #transformer #segmentanything
トランスフォーマー(ViT)の中身 ~ Multi-Head Attentionを画像処理で解説 ~
Просмотров 5 тыс.Год назад
トランスフォーマー(Vision Transformer)の中心要素である、「Multi-Head Attention」について説明します 自然言語処理からの説明ならば、すでにたくさん出ていますが、 画像処理の観点からの説明は見たことがなかったので作りました。 <Vision Transformerの他の動画> ruclips.net/video/8twQDbNHI2o/видео.html <出典> An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale arxiv.org/abs/2010.11929 #ディープラーニング #画像処理 #トランスフォーマー #transformer #computervision #deeplearning #attention
トランスフォーマー(ViT)による物体検出 ざっくり解説
Просмотров 1,5 тыс.Год назад
トランスフォーマー(Vision Transformer)を使った物体検出について、概念的なお話しをします。 かなり内容を端折ってありますので、情報の詳細さ・正確さについてはご容赦ください <出典> End-to-End Object Detection with Transformers arxiv.org/abs/2005.12872 #ディープラーニング #画像処理 #トランスフォーマー #物体検出 #transformer #objectdetection #computervision #deeplearning
ゼロショット学習(基盤モデルCLIP)
Просмотров 2,5 тыс.Год назад
事前に学習していない分類を、追加学習することなく推測できるゼロショット学習について説明します。 画像と文章の関係性を学ぶモデル「CLIP」の話題です <出展> ・CLIP  "Learning Transferable Visual Models From Natural Language Supervision" arxiv.org/abs/2103.00020 ・CLIPを使った2万クラスの物体検出 [Detic]  "Detecting Twenty-thousand Classes using Image-level Supervision" arxiv.org/abs/2201.02605 ・CLIPを使ったテキストからの画像生成 [DALL-E] openai.com/research/dall-e ディープラーニング#画像処理#computervision#clip#z...
ディープラーニングによる物体検出 YOLO
Просмотров 1,3 тыс.Год назад
高速な物体検出として有名なモデル”YOLO”の話題です ver.1~YOLO Xまでの進化について概念的な解説をします <出典> ・YOLO ver2  "YOLO9000: Better, Faster, Stronger"  arxiv.org/abs/1612.08242 ・YOLO ver3 "YOLOv3: An Incremental Improvement" arxiv.org/abs/1804.02767 ・YOLO ver4 "YOLOv4: Optimal Speed and Accuracy of Object Detection" arxiv.org/abs/2004.10934 ・YOLO X  "YOLOX: Exceeding YOLO Series in 2021" arxiv.org/abs/2107.08430 #ディープラーニング #画像処理 #...
画像処理で使う照明の基礎
Просмотров 748Год назад
画像処理で使う照明条件の説明と照明装置の紹介をします <出典> ・明視野照明(同軸落射)  www.keyence.co.jp/ss/products/vision/peripheral/ca-d/ca_dx.jsp ・暗視野照明(ローアングル)  www.ccs-inc.co.jp/guide/imaging/difference.html ・ドーム照明  www.keyence.co.jp/ss/products/vision/peripheral/ca-d/ca_dd.jsp #画像処理#照明
ディープラーニングによる異常検知(Anomaly Detection) AutoEncoder PatchCore
Просмотров 2,9 тыс.Год назад
ディープラーニングを使って、教師なしで「異常なもの」を見つける方法です <出典> ・PatchCore  "Towards Total Recall in Industrial Anomaly Detection"  arxiv.org/abs/2106.08265 ・異常検知の画像データ MVTec AD www.mvtec.com/company/about-us/the-people-behind-mvtec #ディープラーニング #画像処理 #異常検知 #computervision #deeplearning #patchcore #anomalydetection
Few-Shot 学習 - 学習データが少ないときのディープラーニング -
Просмотров 2,3 тыс.Год назад
Few-Shot 学習 - 学習データが少ないときのディープラーニング -
ディープラーニングによるインスタンスセグメンテーション(Instance Segmentation)
Просмотров 1,5 тыс.Год назад
ディープラーニングによるインスタンスセグメンテーション(Instance Segmentation)
自己教師あり学習 (Self-supervised learning) -ラベルつきデータが足りないときの機械学習-
Просмотров 1,8 тыс.Год назад
自己教師あり学習 (Self-supervised learning) -ラベルつきデータが足りないときの機械学習-
半教師あり学習(Semi-supervised learning) -ラベルつきデータが少ないときの機械学習-
Просмотров 1,2 тыс.Год назад
半教師あり学習(Semi-supervised learning) -ラベルつきデータが少ないときの機械学習-
トランスフォーマー(VisionTransformer ViT)  ~ディープラーニングの新しいかたち~
Просмотров 8 тыс.2 года назад
トランスフォーマー(VisionTransformer ViT)  ~ディープラーニングの新しいかたち~
ニューラルネットワークによる回帰 近似
Просмотров 4372 года назад
ニューラルネットワークによる回帰 近似
ディープラーニングによるセグメンテーションのアルゴリズム
Просмотров 1,4 тыс.2 года назад
ディープラーニングによるセグメンテーションのアルゴリズム
ディープラーニングによる物体検出のアルゴリズム
Просмотров 3 тыс.2 года назад
ディープラーニングによる物体検出のアルゴリズム
ディープラーニング 物体検出とセグメンテーションの考え方 基礎
Просмотров 2 тыс.2 года назад
ディープラーニング 物体検出とセグメンテーションの考え方 基礎
深層学習のテクニック 性能指標 ROC AUC
Просмотров 3213 года назад
深層学習のテクニック 性能指標 ROC AUC
画像処理 物体検出の基礎
Просмотров 2,3 тыс.3 года назад
画像処理 物体検出の基礎
画像処理 文字読み取りの基礎
Просмотров 2923 года назад
画像処理 文字読み取りの基礎
画像処理 光沢について
Просмотров 2853 года назад
画像処理 光沢について
深層学習のテクニック 過学習 オーギュメンテーション
Просмотров 3493 года назад
深層学習のテクニック 過学習 オーギュメンテーション
深層学習のテクニック 過学習 正則化 バッチノーマライゼーション 交差検証
Просмотров 5343 года назад
深層学習のテクニック 過学習 正則 バッチノーマライゼーション 交差検証

Комментарии

  • @wqh95n3m5
    @wqh95n3m5 Месяц назад

    NNでどんな関数でも近似できることは知識としては知ってましたが、どうしてそうなるのか理解できました

  • @user-fv8zv5vw8r
    @user-fv8zv5vw8r Месяц назад

    画像系のトランスフォーマーの教材を探していて、唯一見つかりました。大変勉強になります。本当にありがとうございます。ケーブルの事例が本当にわかりやすい

  • @patoru_patr
    @patoru_patr Месяц назад

    イヤホンで聞いてると、マイクのボッボッって雑音がキツいです😢

  • @wqh95n3m5
    @wqh95n3m5 Месяц назад

    数学的な説明聞いても分かった気になるだけだったのが、この動画だと腑に落ちるような理解ができて非常にありがたいです!!

  • @wqh95n3m5
    @wqh95n3m5 Месяц назад

    数学的な理解よりもまずは直感的な理解をしたいので、このような動画は非常にありがたいです!!

  • @user-jt2ik9cp6b
    @user-jt2ik9cp6b 2 месяца назад

    とても分かりやすい解説です。確認ですが物体検出についてはSSDのアルゴリズムというわけではなく、 物体検出のスタンダートな概念ってことでよろしいでしょうか?SSDは確かバウンディングボックスなどの概念があった気がします。

    • @VisionSensorChannel
      @VisionSensorChannel 2 месяца назад

      コメントありがとうございます。おっしゃる通り、この動画はSSDに特化したものではなく、物体検出の基礎概念です。

  • @user-qk2gg7zp2o
    @user-qk2gg7zp2o 2 месяца назад

    絵で解説してくれてめっちゃわかりやすい

  • @USBtybeA
    @USBtybeA 2 месяца назад

    フーリエ変換

  • @toyoo_cat
    @toyoo_cat 2 месяца назад

    万能な単一技術はないので、うまい組み会わせがポイントになるのですね。

  • @toyoo_cat
    @toyoo_cat 2 месяца назад

    ステップバイステップで解りやすいですね。以前妻に原理を聞かれて説明に苦労したのですが、これなら解ってもらえそうです。

  • @shinsogayborg
    @shinsogayborg 2 месяца назад

    すごくわかりやすいです。なんでクエリ キー バリューの3つが必要なのか意味がわかりました。

  • @UNKNOWN-tu8bc
    @UNKNOWN-tu8bc 3 месяца назад

    内容は良いんだけど音声がひどすぎるw

  • @hightree0527
    @hightree0527 4 месяца назад

    めちゃくちゃに分かりやすい‼️ ありがとうございます‼️

  • @tokyobay_fishing
    @tokyobay_fishing 5 месяцев назад

    大変勉強になります!トランスフォーマーのデメリットはあまり意識していませんでしたが納得の短所ですね!自然言語処理から興味を持ってたどり着いたのですが画像を文章として置き換えたら大変わかりやすい内容でした!

  • @user-lq1vy2yp8f
    @user-lq1vy2yp8f 5 месяцев назад

    人間の脳も刈り込みというプロセスがあるので最初は多量の脳細胞と結合が必要なのかもしれないですね

  • @AIxCE
    @AIxCE 6 месяцев назад

    非常にわかりやすかったです! ありがとうございます

  • @motorado1
    @motorado1 6 месяцев назад

    よく参考にさせて頂いています、わかりやすくて素晴らしいです! ただ、音声にボッ、、ボッ、、、というようなノイズが入っていてイヤホンで聴くと耳が痛いです、、、音を良くしてもらえると最高です

  • @toyoo_cat
    @toyoo_cat 6 месяцев назад

    学習データの作り方が難しそうですね。デジカメの撮影モード見たいな分類があれば上手く行きそうですね。階調分解能以下につぶれた暗部は復調できるでしょうか?

    • @VisionSensorChannel
      @VisionSensorChannel 6 месяцев назад

      この方法では、暗すぎて諧調以下につぶれてしまった部分の復元は難しいとおもいます。その場合はインペインティングの問題設定になるので、それを解けるモデルと学習データが要りそうです。

  • @aslan_peko
    @aslan_peko 7 месяцев назад

    最近見始めました。 大学で画像処理、認識を行っているのですがマジでわかりやすくて助かっています。 ゆくゆくはなんとなく使うからなんとなくでも解って使うになれるよう学ばさせていただきます!

  • @doggy9745
    @doggy9745 7 месяцев назад

    素晴らしい説明ありがとうございます。非常に助かります

  • @yuki1228
    @yuki1228 7 месяцев назад

    いつも画像処理の基礎からの説明で勉強になります.人に近い感覚を模倣するというのが間接的なアプローチで工学的に非常に面白いと感じました.

  • @toyoo_cat
    @toyoo_cat 7 месяцев назад

    いつも勉強になります。ありがとうございます。PSFに基づく方法は物理的には「復元」ですが、深層学習の方法は「復元、修正」と言うより「生成、創造、再構成」といったイメージを持ちます。目的が達成できていれば、どちらでもいい話かな😅?

    • @VisionSensorChannel
      @VisionSensorChannel 7 месяцев назад

      コメントありがとうございます。最近は拡散モデルによる画像生成技術の進歩がすさまじいので、ボケ修正にこれらを使う研究もでてきてます。このようなやり方が今後主流になるかもしれませんね

  • @CURRY_DE_DAIBAKUSHO
    @CURRY_DE_DAIBAKUSHO 7 месяцев назад

    わかりやすい…。ありがとうございます。

  • @companiontravelingkitsune
    @companiontravelingkitsune 8 месяцев назад

    めちゃめちゃいい動画だな

  • @sekiwada6528
    @sekiwada6528 8 месяцев назад

    トランスフォーマー導入検討していましたが エッジデバイスには向かないとの情報が参考になりました

  • @toyoo_cat
    @toyoo_cat 8 месяцев назад

    勉強になりました。ありがとうございます。ノイズの特性は撮像デバイスにょって異なることを考えると、Noise2Noiseは撮像デバイスのバリエーションも多彩にしなければ汎化レベルが上がらないと考えてよいでしょうか?

  • @user-jr8dd6qz5l
    @user-jr8dd6qz5l 8 месяцев назад

    Yolov8 について解説していただきたいです

  • @nanashi6184
    @nanashi6184 8 месяцев назад

    レナ (画像データ)は使用しないほうが良いのでは? 結構な問題になったような・・・

  • @inception9150
    @inception9150 8 месяцев назад

    大変すばらしい解説です。ありがとうございます。 ただし、下記のような基本的な事についてまだ分かっていないので、ご教授いただければ、幸いです。 Q1.CNNの場合はfilterが『局所的』だと言われたのですが、Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、結局『局所的』ではないか? Q2. CNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの?という質問もありますね。   Q3. TransformerもNeuralNetworkの一種で考えて良いのでしょうか。そうであれば、バッチ単位で訓練を行うかと思いますが、訓練用のバッチ画像はみんな内容がだいたい同じの画像ですか、あるいは内容がまちまちで、例えばお互いに回転関係、移動関係のある画像同士を利用して混錬を行うのでしょうか。

    • @VisionSensorChannel
      @VisionSensorChannel 8 месяцев назад

      A1. 局所的か大局的かは、特徴抽出時に関係性を見る範囲の違いを表します。 1層のCNNでは、コンボリューションカーネル内のみでの、画素間の関係性を見ます。 Transformerでは、パッチ間の関係性を見ますが、パッチ間の距離の制約はありません。 A2. Transformerの中身は、MLPの集まりなので、それぞれのMLPの重みが学習対象になります A3. Transformerもミニバッチで学習します。また(回転などの)変換は内部のMLPの重みで決まります。MLP一つあたりの変換方法はミニバッチ内で同じですが、MLPがたくさんあるので、いろいろな変換が組み合わされた状態になります 学習では、これらのより良い組み合わせを決めるイメージです

    • @inception9150
      @inception9150 8 месяцев назад

      @@VisionSensorChannel 早速とても素晴らしいご教授本当にありがとうございます!  再度確認させていただきます。申し訳ございません。 画像関係のアプリケーションには4大種類があるかと思います: 1.Object認識・分類(人間か、車か) 2.指定したObjectの存在位置( 人間の居る場所と車の位置)特定(位置決め) 3.画像修復(inpainting, denoising) 4.訓練画像からこれまでのない画像生成ーーー人間の顔、シーン等(できればバラエティ性が富む)。 私がよく付き合ってきたのは画像修復アプリで、通常、画像トレニングする時に、CNN系の場合、訓練画像中の対象objectの位置を揃える必要あります(位置ずれに関する許容範囲に限界)。 そのための訓練画像のobject位置調整の仕事量は莫大です。 Transformerアーキテクチャーの場合、画像修復アプリのために、訓練画像においての対象objectの画像中の存在位置に関して気にならなくても宜しいでしょうか。 どんなご見解、アイディアでも宜しいです。いただければ幸いと思います。

    • @VisionSensorChannel
      @VisionSensorChannel 8 месяцев назад

      @@inception9150 画像修復はあまり詳しくありませんが、私が知っているAutoencoderと似たものだとすると、 学習時の位置ずれに対しての敏感さは、ネットワーク構造よりも損失関数に強く依存するとおもいます。 同じ損失関数ならば、CNNを使う場合とTransformerの場合ではさほど変わらないとおもいます 一方で、Transformerは画像パターンの知識を、CNNより多様かつ詳細に記憶できることが強みと言われています。 なので大量の学習画像を使って「事前学習」することがよく行われます。 そこからのアイデアですが、 様々な種類の物体を、様々な位置・姿勢に配置した大量の画像データを人工的に使って、Transformerを事前学習しておき、 アプリに応じた少量の画像でファインチューニングすることで、多少の位置ずれに対しても頑健な復元ができるようになるかもしれません

    • @inception9150
      @inception9150 8 месяцев назад

      @@VisionSensorChannel 貴重なご意見ありがとうございます。色々試したいですね。 現在の所謂『deep learning』的な方法は適切な訓練サンプルの準備作成は通常の会社にとって大きな負担ですね。 再度御礼を申し上げます。

  • @companiontravelingkitsune
    @companiontravelingkitsune 8 месяцев назад

    一番分かりやすい

  • @user-bo8wu5ph7b
    @user-bo8wu5ph7b 9 месяцев назад

    インスタンスセグメンテーションの各手法の特徴について、判り易くまとめていただいたていて助かりました。有り難うございます。

  • @pattosaideria
    @pattosaideria 10 месяцев назад

    説明はわかりやすかったですが、音声がちょっと小さすぎですね。。

  • @hidsak7042
    @hidsak7042 11 месяцев назад

    このDNNやアルゴリズムの背後にある考え方/概念が大変分かり易くて、非常に有益でした! (巷にある情報は、単なる構造の説明や浅い概念に終始しているケースが多いので) 次は、画像スタイル変換やGANについても噛み砕いて解説して頂けると嬉しいです。

  • @inception9150
    @inception9150 Год назад

    ここで紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。 自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません=それはナンセンスからです。 従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。 このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。 この辺詳しい方にご説明いただければ幸いです。

    • @companiontravelingkitsune
      @companiontravelingkitsune 8 месяцев назад

      4:00あたりの操作が意味不明ということですか?

    • @inception9150
      @inception9150 8 месяцев назад

      @@companiontravelingkitsune ご質問ありがとうございます。 正確に5:30あたりです。 そして、CNNの場合はfilterが『局所的』だと言われたのですが、 Transformerの場合は、元の画像を複数の小さい四角い領域(patch)に分割して処理の単位とされるので、 結局『局所的』ではないかという不明な点もあります。 更にCNNの場合は、訓練によってCNNのfilter係数を学習させるが、Transformerの場合は何を学習するの?という質問もありますね。  アディアやご意見あれば議論したいと思います。

    • @companiontravelingkitsune
      @companiontravelingkitsune 8 месяцев назад

      各パッチ同士の内積をとるので、大域的な特徴を捉えていると言われているのではありませんか?

    • @companiontravelingkitsune
      @companiontravelingkitsune 8 месяцев назад

      @@inception9150 「同じtoken~ナンセンスだから」のところは、説明で使われているマス目(マトリクス?表?)でいうところの対角成分は意味がない、ということですか?

    • @inception9150
      @inception9150 8 месяцев назад

      @@companiontravelingkitsune 言語翻訳の場合翻訳先を決めるために言語のcontextにおいて 前後のtokenの相関係数×対応の各関連tokenの後、その和を取りますが、このRUclipsの中では相関係数の和を取って同一tokenをかけて結果とします。統計分野と工学分野において、このような計算方法はありえないだと思います。

  • @shuns1044
    @shuns1044 Год назад

    この動画の資料を会社の勉強会で使用したいのですが、切り取って使ってもいいですか?

    • @VisionSensorChannel
      @VisionSensorChannel Год назад

      お役に立てればお使いください

    • @inception9150
      @inception9150 Год назад

      @@VisionSensorChannel Transform紹介動画本当にありがとうございます! ただ、疑問または不明な点がありますので、ご解釈いただければ大変助かります。 紹介されてる画像処理のためのTransformerのやり方は自然言語翻訳のためのTransformerのやり方とロジック的に違うような感じです。 自然言語翻訳のためのTransformerの場合、各tokenのQueryが同一tokenのKey及び他のtokenのKeyとの内積結果をsoftMax変換して、その結果をweight としてtoken同士のvalueの加重平均計算に利用されます。同じtokenから算出したweight同士を足し算する事はありません=それはナンセンスからです。 従って、ここで紹介されてるような一つのpatchが同一patchのKeyや他のpatchのKeyとの内積に対して和を取って、その『帰一化』した値を同じ位置のpatchに掛ける操作の意味は不明です。 このようなやり方は画像の生成ではなくて、各patch画像の輝度を調整する操作に過ぎません。 なので、無意味ではと思いますが、、、是非ご教授お願いします。

    • @VisionSensorChannel
      @VisionSensorChannel Год назад

      ご質問ありがとうございます。 自然言語処理と同じく、valueと重み(ここで言っているアテンションマップ)の内積をとるのが正しい手順になります。 概念的な解説を心掛けたため、詳細内容としては説明抜けや間違いがあるかもしれません。 より詳しい解説としては、以下のサイトなどを同時にご覧いただくことをお勧めします cvml-expertguide.net/terms/dl/seq2seq-translation/transformer/multi-head-attention/

    • @inception9150
      @inception9150 Год назад

      @@VisionSensorChannel 早速ご返答ありがとうございます。ご案内頂いたサイトを勉強させていただきます。

    • @user-zo4kz9xz2i
      @user-zo4kz9xz2i Год назад

      横から失礼いたします. 本動画ではわかりやすさのため入力画像と同じ5x5パッチと同じサイズのフィルタを得て互いの内積をとることでattentionを行うと説明されていますが,実際には図の説明から25x25になります.これを線形変換後のValue (サイズは25xW_outとする)との内積をとり,最終的にValueと同じ25xW_outサイズを持ち,特定の領域が強調されたattentioned valueを得ます.その後は説明の通りMulti-headによるattention valueの縦結合+線形変換により最終的な出力(これはTransformer論文のモデル図のadd&Normブロックを見てもわかりますが,skip connectionを適用するため,線形変換前=25xW_inのサイズとなる)を得ます. 概念的にはこちらの動画でなにも問題なく,NLPでのTransformerと同様の説明となっていると理解しています. こちらの動画も参照されるとよいかと思います. ruclips.net/video/mMa2PmYJlCo/видео.html

  • @namesan1718
    @namesan1718 Год назад

    大変分かりやすい解説動画を作っていただき、ありがとうございます!とても勉強になります😆

  • @toyoo_cat
    @toyoo_cat Год назад

    わかりやすくて勉強になります。ジグソーパズルのピースを探すようなイメージに見えます。どことも似ている所は情報量低く、どことも似ていないところは情報量高い(注目点)というイメージでよいでしょうか?

  • @ayatsukiluna7608
    @ayatsukiluna7608 Год назад

    更新が続いていて嬉しいです。とても勉強になります。

  • @user-pq6ue7tq9n
    @user-pq6ue7tq9n Год назад

    画像認識機械学習初心者です アテンション機構の仕組み、動画で説明が見れることありがたいです😄 ポジションエンコーディングとMLP部分についての説明もぜひ動画で見たいです!

  • @310ksk6
    @310ksk6 Год назад

    CNNとの比較でアテンションとトランスフォーマーを解説しているのがわかりやすかったです!

  • @toyoo_cat
    @toyoo_cat Год назад

    力づく感を感じます😅。言語と画像の対応付けは文化的な差が出やすいので、バイアス問題への対応がより大変ですね。それも力技でなんとかなる時代が来るのかな?

    • @VisionSensorChannel
      @VisionSensorChannel Год назад

      コメントありがとうございます。 たしかに力押しですね。 お金を持っているところは強いですね。

  • @ayatsukiluna7608
    @ayatsukiluna7608 Год назад

    すごくわかりやすい!

  • @sakuraikeizo
    @sakuraikeizo Год назад

    画像を使っているので、非常に分かり易い説明です。ありがとうございました。

  • @pubgmobiletrailers2998
    @pubgmobiletrailers2998 Год назад

    Нет

  • @toyoo_cat
    @toyoo_cat Год назад

    手法の分類観点、特徴まとめが初学者には大変勉強になります。😄

  • @rrinn1234
    @rrinn1234 Год назад

    わかりやすい!

  • @kohei4520
    @kohei4520 Год назад

    もっとたくさん動画出してほしいです。素晴らしい内容。

  • @toyoo_cat
    @toyoo_cat Год назад

    概念がつかみやすい解説ありがとうございます👍 稚拙な疑問で恐縮ですが、教えてください。 ・ラベルなしとラベルありのデータの割合がどの程度あれば半教師あり学習は有効に機能するでしょうか? ・損失関数は複数の評価指標を重み付き加算することが多いようです。ディメンジョンの異なる指標を加算する物理的意味や、加算であっても多目的(多変量)最適化が実現できるのはなぜでしょう? 損失関数の特性や損失関数の組み合わせについても解説動画を作成いただけると嬉しいです。

    • @VisionSensorChannel
      @VisionSensorChannel Год назад

      ご意見ありがとうございます。 ・ラベルなしとラベルありの割合は、分類問題の難しさで変わってきます。参考文献として上げている「FixMatch」では10クラスの一般物体分類にて、ラベルありが各クラス1枚ずつでも学習できますが、どの画像を選ぶかで大変性能がばらつくようです。 ・損失関数についてはあまり詳しくありませんが、重み付き加算がよく使われることに物理的な意味があるとは思えないですね。剰余算やべき乗と比べて値の変化が緩やかで調整がやりやすいいからだとおもいます。

  • @toyoo_cat
    @toyoo_cat 2 года назад

    いつも平易な解説ありがとうございます。いきなり論文を読んでも挫折しますが、先に概念をを知っていれば理解が進みます。また、既存技術との対比で概念を解説いただくと狙いや違いがわかりやすくて助かります。

  • @toyoo_cat
    @toyoo_cat 2 года назад

    平易かつ要点を押さえた解説で勉強になりました。