[내돈내산 논문리뷰] ViT의 진화형, Swin Transformer

Поделиться
HTML-код
  • Опубликовано: 16 дек 2024

Комментарии • 6

  • @sigo2226
    @sigo2226 Год назад

    영상 잘 봤습니다 :) 개괄적으로 이해하는데 많은 도움이 됐어요!

  • @석훈지-q7l
    @석훈지-q7l 3 года назад +2

    덕분에 잘 보았습니다. 감사합니다 :)

  • @mymaceee
    @mymaceee 2 года назад +1

    안녕하세요. 상세한 동영상 덕분에 잘 이해가 됐습니다. 정말 감사드립니다! 한 가지 질문이 있는데요, 12:20 경에 'Patch Merging을 통해서 윈도우 사이즈를 4개를 모아 크게 만든다'

    • @mymaceee
      @mymaceee 2 года назад

      @@텐초 상세한 설명 정말 감사드립니다! 혹시 추가적으로 몇 개만 더 여쭤봐도 되는지요? 그럼 제가 이해하기로는
      1. (a)swin transformer block이 2장 있다는 것은 'W_MSA가 있는 block 하나 + SW_MSA를 수행하는 block 하나' 를 두 번 수행했다는 뜻으로 이해했습니다(3번째는 6번 수행). 맞을까요?
      2. 이러한 (a) swin transformer block(첫 번째) 을 거치게 되면 컴퓨터가 이해할 수 있는 어떤 벡터의 형태로 표현이 되고, 이것이 다음 stage2에 들어가 주변의 부분과 합쳐진다(2번째 patch merging)
      3. 이런식으로 반복되어 attetion+ ffl(feed foward layer)를 거쳐 linear+softmax 함수로 각 class에 속할 확률을 제공함으로써 이미지 판별이 가능하다. 입니다
      이런식의 flow가 맞을까요? 정말 감사드립니다

    • @mymaceee
      @mymaceee 2 года назад

      @@텐초 상세한 설명 감사합니다^^ 좋은 하루 보내세요

  • @gmlssns5859
    @gmlssns5859 3 года назад

    감사합니다!