@@텐초 상세한 설명 정말 감사드립니다! 혹시 추가적으로 몇 개만 더 여쭤봐도 되는지요? 그럼 제가 이해하기로는 1. (a)swin transformer block이 2장 있다는 것은 'W_MSA가 있는 block 하나 + SW_MSA를 수행하는 block 하나' 를 두 번 수행했다는 뜻으로 이해했습니다(3번째는 6번 수행). 맞을까요? 2. 이러한 (a) swin transformer block(첫 번째) 을 거치게 되면 컴퓨터가 이해할 수 있는 어떤 벡터의 형태로 표현이 되고, 이것이 다음 stage2에 들어가 주변의 부분과 합쳐진다(2번째 patch merging) 3. 이런식으로 반복되어 attetion+ ffl(feed foward layer)를 거쳐 linear+softmax 함수로 각 class에 속할 확률을 제공함으로써 이미지 판별이 가능하다. 입니다 이런식의 flow가 맞을까요? 정말 감사드립니다
영상 잘 봤습니다 :) 개괄적으로 이해하는데 많은 도움이 됐어요!
덕분에 잘 보았습니다. 감사합니다 :)
안녕하세요. 상세한 동영상 덕분에 잘 이해가 됐습니다. 정말 감사드립니다! 한 가지 질문이 있는데요, 12:20 경에 'Patch Merging을 통해서 윈도우 사이즈를 4개를 모아 크게 만든다'
@@텐초 상세한 설명 정말 감사드립니다! 혹시 추가적으로 몇 개만 더 여쭤봐도 되는지요? 그럼 제가 이해하기로는
1. (a)swin transformer block이 2장 있다는 것은 'W_MSA가 있는 block 하나 + SW_MSA를 수행하는 block 하나' 를 두 번 수행했다는 뜻으로 이해했습니다(3번째는 6번 수행). 맞을까요?
2. 이러한 (a) swin transformer block(첫 번째) 을 거치게 되면 컴퓨터가 이해할 수 있는 어떤 벡터의 형태로 표현이 되고, 이것이 다음 stage2에 들어가 주변의 부분과 합쳐진다(2번째 patch merging)
3. 이런식으로 반복되어 attetion+ ffl(feed foward layer)를 거쳐 linear+softmax 함수로 각 class에 속할 확률을 제공함으로써 이미지 판별이 가능하다. 입니다
이런식의 flow가 맞을까요? 정말 감사드립니다
@@텐초 상세한 설명 감사합니다^^ 좋은 하루 보내세요
감사합니다!