좋은 자료 감사합니다. 궁금한 점이 있는데 34:00 에 Residual Connection + Layer Normalization 이후 Concat 이 되는 걸로 설명이 되있는데 Concat 이후(정학히는 Multihead 에서 이미 concat이 되어 나오는걸로 이해했습니다) Residual Connection + Layer Normalization 이 서순이 맞지 않나 생각되는데 혹시 제가 잘못 이해한 것일까요??
안녕하세요, 정승균님. Transformer의 multihead attention 모듈 자체에 concat이 포함되므로 지적하신 부분이 맞습니다. (github.com/jadore801120/attention-is-all-you-need-pytorch/blob/132907dd272e2cc92e3c10e6c4e783a87ff8893d/transformer/SubLayers.py#L53) 34:00 부분의 장표에서 concat 부분을 없애고, Multihead Attention -> Residual Connection -> Layer Normalization -> FFN의 순서가 맞습니다. (단, 위 첨부한 코드 상으로는 multihead attention 모듈 내에 residual connection과 normalization이 포함되어 있습니다.) 추가적으로, 43:10 장표에서의 decoder multihead self-attention 부분 또한 마찬가지로 수정이 되어야 맞습니다. 좋은 지적 감사드리며, 해당 수정 내용 댓글에 추가하였습니다. 감사합니다.
트랜스포머는 이것만 잘 이해해도 될 것 같습니다. 좋은자료 감사합니다.
무엇보다 설명하신 인코더로 들어가는 예시 문장이 너무 좋았습니다.
"지금이니!"
많은 영상과 글을 봐도 이해하기가 쉽지 않았는데 정말 설명을 잘하시는 것 같습니다. 좋은 자료 감사합니다!
코드와 함께 설명된 게 정말 좋은 것 같아요 감사드립니다 :)
13:11 제가 많은 position encoding 자료를 봤는데 여기 설명이 제일 좋다고 느끼네요 직관적입니다
많은 도움되었습니다. 감사합니다!
강의 잘 들었습니다!. 너무 좋네요^^
궁금한 점은 Multihead attention에서 matrix 연산 중 Q, K pair의 순서가 서로 다른데 (색으로 표현) 의미가 있는 건가요?
좋은 자료 감사합니다. 궁금한 점이 있는데 34:00 에 Residual Connection + Layer Normalization 이후 Concat 이 되는 걸로 설명이 되있는데 Concat 이후(정학히는 Multihead 에서 이미 concat이 되어 나오는걸로 이해했습니다) Residual Connection + Layer Normalization 이 서순이 맞지 않나 생각되는데 혹시 제가 잘못 이해한 것일까요??
안녕하세요, 정승균님.
Transformer의 multihead attention 모듈 자체에 concat이 포함되므로 지적하신 부분이 맞습니다. (github.com/jadore801120/attention-is-all-you-need-pytorch/blob/132907dd272e2cc92e3c10e6c4e783a87ff8893d/transformer/SubLayers.py#L53)
34:00 부분의 장표에서 concat 부분을 없애고, Multihead Attention -> Residual Connection -> Layer Normalization -> FFN의 순서가 맞습니다.
(단, 위 첨부한 코드 상으로는 multihead attention 모듈 내에 residual connection과 normalization이 포함되어 있습니다.)
추가적으로, 43:10 장표에서의 decoder multihead self-attention 부분 또한 마찬가지로 수정이 되어야 맞습니다.
좋은 지적 감사드리며, 해당 수정 내용 댓글에 추가하였습니다.
감사합니다.
@@dsba2979 답변 감사드립니다!
정말 감사합니다!!!
감사합니다!
자료 아주 잘 만들었던데요. 발표자료도 공유하면 더 좋을 것 같습니다.
감사합니다 !