질문이 있습니다 6:37초 부분에 cs4,와hs4를 word2vec의 디코더 부분에 넣어 확률로 계산하여 고마워가 나오게 되고, 이 고마워라는 출력값을 그다음 lstm에 입력값으로 사용하게 되면 cs5,hs5를 word2vec의 디코더 부분에 넣으면 사랑해 라는 결과가 나오는게 아닌가요..? eos 부분은 사랑해를 입력으로 받는 lstm에서 cs6와hs6를 word2vec에 넣어 계산하여 eos가 나와야 되는걸로 이해를 했는데 저가 잘못 이해한건가요..?
네 안녕하세요. 먼저 시청해주시고 또 좋은 질문도 해주셔서 감사를 드립니다. 네 seq2seq 순전파 부분 설명에서의 기본 전제는 일단 어느정도 학습이 되어 제대로된 번역을 수행하는 모델을 가정해서 설명을 드렸습니다. 그 편이 아무래도 전반적인 면에서 이해하시기가 편하실 것 같아서 그렇게 하였습니다. 그래서 영상에서 순전파를 보여드리는 예에서, 'Thank', 'you'라는 입력 시퀀스가 들어온다면, '고마워'라고 번역하는 것이 맞는 상황이고 모델이 그렇게 출력하도록 어느정도 학습이 되었다고 보시면 될것 같아요. 그래서 'Thank', 'you'를 입력 시퀀스를 받아서 '고마워', 를 출력 시퀀스로 번역을 하는 과정을 순전파 예시로 보여드린 것입니다. 아무래도 제가 이해하기론 질문자님께서 밑에 나열된 단어를 단어장이 아닌 입력 출력 시퀀스로 보셨던 것 같아요. 보시기에는 단어 임베딩이 입력 시퀀스에서 'Thank', 'you', '' 이렇게 들어가다 보니, 아무래도 출력 시퀀스도 단어 임베딩 순서로 '고마워', '사랑해', ''이런 순으로 들어가야 한다고 보일 여지가 있는 것 같습니다. 단어 임베딩은 그저 입력과 출력의 시퀀스와는 아무런 상관이 없는 그냥 단어장 vocabulary 단어들을 나열한 것에 지나지 않습니다. 입력 시퀀스는 입력 단어장에 나온 단어의 순서와는 상관이 없는데 여기서는 우연히 그렇게 배치가 된 것이 혼동을 드린것 같습니다. 그래도 확인 질문 해주셔서 감사합니다!
네 안녕하세요. 질문 감사드립니다. 제가 질문을 잘 이해한 것인지는 모르겠지만, 보통 EOS 토큰을 사용하는 주된 이유는 시퀀스의 끝을 명확히 표시하기 위함입니다. 이는 모델이 언제 생성을 멈춰야 할지 알 수 있게 해줍니다. 저의 영상에서는 디코더의 경우, 문장 생성을 시작한다는 의미로 SOS의 역할을 겸하기도 해서 그렇게 예로 든 것입니다. 그리고 reverse word는 일부 Seq2seq 모델에서 사용되는 별도의 기법입니다. 이는 주로 인코더 부분에서 적용되며, 장기 의존성(long-term dependencies)을 더 잘 포착하기 위해 사용됩니다. 제가 reverse word를 듣기는 했어도, 직접 해본 적은 없고 잘 몰라서 그것이 디코더에서도 사용되는 지는 잘 모르겠습니다. 큰 도움이 되지 못해 죄송합니다. 감사합니다.
아 수준 높은 자료를 이해하기 쉽게 올려주셔서 너무 감사드립니다. 처음 시작하면서 책이랑 유튜브 이것저것 참고하고 있는데 가장 좋은 것 같습니다. 너무 감사합니다.
네 도움을 드릴수 있어서 너무 기쁩니다 저도 감사합니다! 앞으로도 많은 시청 부탁드려요
질문이 있습니다 6:37초 부분에 cs4,와hs4를 word2vec의 디코더 부분에 넣어 확률로 계산하여 고마워가 나오게 되고, 이 고마워라는 출력값을 그다음 lstm에 입력값으로 사용하게 되면
cs5,hs5를 word2vec의 디코더 부분에 넣으면 사랑해 라는 결과가 나오는게 아닌가요..? eos 부분은 사랑해를 입력으로 받는 lstm에서 cs6와hs6를 word2vec에 넣어 계산하여 eos가 나와야 되는걸로 이해를 했는데 저가 잘못 이해한건가요..?
네 안녕하세요. 먼저 시청해주시고 또 좋은 질문도 해주셔서 감사를 드립니다. 네 seq2seq 순전파 부분 설명에서의 기본 전제는 일단 어느정도 학습이 되어 제대로된 번역을 수행하는 모델을 가정해서 설명을 드렸습니다. 그 편이 아무래도 전반적인 면에서 이해하시기가 편하실 것 같아서 그렇게 하였습니다. 그래서 영상에서 순전파를 보여드리는 예에서, 'Thank', 'you'라는 입력 시퀀스가 들어온다면, '고마워'라고 번역하는 것이 맞는 상황이고 모델이 그렇게 출력하도록 어느정도 학습이 되었다고 보시면 될것 같아요. 그래서 'Thank', 'you'를 입력 시퀀스를 받아서 '고마워', 를 출력 시퀀스로 번역을 하는 과정을 순전파 예시로 보여드린 것입니다. 아무래도 제가 이해하기론 질문자님께서 밑에 나열된 단어를 단어장이 아닌 입력 출력 시퀀스로 보셨던 것 같아요. 보시기에는 단어 임베딩이 입력 시퀀스에서 'Thank', 'you', '' 이렇게 들어가다 보니, 아무래도 출력 시퀀스도 단어 임베딩 순서로 '고마워', '사랑해', ''이런 순으로 들어가야 한다고 보일 여지가 있는 것 같습니다. 단어 임베딩은 그저 입력과 출력의 시퀀스와는 아무런 상관이 없는 그냥 단어장 vocabulary 단어들을 나열한 것에 지나지 않습니다. 입력 시퀀스는 입력 단어장에 나온 단어의 순서와는 상관이 없는데 여기서는 우연히 그렇게 배치가 된 것이 혼동을 드린것 같습니다. 그래도 확인 질문 해주셔서 감사합니다!
EOS를 디코더에 넣는 이유는 reverse word로 context를 더 잘 이해하기 위한 거 아니었나요?
네 안녕하세요. 질문 감사드립니다. 제가 질문을 잘 이해한 것인지는 모르겠지만, 보통 EOS 토큰을 사용하는 주된 이유는 시퀀스의 끝을 명확히 표시하기 위함입니다. 이는 모델이 언제 생성을 멈춰야 할지 알 수 있게 해줍니다. 저의 영상에서는 디코더의 경우, 문장 생성을 시작한다는 의미로 SOS의 역할을 겸하기도 해서 그렇게 예로 든 것입니다. 그리고 reverse word는 일부 Seq2seq 모델에서 사용되는 별도의 기법입니다. 이는 주로 인코더 부분에서 적용되며, 장기 의존성(long-term dependencies)을 더 잘 포착하기 위해 사용됩니다. 제가 reverse word를 듣기는 했어도, 직접 해본 적은 없고 잘 몰라서 그것이 디코더에서도 사용되는 지는 잘 모르겠습니다. 큰 도움이 되지 못해 죄송합니다. 감사합니다.
정말 도움 많이 영상 감사드립니다! 혹시, 강화학습 관련 알고리즘 영상도 제작 예정이신지 궁금합니다!
네 Deep Learning 101의 거의 마지막 부분 즈음에 강화학습 Q-Learning에 대해서 다루려고 계획중에 있습니다! 기대해주세요. 감사합니다