ResNet 같은 경우 이러한 경사 소실 문제 때문에 skip connection을 한다고 알고 있거든요. 근데 ResNet같은 경우 활성화함수로 ReLU를 사용하는데 왜 경사 소실 문제가 발생하는 건가요? 애초에 경사소실문제 때문에 skip connection을 사용하는 게 아닌가요?
그라디언트 소실을 늦추는 효과도 있겠지만 residual한 학습이 더 주요한 포인트로 알고 있습니다. 만약에 skip connection이 그라디언트 소실을 완벽하게 해결 한다면 ResNet 모델의 깊이는 훨씬 더 깊은 모델이 더 동작을 잘 할 수 있겠죠. 실질적으로 그라디언트 소실을 늦추는데 일조하긴 하겠지만 그렇다고 소실 문제를 완벽히 해결해냈다고 보기는 어렵습니다
정말 유익한 영상입니다 감사합니다!!
너무 감사드려요...!!
😆👍👍
유익한 영상 감사합니다.!
봐주셔서 감사합니다!
ResNet 같은 경우 이러한 경사 소실 문제 때문에 skip connection을 한다고 알고 있거든요. 근데 ResNet같은 경우 활성화함수로 ReLU를 사용하는데 왜 경사 소실 문제가 발생하는 건가요? 애초에 경사소실문제 때문에 skip connection을 사용하는 게 아닌가요?
그라디언트 소실을 늦추는 효과도 있겠지만 residual한 학습이 더 주요한 포인트로 알고 있습니다. 만약에 skip connection이 그라디언트 소실을 완벽하게 해결 한다면 ResNet 모델의 깊이는 훨씬 더 깊은 모델이 더 동작을 잘 할 수 있겠죠.
실질적으로 그라디언트 소실을 늦추는데 일조하긴 하겠지만 그렇다고 소실 문제를 완벽히 해결해냈다고 보기는 어렵습니다
안녕하십니까 테디노트님. 이번 설명 잘 봤습니다. 제가 GRU 관련 보고서를 작성하려고 하는데, 선생님의 영상 내용 중 일부를 캡쳐해서 사용해도 될까요?
네 괜찮습니다~^^
감사합니다
안녕하세요 기울기 소실과 경사하강법 개념을 각각 보면 이해가 되는데 동시에 보면 좀 헷갈리는 부분이 있어 질문드립니다.
특정노드에서 손실함수를 그린 다음 해당 손실함수의 편미분 값인 기울기 값과 체인룰을 통해 구한 해당 노드의 값은 그럼 같은게 맞나요?
노드마다 손실힘수가 따로 있는 것은 아니고 손실함수는 하나입니다.