배치 정규화(Batch Normalization) [꼼꼼한 딥러닝 논문 리뷰와 코드 실습]

Поделиться
HTML-код
  • Опубликовано: 16 дек 2024

Комментарии • 39

  • @꼬마돼지-w3y
    @꼬마돼지-w3y 10 месяцев назад +2

    최근엔 활동이 없으시지만 영상들 보고 큰 도움 받고 있습니다. 정말 감사합니다.. 영상 오래 보고 싶습니다!!

  • @이규철-m7q
    @이규철-m7q 3 года назад +3

    오랜만에 BN을 다시보려고 찾다가 우연히 오게되었네요.
    ICS를 막는게 아니라 lipschitzness 만족으로 opt. landscape가 smooth해져 러닝레이트를 높혀도 빨리 수렴한다는 사실을 새롭게 배우게 되었네요!
    너무 잘 배웠습니다. 언제나 동빈나님의 유튭 영상이 도움이 되네요. 감사합니다~!

  • @신동훈-e9q
    @신동훈-e9q 3 года назад +2

    항상 읽고 싶었던 논문을 읽어주셔서 너무 좋은것 같습니다 ㅜㅜ

  • @Sol-k6m
    @Sol-k6m Год назад

    애매하게 잡혀있던 개념이 확실하게 정리되었어요.. 어려운 내용인데 정말 잘 풀어서 설명해주십니다👍

  • @jeonghoonkim2977
    @jeonghoonkim2977 3 года назад

    제가 본 논문 리뷰 중 최고입니다.

  • @jiyoonbaek4164
    @jiyoonbaek4164 3 года назад +1

    이렇게나 쉽고 자세하게 설명해주시다니 정말 감사합니다 !!

  • @daeseunglee6639
    @daeseunglee6639 3 года назад +5

    안녕하세요. 좋은 강의 너무 잘 들었습니다. 1:04:30 에서 Normalization만 하면 sigmoid 함수 에서 linear regime에 들어가기 때문에 r를 곱하고 B를 더한다고 논문에 명시 되어 있습니다. 그런데 gradient vanishing problem으로 대부분의 경우 sigmoid가 아닌 relu를 activation function으로 사용하는 것으로 알고 있습니다. 그러면 linear regime은 사실 대부분의 모델에서 큰 문제가 아니지 않나요? 또한 sigmoid의 0으로 부터 값이 멀어지면 반대로 gradient 값이 0으로 saturate 되는데 이 부분에 대한 문제는 없을까요?

    • @Simba_ne
      @Simba_ne 3 года назад

      더불어서 궁금한게 있는데, linear regime에 들어가기 때문에 r을 곱하고 B를 더해서 non linearity를 어느정도 다시 복원한다고 하는데 r을 곱하고 B를 더하는건 선형결합인데 어떻게 다시 비선형성을 갖게 되는건가요?

    • @jaaaaaang
      @jaaaaaang 3 года назад +3

      ​@@Simba_ne 저도 잘 모르지만, 제가 이해한 부분에 대해서 말씀드리자면, 전제가 어떤 입력을 넣고 학습을 하다보니, sigmoid의 오른쪽 부분(기울기가 0이 되는) 영역에 존재하는 data들은 gradient vanishing 문제가 있게 된다는 것이고, 결국 data의 어떤 부분은 학습에 기여하고, 어떤 부분은 그렇지 못해 모델 성능이 좋지 못하게 되기 때문에 처음 시도는 BN이 아니라, 평균0, 분산 1인 분포로 변형 시켜줘서 sigmoid의 0근처 기울기가 있는 부분으로 data가 모이도록 분포를 변경해줬더니, sigmoid를 사용하는 본연의 목적을 잃고 모델이 더 나빠지더라는 것입니다. 그래서 BN을 한다는 것은 분포를 바꾸되, 질문하신 r과 B를 학습시켜 data 분포를 적절하게 모델이 좋은 성능을 내도록 재배치 하는것도 포함해서 학습 시키겠다는 것입니다. 이 과정에서 중간에 잃었던 non linearity를 다시 회복하게 된다고 표현합니다. 즉, data의 분포가 0근처 기울기를 가지는 구간쪽으로 재배치를 하되 너무 linear하게 되는건 막아 줄수 있는 r과 B를 모델이 알아서 학습하고 적용하게 되는 것입니다.

    • @Simba_ne
      @Simba_ne 3 года назад

      @@jaaaaaang 친절한 설명 감사합니다! 맞는 말씀인거 같아요!

    • @hlee697
      @hlee697 2 года назад

      좋은 질문인 것 같아요. Batchnorm이 아닌 Standardization + ReLU 만으로 실험해보면 좋을 듯요...

  • @kihongkim3068
    @kihongkim3068 3 года назад +1

    와우, , , 정말 꼼꼼한 리뷰네요. 좋은 강의 감사합니다 !

  • @heriun7268
    @heriun7268 3 года назад +1

    근데 1:01:30 부분에서," nonlinearity input의 분포가 네트워크를 안정적으로 학습시킨다. optimzer도 saturated regime에서 덜 stuck된다." 로 해석되는거 아닌가요? 그러니까, sigmoid의 중간부분외의 input값이 중요하다는거 아닌가요. 앞에선 saturated regime에 빠지면 안된다고 이야기하고, however가 들어가니까...

    • @dongbinna
      @dongbinna  3 года назад +1

      좋은 질문 감사합니다. 답변 드리겠습니다.
      해당 부분을 직독직해하면 "만약 우리가 (BN을 이용하여) 비선형적인 입력 분포를 (네트워크가 훈련되는 과정에서) 안정적일 수 있도록 보장할 수 있다면, optimizer는 saturated regime (기울기가 0이 되는 부분)에 빠질 가능성이 줄어들 것이고, 학습 속도가 빨라질 수 있을 것이다."라는 의미입니다.
      말씀하신 대로 단순히 "비선형적인 입력의 분포가 네트워크를 안정적으로 학습시킨다"는 내용이라기보다는, 비선형적인 입력의 분포를 안정적으로 만들어야(학습 과정에서 분포가 바뀌지 않도록 만들어야), 네트워크의 학습 속도가 빨라질 가능성이 높다는 의미로 보시면 되겠습니다.
      이 모든 내용은 특정 차원에 대해서 분포가 안정적이지 못하여 톡톡 튀는 값이 생긴다면, sigmoid에 들어가는 입력이 (상대적으로 이전 스텝에 비하여) 커지거나 작아질 수 있기 때문에 gradient가 0에 가까운 값이 나오고, 이로 인해 학습이 잘 이루어지지 않을 것이라는 가정에서 출발한다는 점을 기억해주세요.

    • @heriun7268
      @heriun7268 3 года назад

      @@dongbinna 답변 감사드립니다. 답변 읽고 다시 읽어보니 그런거 같네요. ㅋㅋㅋ

  • @gustlr1222
    @gustlr1222 3 года назад

    presentation 구성이 너무 마음에 들어요

  • @youtubesh5396
    @youtubesh5396 3 года назад

    감탄했습니다. 정말 감사드립니다.

  • @kbkim-f4z
    @kbkim-f4z 3 года назад

    많은 도움 되었습니다! 감사합니다!

  • @aberf7791
    @aberf7791 3 года назад +1

    목소리가 이근 대위같아요 내용도 너무 재밌어요 ^^

  • @아아-c3l8t
    @아아-c3l8t 3 года назад

    11:57 부분에서 히든 레이어의 차원이 k일 때 아닌가요?
    아 강의에서는 정규화를 중간결과인 활성값에서 실행할것이 아니라 이전층에서 들어오는 입력에 정규화를 한 것 이군요

  • @정민서abc
    @정민서abc 8 месяцев назад

    5:51 이어서

  • @usurper23
    @usurper23 Год назад

    예전 자료들을 찾아보고 있었는데 정리를 잘해주셔서 그럴 필요가 없어졌네요. 감사합니다.

  • @조현장-z8g
    @조현장-z8g 3 года назад +1

    은혜롭다..

  • @Cat_kya
    @Cat_kya 11 месяцев назад +2

    ? 영상 다 어디갔어요

  • @helloworld-o6u
    @helloworld-o6u 10 месяцев назад

    Fan이에요. 서울 오시면 개인과외 부탁드려요😊

  • @댕댕이-w3n
    @댕댕이-w3n 2 года назад

    이 영상은 정말 레전드입니다. 감사합니다 동빈나님

  • @eomtaeyoonkor
    @eomtaeyoonkor 2 месяца назад

    이미 입력자료를 정규화 시킨 경우에는 배치 정규화 층을 추가하지 않아도 될까요?

  • @jhk4967
    @jhk4967 3 года назад

    진짜 최고.....천재...

  • @byoel
    @byoel 3 года назад

    재능 기부 감사합니다

  • @moplaylist_
    @moplaylist_ 3 года назад

    와 정말 감사합니다^^

  • @nutteok
    @nutteok 3 года назад

    dynamic beat 다음 강의 언제 해주시나요ㅜ

  • @조윤정-q2v
    @조윤정-q2v 3 года назад

    혹시 해킹과 코딩 이런거 어떻게 공부하셨는지 알수있을까요? 정말 다방면으로 잘하시는거 같은데요, 정보보안학과 학생인데 학교에서 배우는것외에 더 배우고싶어서 여쭤봅니다!

  • @rphabet5318
    @rphabet5318 3 года назад

    이번에 m1이 잘나왔다고 하는데 코딩입문자입니다.
    코딩테스트 공부에만 전념할것같은데
    맥북 에어 어떻게 생각하시나요 램은 8g면 될까요?

  • @cloudysp8005
    @cloudysp8005 3 года назад

    awesome!! 👍

  • @wedsed123
    @wedsed123 Год назад +1

    빈나갓!

  • @김촘키
    @김촘키 3 года назад

    감사합니다

  • @오성영-n7l
    @오성영-n7l 3 года назад

    자료는 직접 만드신 건가요?

  • @djfl58mdlwqlf
    @djfl58mdlwqlf 3 года назад

    짜릿해...

  • @이승신-q1r
    @이승신-q1r 2 года назад

    정말 입이 벌어집니다. 1시간 20분을 ㄷㄷㄷ, 논문 저자도 이정도로 설명 못할것 같은데요. 인공지능 공부하고 있지만, 정말 부끄럽습니다.