RL처럼 Trial and error 로 트레이닝 하면서도, external reward value 를 몰라도 되는게 대박이네요❤ 세미날한 페이퍼 같습니다. RL에서 Value prediction 을 없에버렸네요. 🎉 π_ref를 어떻게 얻을것인가와, 같은 상황에서 두개의 episode가 필요한건 큰 단점 같습니다만, 각 도메인마다 굉장히 잘맞는 상황들이 있을것 같습니다.
paper에서는 π_ref를 기본적으로 pretrained model을 supervised fine-tune한 것으로 설정하고 있는데, 말씀하신 것처럼 여러가지 다른 시도를 해 볼 여지가 있겠네요. RLHF의 파이프라인을 많이 단순화시켰음에도 불구하고 chosen, rejected 두 개의 응답을 확보해야 하는 점은 여전히 부담이 될 수 있을 것 같습니다.
안녕하세요! 좋은 강의 감사합니다. 갑자기 좋은 아이디어가 하나 떠올랐는데, 혹시 어떻게 생각하실지요? 저는 이 논문 보자마자 딱 Distillation 부터 떠올랐습니다. ref모델이 과연 같은 모델일 필요가 있을까요? 잘 학습된 30B를 ref로 놓고, 조금 멍청한 13B로 학습을 시작하면, 30B의 win lose를 따라가는 13B 세타가 나오지 않을까 하구요... 물론 ref와의 분포가 너무 떨어질 여지가 있으니, (모델사이즈가 2배가 넘으니까요) 수렴에 어려움은 있을 수 있겠지만, 어찌저찌 잘 학습된 ref로 해본다면, formula 상 충분히 가능해 보이지 않으시는지요? 아, 그리고 두번째 호기심은, ref 모델의 성능이 전적으로 큰 영향을 미칠 것 같다 입니다. 사실 이 부분은 실제로 Distillation을 해봤는데 잘 안됐었습니다. 왜그럴까 하고 생각해봤는데, 그냥 흔히 돌아다니는 HuggingFace hub의 30B SFT 모델이 무조건 rlhf의 preference를 잘 따라가리란 보장이 없겠더라구요. 그래서 해당 dpo를 잘 이루려면, 어느정도 rlhf에 대한 preference는 알고있는 ref 모델을 선택하는게 중요하지 않을까? 이런 생각을 해봤습니다. 논문에서는 개인적으로 이런 부분의 비교 실험이 없었던 것은 무척이나 아쉽네요. 어떻게 생각하시는지 의견 나눠주시면 큰 도움 될 것 같습니다 감사합니다!
@1llionaireRecordsOfficial 님, 안녕하세요. 흥미로운 아이디어 공유해 주셔서 감사합니다. 제가 생각할 때는, DPO에서는 PPO 학습 objective에서 유도된 implicit reward를 사용하여 policy 최적화를 하고 있기 때문에 new policy가 old policy (SFT)로 초기화된 상태에서 시작하는 것을 전제로 하는데, 말씀하신 세팅은 처음부터 두 policy간의 분포 차이가 너무 커서 학습이 불안정하고 수렴이 쉽지 않을 것 같습니다. LLM의 distillation 관련 해서는, (이미 알고 계실 수도 있겠지만) arxiv.org/abs/2306.08543 에서 제시한 reverse KL divergence 방식이 꽤 훌륭한 결과를 보이는 것 같은데 참고하시면 좋을 것 같습니다.
높은 퀄리티의 발표 잘들었습니다❤
잘들어주셔서 감사합니다.
논문 리뷰 깊이가 장난 아니네요 ..!! 감사합니다 ~~
좋게 봐주셔서 감사해요!
삼성 sds에서도 llm 연구를 열심히 하나 보네요😊
RL처럼 Trial and error 로 트레이닝 하면서도, external reward value 를 몰라도 되는게 대박이네요❤ 세미날한 페이퍼 같습니다. RL에서 Value prediction 을 없에버렸네요. 🎉
π_ref를 어떻게 얻을것인가와, 같은 상황에서 두개의 episode가 필요한건 큰 단점 같습니다만, 각 도메인마다 굉장히 잘맞는 상황들이 있을것 같습니다.
paper에서는 π_ref를 기본적으로 pretrained model을 supervised fine-tune한 것으로 설정하고 있는데, 말씀하신 것처럼 여러가지 다른 시도를 해 볼 여지가 있겠네요. RLHF의 파이프라인을 많이 단순화시켰음에도 불구하고 chosen, rejected 두 개의 응답을 확보해야 하는 점은 여전히 부담이 될 수 있을 것 같습니다.
안녕하세요 논문리뷰 정말 잘 봤습니다! 핵심이 되는 부분을 잘 정리해주신 것 같아서 혼자 읽을 때보다 더 깊은 이해가 된 것 같습니다. 혹시 실례가 안된다면 준호님께서 만드신 ppt자료를 조금 활용해 연구실 자체 세미나 자료로 사용하고 싶은데 혹시 괜찮으신가요??
도움이 되었다고 말씀해 주셔서 감사합니다. 원본 슬라이드 공유는 좀 힘들지만, 영상 자료는 자유롭게 활용하셔도 됩니다 😊
안녕하세요! 좋은 강의 감사합니다. 갑자기 좋은 아이디어가 하나 떠올랐는데, 혹시 어떻게 생각하실지요?
저는 이 논문 보자마자 딱 Distillation 부터 떠올랐습니다. ref모델이 과연 같은 모델일 필요가 있을까요? 잘 학습된 30B를 ref로 놓고, 조금 멍청한 13B로 학습을 시작하면, 30B의 win lose를 따라가는 13B 세타가 나오지 않을까 하구요...
물론 ref와의 분포가 너무 떨어질 여지가 있으니, (모델사이즈가 2배가 넘으니까요) 수렴에 어려움은 있을 수 있겠지만, 어찌저찌 잘 학습된 ref로 해본다면, formula 상 충분히 가능해 보이지 않으시는지요?
아, 그리고 두번째 호기심은, ref 모델의 성능이 전적으로 큰 영향을 미칠 것 같다 입니다.
사실 이 부분은 실제로 Distillation을 해봤는데 잘 안됐었습니다. 왜그럴까 하고 생각해봤는데, 그냥 흔히 돌아다니는 HuggingFace hub의 30B SFT 모델이 무조건 rlhf의 preference를 잘 따라가리란 보장이 없겠더라구요. 그래서 해당 dpo를 잘 이루려면, 어느정도 rlhf에 대한 preference는 알고있는 ref 모델을 선택하는게 중요하지 않을까? 이런 생각을 해봤습니다. 논문에서는 개인적으로 이런 부분의 비교 실험이 없었던 것은 무척이나 아쉽네요.
어떻게 생각하시는지 의견 나눠주시면 큰 도움 될 것 같습니다 감사합니다!
@1llionaireRecordsOfficial 님, 안녕하세요. 흥미로운 아이디어 공유해 주셔서 감사합니다.
제가 생각할 때는, DPO에서는 PPO 학습 objective에서 유도된 implicit reward를 사용하여 policy 최적화를 하고 있기 때문에 new policy가 old policy (SFT)로 초기화된 상태에서 시작하는 것을 전제로 하는데, 말씀하신 세팅은 처음부터 두 policy간의 분포 차이가 너무 커서 학습이 불안정하고 수렴이 쉽지 않을 것 같습니다.
LLM의 distillation 관련 해서는, (이미 알고 계실 수도 있겠지만) arxiv.org/abs/2306.08543 에서 제시한 reverse KL divergence 방식이 꽤 훌륭한 결과를 보이는 것 같은데 참고하시면 좋을 것 같습니다.
@@joonholee1146 좋은 의견 감사합니다! 실증적으로도 그렇고 보내주신 논문을 봐도 kld민 조져서는 쉽지 않아보이긴 하네요…
지금 과거방식의 디스틸레이션을 실험해보고 있었는데(원래문제풀기+kld) 논문 보고 한번 참고해봐야겠습니다 감사합니다!