교수님 좋은 강의 공유해주셔서 감사드립니다. 궁금한 점이 있는데 혹시 GPT-2에서 GPT-1에 비해서 달라진 점이 1. layer normalization의 위치가 바뀐것 2. final self attention block이 추가된 것 3. decoder layer 개수가 늘어난 것 위 세가지로 알고 있는데 제가 맞게 알고있는 지 잘 모르겠습니다. 현재 GPT-2를 pre-trained한 모델이 아니라 처음부터 자체적인 raw text data로 pre-train의 과정을 거치려하는데, 전체 코드가 공개된 곳이 없어서 GPT-1을 변형하여 구현을 하려고 합니다. 위 세가지외에 다른 것이 있다면 알려주시면 감사하겠습니다.
교수님 강의 너무 좋습니다!!
C자붙은 분들께 안보여드리는것으로...하겠습니다. 푸하...
강의 감사합니다. 교수님~
교수님 좋은 강의 공유해주셔서 감사드립니다. 궁금한 점이 있는데 혹시 GPT-2에서 GPT-1에 비해서 달라진 점이
1. layer normalization의 위치가 바뀐것
2. final self attention block이 추가된 것
3. decoder layer 개수가 늘어난 것
위 세가지로 알고 있는데 제가 맞게 알고있는 지 잘 모르겠습니다.
현재 GPT-2를 pre-trained한 모델이 아니라 처음부터 자체적인 raw text data로 pre-train의 과정을 거치려하는데, 전체 코드가 공개된 곳이 없어서 GPT-1을 변형하여 구현을 하려고 합니다. 위 세가지외에 다른 것이 있다면 알려주시면 감사하겠습니다.
안녕하세요 교수님~ 강의 잘 보았습니다 감사합니다 ㅎㅎ. 혹시 다른 모델도 소개하실 계획은 없으신가요? RoBerta, ALBERT, XLNet 등이요!
안녕하세요, 저희 연구실의 이유경 학생이 BERT 이후 모델들에 대한 정리를 한 영상이 있으니 참고하세요.
ruclips.net/video/v7diENO2mEA/видео.html