EP 22. Altman형 잘 가! OpenAI 도 이젠 끝인가? (초소형 오픈소스 모델이 GPT-4 를 이기는 이유)
HTML-код
- Опубликовано: 7 окт 2024
- LLAMA-3, QWEN 에 이어서 최근에 Google 에서 공개한 GEMMA-2 까지.
최근에 발표되는 소형의 오픈소스 모델들의 성능이 OpenAI 의 GPT-4 보다 더 좋은 벤치마크 성능을 보이는 경우가 심심찮게 보입니다. 9B 파라미터 크기를 가진 나름 초소형 모델이 1800B 크기의 GPT-4 보다 성능이 좋을 수 있다? 무려 크기 차이가 200배나 나는데 말이죠.
데이터셋의 크기/품질이 개선되었고, 더 많은 Compute 을 투입하면 투입할수록 작은 모델의 성능이 끊임없이 올라가고 있습니다. 작은 모델 역시 아직 훈련이 덜 되어 있다(under-trained)라는 말이 나올 정도로 소형모델의 성능이 증가하는 이유는 무엇일까요? 이 현상을 GROKKING 이라고 표현하는데요, 오늘은 이 내용을 살펴봤습니다.
9B 짜리 모델이면 오늘 당장 16GB 메모리를 가진 맥북프로에서도 쾌적하게 돌릴 수 있는 정도의 크기입니다. 이런 추세가 지속되다 보면 어쩌면 맥북프로에서 AGI 가 돌수도 있는 날이 올수도 있습니다. 우리가 생각하는 것보다 intelligence 의 본질은 간단하고, 인간은 하찮은 존재일 수도 있을 것 같습니다 ㅠ.ㅠ
본 동영상에서 주로 살펴본 논문은 arxiv.org/abs/... 입니다.
--
(2024-07-08 update)
Chinchilla Optimum 에 대해서 잘못된 내용이 있어서 바로 잡고 본문 내용을 수정했습니다.
/ pfbid029tkpkppyogbjqg3...
알고리즘으로 떠서 봤는데 좋은 내용이네요. 특히 스타트업이 찾아야하는 틈새의 관점이 최신 연구트렌드와 연계해서 이 만큼 정제된건 첨 보는거 같네요. 각자의 적당한 기회의 영역을 떠나서 경제성은 까다로운 문제인거 같습니다.
유익한 영상 너무 잘봤습니다!! 감사합니다🙏
내용 너무 좋습니다! 감사합니다.
생성 AI 관련 유용한 정보 감사드려요. 😀
GROKKING 현상은 정말 흥미롭네요...
감사히 보았습니다. 딥러닝 뿐만 아니라 사람살이의 통찰도 느꼈습니다.
Training을 위한 양질의 데이터 (좋은 교재)를 준비했는지 어떻게 판단할 수 있을까요? 모델에게 어떤 교제가 좋았는지 피드백 받을 수 있는 방법 같은 것이 있는건가요?
39:20
5:22 모델 사이즈가 작은 경우에 오버피팅이 된다구요..?
오버피팅은 모델사이즈와 전혀 상관없는 내용입니다. 제가 말을 잇는 과정중에 명확하게 표현하지 못한 것 같습니다. 죄송합니다 ㅠ.ㅠ
나 알트만인데 개추눌렀다