라마 3.3(Llama 3.3) 한국어 추론능력 테스트하기 - MMLU 벤치마크 데이터셋

Поделиться
HTML-код
  • Опубликовано: 11 дек 2024

Комментарии • 6

  • @lvupkim4460
    @lvupkim4460 3 дня назад

    늘 좋은 영상 감사합니다.
    두가지 질문이 있는데, 시간이 허락하신다면 답변 부탁드립니다.
    1. 3.3모델에서 요구하는 gpu의 스펙은 공식홈페이지에도 안보이는데, 어떻게 알 수 있을까요?
    2. 만약 스펙에 맞는 gpu를 구해서 회사용으로 구축한다면, 사용자가 늘어날때는 추가적으로 gpu의 vram이 요구 될텐데, 적정 vram을 어떻게 예측할 수 있을까요?
    즉 구축후 테스트는 혼자해보고 추후에 실무적용 되서 사용량이 많아지면 느린 아웃풋으로 만족도가 낮아질 수 있을텐데 유즈 케이스가 있을까요?

    • @lietz4671
      @lietz4671 День назад

      14700k cpu, 64GB RAM, 3090 24GB VRAM 본체로 라마 3.3 70B 모델을 돌려봤습니다.
      1.93token/s 으로 출력되더군요...
      개인이 집에서 쓰는 것은 너무 느려서 불가능할 듯합니다.

    • @charles78501
      @charles78501 День назад +1

      70b는 90기가 정도는 vram이 필요합니다

    • @김학규-q2p
      @김학규-q2p День назад +1

      Q4_K_M 양자화된 모델을 선택하면 24GB 그래픽카드 듀얼 사양 (24+24 = 48GB)에서 돌릴 수 있어요. ollama 같은 환경 이용하면 됩니다.

    • @lvupkim4460
      @lvupkim4460 День назад

      모두 답변감사합니다. 제 경우는 회사에서 H100 서버를 하나 지원해줘서 90GB는 확보가 가능한 상황입니다.. 다만 여러명이 동시에 요청했을 때 속도가 엄청나게 느려져버리는건 아닐까 하는 걱정이 있습니다.

    • @charles78501
      @charles78501 23 часа назад

      @@lvupkim4460 레딧 같은 곳에 물어보시면 제대로된 정보 찾을 수 있지 않을까요? 그 쪽은 사용자 커뮤니티가 되게 활성화되어있어서 그쪽 찾아보시는걸 추천드립니다.