늘 좋은 영상 감사합니다. 두가지 질문이 있는데, 시간이 허락하신다면 답변 부탁드립니다. 1. 3.3모델에서 요구하는 gpu의 스펙은 공식홈페이지에도 안보이는데, 어떻게 알 수 있을까요? 2. 만약 스펙에 맞는 gpu를 구해서 회사용으로 구축한다면, 사용자가 늘어날때는 추가적으로 gpu의 vram이 요구 될텐데, 적정 vram을 어떻게 예측할 수 있을까요? 즉 구축후 테스트는 혼자해보고 추후에 실무적용 되서 사용량이 많아지면 느린 아웃풋으로 만족도가 낮아질 수 있을텐데 유즈 케이스가 있을까요?
늘 좋은 영상 감사합니다.
두가지 질문이 있는데, 시간이 허락하신다면 답변 부탁드립니다.
1. 3.3모델에서 요구하는 gpu의 스펙은 공식홈페이지에도 안보이는데, 어떻게 알 수 있을까요?
2. 만약 스펙에 맞는 gpu를 구해서 회사용으로 구축한다면, 사용자가 늘어날때는 추가적으로 gpu의 vram이 요구 될텐데, 적정 vram을 어떻게 예측할 수 있을까요?
즉 구축후 테스트는 혼자해보고 추후에 실무적용 되서 사용량이 많아지면 느린 아웃풋으로 만족도가 낮아질 수 있을텐데 유즈 케이스가 있을까요?
14700k cpu, 64GB RAM, 3090 24GB VRAM 본체로 라마 3.3 70B 모델을 돌려봤습니다.
1.93token/s 으로 출력되더군요...
개인이 집에서 쓰는 것은 너무 느려서 불가능할 듯합니다.
70b는 90기가 정도는 vram이 필요합니다
Q4_K_M 양자화된 모델을 선택하면 24GB 그래픽카드 듀얼 사양 (24+24 = 48GB)에서 돌릴 수 있어요. ollama 같은 환경 이용하면 됩니다.
모두 답변감사합니다. 제 경우는 회사에서 H100 서버를 하나 지원해줘서 90GB는 확보가 가능한 상황입니다.. 다만 여러명이 동시에 요청했을 때 속도가 엄청나게 느려져버리는건 아닐까 하는 걱정이 있습니다.
@@lvupkim4460 레딧 같은 곳에 물어보시면 제대로된 정보 찾을 수 있지 않을까요? 그 쪽은 사용자 커뮤니티가 되게 활성화되어있어서 그쪽 찾아보시는걸 추천드립니다.