GPU 리소스 관리하는 게 gpu 클러스터 운영하는 관점에서 참 어려운 것 같습니다. 저는 스타트업에서 근무하는데, MIG를 일관되게 사용하고 싶지만 A100이상의 카드들에서만 기능이 제공되고, CPU 같이 쿠버네티스에서 소숫점 할당이 유동적이면 좋겠지만 아키텍처적으로 이게 어렵다 알고 있습니다. (NVIDIA DEVICE PLUGIN에서 타임 슬라이싱을 제공하지만 RACE CONDITION 발생 여지 도 존재) 필요한 리소스에 따라 RTX 카드기반으로 노드를 추가했지만 소프트웨어적으로 해결 못하는 것 같아 아쉬움이 남고, vmware 같은 곳에서 구독형 SaaS로 vGPU 솔루션을 팔고 있으나 너무 비싸서 😅 도입하기 참 쉽지 않습니다. 발표에서 언급한 HAMI 는 프로젝트가 좀 더 커지면 도입해을 고려해 봐야겠지만 GPU 클러스터 운영하는 분들의 고민하는 포인트들이 다 비슷한 것 같습니다
기계어로 한땀한땀 코딩하시나 봅니다... 는 농담이고.. 소위 국내에서 소프트웨어 기업으로 네카라쿠배 중 첫째 가는 회사인데 직접 개발 안하고 가져다 썼다는걸 말씀하시는 것 같은데.. 오픈소스야 누구든 가져다 쓰라고 한거고 새로 만들자니 시간과 인건비 등 비용이 들고 오픈소스도 어느정도 알아야 쓰는겁니다. 해외 유명 기업들도 오픈소스 많이 가져다 쓰고요.. 그리고... 무엇보다도 네이버가 어느정도 기술력은 있긴 하지만.. 그렇게 기대 이상의 기술력은 가지고 있지 않습니다.. ^^;;;
GPU k8s 구성이 필요했는데 좋은 정보 감사합니다😊👍
GPU 리소스 관리하는 게 gpu 클러스터 운영하는 관점에서 참 어려운 것 같습니다. 저는 스타트업에서 근무하는데, MIG를 일관되게 사용하고 싶지만 A100이상의 카드들에서만 기능이 제공되고, CPU 같이 쿠버네티스에서 소숫점 할당이 유동적이면 좋겠지만 아키텍처적으로 이게 어렵다 알고 있습니다. (NVIDIA DEVICE PLUGIN에서 타임 슬라이싱을 제공하지만 RACE CONDITION 발생 여지 도 존재)
필요한 리소스에 따라 RTX 카드기반으로 노드를 추가했지만 소프트웨어적으로 해결 못하는 것 같아 아쉬움이 남고, vmware 같은 곳에서 구독형 SaaS로 vGPU 솔루션을 팔고 있으나 너무 비싸서 😅 도입하기 참 쉽지 않습니다. 발표에서 언급한 HAMI 는 프로젝트가 좀 더 커지면 도입해을 고려해 봐야겠지만 GPU 클러스터 운영하는 분들의 고민하는 포인트들이 다 비슷한 것 같습니다
그냥 오픈소스 썻다 뭐 이런 내용이네 네이버 기술력 진짜 처참하다 ㅋㅋㅋ
참나 ㅋㅋㅋ 오픈소스를 가지고 얼마나 응용을 잘하느냐가 중요한건데 오픈소스 쓴다고 기술력을 논하시는게
맞나 싶네요, 본인은 오픈소스 안쓰시나요?
기계어로 한땀한땀 코딩하시나 봅니다... 는 농담이고.. 소위 국내에서 소프트웨어 기업으로 네카라쿠배 중 첫째 가는 회사인데 직접 개발 안하고 가져다 썼다는걸 말씀하시는 것 같은데.. 오픈소스야 누구든 가져다 쓰라고 한거고 새로 만들자니 시간과 인건비 등 비용이 들고 오픈소스도 어느정도 알아야 쓰는겁니다. 해외 유명 기업들도 오픈소스 많이 가져다 쓰고요.. 그리고... 무엇보다도 네이버가 어느정도 기술력은 있긴 하지만.. 그렇게 기대 이상의 기술력은 가지고 있지 않습니다.. ^^;;;
오픈소스 안쓰고 개발하세요?? ㄷㄷㄷㄷ