▩ 엔비디아의 블랙웰 B200, GB200 발표는 완전히 새로운 기술이 아니라 기존 기술을 적극 활용한 것에 불과하다. ◎ B200 칩 자체의 성능은 20% 정도 올랐을 뿐이며, 이를 칩렛(Chiplet)으로 연결하고 주변 기술을 최적화하여 전체 성능을 높인 것이 특징이다. (28:49) -B200 단일 칩의 성능은 기존 Hopper 대비 20~25% 정도 향상되었다. (04:41, 28:49) ㆍ같은 다이 사이즈에 20~25% 더 많은 트랜지스터를 넣을 수 있는 4N 공정 기술을 사용했기 때문이다. (03:43, 03:59) -B200 2개를 칩렛으로 연결하여 전체 성능을 2배 이상(2.5배) 끌어올렸다. (02:58, 29:02) -주변 기술들의 병목 현상을 해결하여 성능 향상에 기여했다. ㆍ더 빠른 HBM3e 메모리를 사용하여 메모리 대역폭을 높였다. (05:33) ㆍNVLink 5세대를 통해 GPU 간 연결 속도를 높였다. (15:20) ㆍPCIe 5.0과 고성능 SSD를 사용해 스토리지 속도를 높였다. (17:01) ㆍConnectX-7 800Gb 이더넷 NIC로 네트워크 속도를 높였다. (19:38) ◎ GB200 서버는 B200 GPU와 Grace CPU를 모듈화한 제품으로, 고밀도로 배치하여 단위 공간당 성능을 대폭 높인 것이 특징이다. (08:05) -1U 서버에 GB200 모듈 2개(B200 GPU 4개 + Grace CPU 2개)를 탑재한다. (10:27) -전체 서버 렉(rack)에 18개의 1U 서버를 탑재하여, 기존 대비 5배의 성능을 제공한다. (12:21) -서버의 냉각을 위해 물냉(수랭)을 사용한다. (22:42) ◎ 엔비디아는 AI 분야에서 활용할 수 있는 소프트웨어 플랫폼인 NeMo(Neural Modules)도 함께 발표했다. (26:42) -NeMo는 오픈소스 AI 프레임워크와 툴들을 엔비디아 GPU에 최적화된 모듈 형태로 통합한 플랫폼이다. ◎ 엔비디아의 독자적 경쟁력은 B200 단일 칩의 아키텍처 설계에 있다고 볼 수 있다. (34:53) -B200 이외의 기술들(칩렛, HBM3e, NVLink 등)은 경쟁사들도 구현 가능한 기술이기 때문이다. (35:21)
애플 실리콘때도 그랬고 이번 엔비디아도 마찬가지인 것 같은데, 같은 면적에 트랜지스터를 많이 심기보다는 면적을 확장하는데 더 주력하네요. 예전같았으면 다이 면적을 늘리면 불량률이 급증해서 이런 선택을 하기 힘든데, 패키징 기술이 정말 빠르게 발전하다보니 기존의 패러다임이 정말 무색합니다. 어떻게 보면 삼성 파운드리에 기회가 될 수 있겠다는 생각도 드네요. 트랜지스터 밀도 측면에서는 TSMC에 확실히 비교하기 어려운 상황이지만, 꼭 최선단 공정에서 따라잡으려 하기보다는 기존 노드에서 수율을 확보하는 것도 나쁘지 않아보입니다. 패키징 기술에 공을 들여 칩렛을 통한 대면적화가 용이해진다면, 성능이나 가격 경쟁력이나 딱히 밀리지 않을 것 같네요. (하지만 현실은 ㅠㅠ)
그레이스 CPU 이전에 엔비디아에서 Arm-v7 기반 키텍처로 만든 젯슨 TX 2 임베디드 보드가 있죠. CPU와 GPU 통합 버전인데 2017년 정도에 출시된 걸로 알고 있습니다. 실제로 우분투 깔아서 OpenCV 포팅해서 쿠다 라이브러리 이용해서 빠르게 영상처리 했던 경험이 있습니다. 지금의 그레이스 CPU가 우분투 지원하는 것은 당연하죠. 리눅스는 커널 자체가 C 언어로 공개되어 있고 Arm 크로스 컴파일러로 컴파일하면 문제 없이 동작하니 엔비디아 입장에서는 고민의 여지도 없습니다.
칩랫을 여러개 연결하고 또 여기에다가 이것 저것 덕지 덕지 붙인다는 얘기는, 이것들 각각의 '속도' 차이를 조절 해서 빠르고 효율적으로 처리하는 것이 기술일 건데, 이렇게 칩랫 연결과 이것저것 덕지 덕지 붙인 놈들 끼리의 더욱더 복잡해진 부품?들간의 데이터 통신 처리 속도를 과연 어떻게 극복한 것인지~~ 결국 진짜 깡성능이 얼마나 올라갈지는~~ 회의적~~, 마치 결국, 시피유와 메모리 사이의 데이터 처리 속도의 불균형 때문에 데이터 처리 계산 속도가 그만큼 반감 되지 않을까? 빛 좋은 개살구 느낌~~
요즘 인공신경망들은 모델의 크기를 줄이는데에도 많은 노력을 기울이고 있기에 시대의 흐름에 맞춰서 FP4 지원이 추가되었나 보네요 인공신경망을 학습할때는 연산성능이 중요하지만 추론할때는 메모리 성능이 중요한데 앞부분에 이번 블랙웰 아키텍쳐의 메모리 관련 내용도 조금 더 있었으면 좋았을 것 같네요 잘 봤습니다!
오 재미있게 잘 봤습니다. nvidia가 서버 시장 자체를 감히 먹으려고 하네요. 인텔이 부르르 떨듯. 메모리는 DIMM보다 HBM 형태로 가려나보네요. 그러면 삼성이나 하이닉스한테는 그리 안좋을듯. HBM 수율이 바닥이라 몇 백개 단 이전 단계에서는 손해보면서 팔아야함
PC기준으로 설명해주시니 이번 블렉웰 관련 발표 내용이 한눈에 들어오네요. AI쪽 서버가 발전하면서 고가의 HW 가격이 떨어지면, PC쪽도 성능적으로 발전할 여지가 많다는 느낌이 들었습니다. PC에서의 AI적용도 충분히 가능하겠네요. 좋은 내용 감사합니다. 31분53초 부근에 자막이 그레이스 GPU로 나오는데 >>> CPU로 변경이 필요한것 같습니다.
▩ 엔비디아의 블랙웰 B200, GB200 발표는 완전히 새로운 기술이 아니라 기존 기술을 적극 활용한 것에 불과하다.
◎ B200 칩 자체의 성능은 20% 정도 올랐을 뿐이며, 이를 칩렛(Chiplet)으로 연결하고 주변 기술을 최적화하여 전체 성능을 높인 것이 특징이다. (28:49)
-B200 단일 칩의 성능은 기존 Hopper 대비 20~25% 정도 향상되었다. (04:41, 28:49)
ㆍ같은 다이 사이즈에 20~25% 더 많은 트랜지스터를 넣을 수 있는 4N 공정 기술을 사용했기 때문이다. (03:43, 03:59)
-B200 2개를 칩렛으로 연결하여 전체 성능을 2배 이상(2.5배) 끌어올렸다. (02:58, 29:02)
-주변 기술들의 병목 현상을 해결하여 성능 향상에 기여했다.
ㆍ더 빠른 HBM3e 메모리를 사용하여 메모리 대역폭을 높였다. (05:33)
ㆍNVLink 5세대를 통해 GPU 간 연결 속도를 높였다. (15:20)
ㆍPCIe 5.0과 고성능 SSD를 사용해 스토리지 속도를 높였다. (17:01)
ㆍConnectX-7 800Gb 이더넷 NIC로 네트워크 속도를 높였다. (19:38)
◎ GB200 서버는 B200 GPU와 Grace CPU를 모듈화한 제품으로, 고밀도로 배치하여 단위 공간당 성능을 대폭 높인 것이 특징이다. (08:05)
-1U 서버에 GB200 모듈 2개(B200 GPU 4개 + Grace CPU 2개)를 탑재한다. (10:27)
-전체 서버 렉(rack)에 18개의 1U 서버를 탑재하여, 기존 대비 5배의 성능을 제공한다. (12:21)
-서버의 냉각을 위해 물냉(수랭)을 사용한다. (22:42)
◎ 엔비디아는 AI 분야에서 활용할 수 있는 소프트웨어 플랫폼인 NeMo(Neural Modules)도 함께 발표했다. (26:42)
-NeMo는 오픈소스 AI 프레임워크와 툴들을 엔비디아 GPU에 최적화된 모듈 형태로 통합한 플랫폼이다.
◎ 엔비디아의 독자적 경쟁력은 B200 단일 칩의 아키텍처 설계에 있다고 볼 수 있다. (34:53)
-B200 이외의 기술들(칩렛, HBM3e, NVLink 등)은 경쟁사들도 구현 가능한 기술이기 때문이다. (35:21)
이런던 도대체 어떻게 하시는거죠? 직접 정성드리는건가요?
애플 실리콘때도 그랬고 이번 엔비디아도 마찬가지인 것 같은데,
같은 면적에 트랜지스터를 많이 심기보다는 면적을 확장하는데 더 주력하네요.
예전같았으면 다이 면적을 늘리면 불량률이 급증해서 이런 선택을 하기 힘든데,
패키징 기술이 정말 빠르게 발전하다보니 기존의 패러다임이 정말 무색합니다.
어떻게 보면 삼성 파운드리에 기회가 될 수 있겠다는 생각도 드네요.
트랜지스터 밀도 측면에서는 TSMC에 확실히 비교하기 어려운 상황이지만,
꼭 최선단 공정에서 따라잡으려 하기보다는 기존 노드에서 수율을 확보하는 것도 나쁘지 않아보입니다.
패키징 기술에 공을 들여 칩렛을 통한 대면적화가 용이해진다면,
성능이나 가격 경쟁력이나 딱히 밀리지 않을 것 같네요.
(하지만 현실은 ㅠㅠ)
항상 유익한 영상 감사드립니다
5090이 문제가아니라 서버 팔아먹는거에 더 중점을 둔다는거다
써버팖면 200조 5090 팔면 200악
AI 열풍은 언젠가 지나가겠죠. 그것보다 슬픈 건 이제 무어의 법칙이 수명을 다했다는 것 같습니다. 현실과 구분할 수 없는 게임이라는 꿈이 실현되기 전에 발전이 멈추네요.
@@ddemmkkimm 저도 살아생전에 이건 보고싶었네요..
@@ddemmkkimm 양자컴퓨팅이나 3진법 등장하면 무어 예토전생하지않을까요
그래픽카드 가격인상해도 그게더 이익이 많이 남는다면 더많이 팔겠지
역시 용산 탑 브레인이십니다 ㅎㅎ
싱글-듀얼-트리플-쿼터 과거 인텔이 CPU 칩셋 발표했을때와 같은 느낌이다
게임유저들도 3090에서 4090넘어올때 성능을 크게 기대하지 않음과 같은것 같다
설레발+기대치= 보통
서버에 수랭...? 그건 좀...
유지관리도 문제고, 문제가 발생했을때 수습하는것도 문제고
그레이스 CPU 이전에 엔비디아에서 Arm-v7 기반 키텍처로 만든 젯슨 TX 2 임베디드 보드가 있죠. CPU와 GPU 통합 버전인데 2017년 정도에 출시된 걸로 알고 있습니다. 실제로 우분투 깔아서 OpenCV 포팅해서 쿠다 라이브러리 이용해서 빠르게 영상처리 했던 경험이 있습니다. 지금의 그레이스 CPU가 우분투 지원하는 것은 당연하죠. 리눅스는 커널 자체가 C 언어로 공개되어 있고 Arm 크로스 컴파일러로 컴파일하면 문제 없이 동작하니 엔비디아 입장에서는 고민의 여지도 없습니다.
칩렛 글카면 라데온이 먼져시도 했는데 다음세대는 기대해도 되는것인가요?
어째 컴터 발전하면서 발행하는 열을 냉각시키는 방법이 자동차 내연기관차량의 냉각방법과 비슷하게 발전하는듯 하다.
1.발열 및 TDP 문제 2. 병목 문제 3. 옛날에 인텔이 했던걸로 아는데 망했음 효율이 안좋았고 돈만 쳐 발랐다는 뭐 그때 보다 기술 발전을 이뤘지만 인텔이 쓴 맛보고 안하는데는 이유가 잆음 참고 인텔빠 아님 지금 주가는 기대감임 성공하면 좋고
나는 내일 세상이 멸망해도 오늘 그래픽카드를 사겠다.
게이밍용 그래픽카드 말고는 알빠노.
게이밍용 그래픽카드 소식을 알려달라~ 알려달라~
최고예요❤
칩렛이나 층으로 쌓아 올려서 제작되는형태면 발열이슈 많아지겟다, 소비자단은 원칩에서 끝나겟지만, 아니면 면적이널버질듯
감자나무님 과외 감사합니다 최고 ㅎㅎㅎㅎ
2.5D랑 칩렛이랑 비교 설명도 부탁드려도 되나요!
쉽게 설명해 주셔서 감사합니다.
성능향상 2.5배라고 치고, 그런데 가격이 1.5배 정도만 올린다는게 좋은거죠.
nim은 잘 될까요?
칩랫을 여러개 연결하고 또 여기에다가 이것 저것 덕지 덕지 붙인다는 얘기는, 이것들 각각의 '속도' 차이를 조절 해서 빠르고 효율적으로 처리하는 것이 기술일 건데, 이렇게 칩랫 연결과 이것저것 덕지 덕지 붙인 놈들 끼리의 더욱더 복잡해진 부품?들간의 데이터 통신 처리 속도를 과연 어떻게 극복한 것인지~~ 결국 진짜 깡성능이 얼마나 올라갈지는~~ 회의적~~, 마치 결국, 시피유와 메모리 사이의 데이터 처리 속도의 불균형 때문에 데이터 처리 계산 속도가 그만큼 반감 되지 않을까? 빛 좋은 개살구 느낌~~
변역기 감자나무 v2024님 잘보았습니다.
요즘 인공신경망들은 모델의 크기를 줄이는데에도 많은 노력을 기울이고 있기에 시대의 흐름에 맞춰서 FP4 지원이 추가되었나 보네요
인공신경망을 학습할때는 연산성능이 중요하지만 추론할때는 메모리 성능이 중요한데 앞부분에 이번 블랙웰 아키텍쳐의 메모리 관련 내용도 조금 더 있었으면 좋았을 것 같네요
잘 봤습니다!
오 재미있게 잘 봤습니다.
nvidia가 서버 시장 자체를 감히 먹으려고 하네요. 인텔이 부르르 떨듯.
메모리는 DIMM보다 HBM 형태로 가려나보네요. 그러면 삼성이나 하이닉스한테는 그리 안좋을듯. HBM 수율이 바닥이라 몇 백개 단 이전 단계에서는 손해보면서 팔아야함
정말 잘 봤습니다.
그래서 선생님 주식더 사도 되겠습니까
저 서버 건물 온수 걱정은 없겟군.......
겨울에 실내 난방을 저기서 발생한 온수로 라디에이터 돌리면 딱 좋겠군요 ㅋㅋㅋㅋ
이제 황가놈은 안믿기로 ㅠ.ㅠ 크흡
10여년전 과거 생각난다~ 이러면 AMD는 멀티칩셋 + 칩렛 가즈아~ ㅎㅎ
쉽게 이야기한다는 것
ㅈㄴ 개쌉고수 썩은물이라는 것
PC기준으로 설명해주시니 이번 블렉웰 관련 발표 내용이 한눈에 들어오네요.
AI쪽 서버가 발전하면서 고가의 HW 가격이 떨어지면, PC쪽도 성능적으로 발전할 여지가 많다는 느낌이 들었습니다.
PC에서의 AI적용도 충분히 가능하겠네요.
좋은 내용 감사합니다.
31분53초 부근에 자막이 그레이스 GPU로 나오는데 >>> CPU로 변경이 필요한것 같습니다.
감자형. Al는 데이터샌타 에서 태어났지만 에지디바이스. 에서 꽃 을 피리라
4개월 지나서 이영상을 다시보니 유치하기 끝이없네
그레이스하퍼 실 서버는 올초에 본격 공급 되기 시작 했어요.
ARM CPU 나오면 걍 윈도우 쓰듯이 우분투깔고 걍 일반소비자는 겜하면 되겟네?! ㅋㅋ 정리감사합니다, 감자나무형님,
그 ARM용 게임이 나와야 의미가 있죠.
@@Indukynim 가상머신ㄱㄱ
@@Indukynim비슷한게 있습니다. 라즈베리파이같은 sbc에 와인+x86호환 레이어로 어찌저찌 돌리는게 있어요.
칸성비가 pc업계에서 나오다니 ㅋㅋㅋㅋㅋㅋ
하지만 20%성능차이면 엄청난거 아닙니까? 😮
일단 봐야지
윈도우도 ARM 지원하긴 합니다.
가장 큰 문제는 포팅이 쉽지 않다는 거겠죠. 스냅드래곤 이외에 플랫폼에서 WoA를 써보려 한다면 드라이버가 제대로 안돌아가는게 부지기수입니다.(그나마 나은 스냅드래곤도 드라이버 상태가 영 좋지 않은게 함정) x86만큼 플랫폼이 탄탄하지가 않아요.
애플을 이겼다. 라고 난리법석이던데~ 😮
기정사실화라고 봐도 될 듯요
젠슨황 화이팅 !!!!!!!!
떳다 내 저녁
당분간 AI쪽은 NVIDIA독주일듯 합니다. ㅎㅎ
b100과 b200을 혼동하는것 같은데...
b100에 hbm3e 192GB들어감.
H200은 144GB
H100은 80GB
엄청난 성능 향상임.
B200은 384GB HBM
H200 144GB의 2.65배.
a100 hbm 80GB, H100 HBM 80GB 같음.
B100은 엄청난 성능 향상임
그러나 빅테크 H100재고 처리하고 B100에 줄선 이유.. MI300X와는 비교 안됨. 현존 최강.
그러나 XPU나오긴 한데.. 그게 HBM3E 288GB인데..
중요한것은 공급량이 극소수 이며.. cuda 같은 샹태계도 없음.
전기를 아껴라
영상 시간을 편집해서 좀 짧게 하시면 떡상할거 같은데 ;;
그럼 5090두개?
전성비 이야기는 없군요.
5090은 깡패겠지
지피유 숙소 생활
시끄럽고 빨리 실물 나와줘~ (벅벅)
결론:인류 가 더 빨리 망함