뭐든 첨에는 폄하받더라도 가능성을 제시해준다는 것만으로도 의미가 있죠. HBM도 처음에는 비현실적이라고 무시받았지만 결국 성공했듯이... 시장에서 약간 우습게(?) 보던 Cerebras, Groq, Graphcore 같은 독자적인 칩 개발사들을 다시 보게 되는 부분이 있네요. 짐켈러의 tenstorrent도 놀라운 것을 보여줄 수 있을지 기대가 됩니다. 그리고 엔비디아가 AI학습영역에서는 왕이었지만 중장기적으로 AI추론 영역도 지배하려고 진짜 열심히 노력하고 있는데... 현실적으로 추론 시장에서만큼은 쉽지 않겠다는 부분을 다시 한번 느끼게 되네요.
요약 1.웨이퍼 한 장에 sram과 cpu가 통합되어 있는 구조라서 처리속도가 넘사벽 2.통짜로 웨이퍼 한 장을 써야 되서 수율문제, 비용문제, 발열문제, 전력소비 과다 문제가 발생 3.그럼에도 자본이 충분히 공급될 상황이 갖춰지면 언젠가는 대세가 될 가능성이 있다 개인적인 생각이지만 이게 미래에 대세가 될 가능성이 있다면 현시점 자본력과 기술력이 넘사벽인 엔비디아에서도 연구 개발 하지 않을까?
영상 중간쯤 보다가 그냥 웃고 갑니다 ㅎㅎ 팹관련 현직분들은 이게 얼마나 허무맹랑한 제품인지 잘 아실 거에요. 그냥 단순하게 생각하면 아주 큰 ASIC이라고 보면 됩니다. 지금 장점만을 부각시켜서 그렇지 웨이퍼를 통째로 사용하는 칩이 가지는 단점은 장점과는 비교 불가 입니다. 발열부터 시작해서, 불량, 패키징, 가격 무엇하나 제대로 대응할 수 있는 것이 없습니다. 장점으로 내세운 성능도, 추후 확장성이나 설계 변경등을 고려하면 반쪽짜리 성능이고요. 이게 상용이 가능한 제품이라면 엔비디아는 몰라도 빅테크들은 이미 설계를 시작했거나 시범운영중이었겠죠. 빅테크들이 설계한 칩 사이즈 보면 답이 나옵니다.
그건 sota를 경쟁하는 리서치 사례에 적용되는 이야기지 프로덕션에 신경쓰는 최선두 기업들은 효율성 향상을 위한 모델 경량화에 환장함 gpt 4o mini, gemini 1.5 flash 같이 쿼리 밀도와 비중이 높은 sllm들은 50b 이하 크기라 sram 44기가로 돌리고도 남음
잘 보았습니다. 현실적으로 저 대규모의 칩이 모두 동작할 필요가 없을지도 모릅니다. 어차피 칩은 작은 패널로 구성되어있고 그 중 몇개가 동작하지 않으면 그걸 건너 띄는 회로를 구성해 줄수 있고 그런 용도의 리소그래피 장비가 나와 있지요. 테스트를 통과한 웨이퍼를 가지고 죽은 칩을 빼고 새로 배선하는 방법을 쓴다면 수율 걱정은 없고 성능이 우수하다면 열발산 정도는 문제가 안될 수도 있습니다.
회사가 연구 개발한 기술이 회사 가치에 얼마나 작용하는가에 대한 것은 고객의 수요 뿐이죠. 어떤게 더 효율적이다 뭐다 하는 이야기보다 결국 LLM을 사용하는 유저가 무엇을 선택하느냐가 중요할 것 같습니다. 개인적으로 ChatGPT, Copilot, Claude를 사용하면서 퀄리티가 무엇이 좋냐에 갈리지 토큰이 얼마나 더 빨리 나오냐는 특정 속도가 넘어가면서 크게 중요한 요소는 아닌 것 같습니다. 따라서, Cerebras에서 LLama 3 8b를 엄청나게 빠르게 제공한다고 해도 유저가 과연 많이 사용할까? 는 의문이고 LLama 3 8b가 아니라 사람들이 사용하는 LLM 서비스 제공자인 OpenAI, anthropic에서 Cerebras와 협력하여 현재 모델을 더 빠르게 제공한다면 사용자에게 더 큰 가치를 제공할 것 같네요.
The company has never officially disclosed the price of its chips, but they are believed to cost around $2-3 million. Hock said that a single CS-3 uses 23kW.2024. 3. 13.
굉장히 흥미로운 얘기군요. 설계 철학이 아주 재밌습니다. 그런데 궁금한 점은 저 웨이퍼 칩의 수율이 어느 정도인 걸까요? 5나노가 성숙됐다면 80~90% 정도의 싱글 다이 수율일까요? 0.9라고 가정하면 0.9의 84승이 84다이짜리 전체 웨이퍼칩의 수율이 되는 거 맞나요? 계산해보면 0.00014 즉 0.014%가 나오네요; 싱글 다이 수율이 99%면 수율 43% 정도네요. 이거 보고 느낀 게, 이런 문제를 인지하고 엔비디아에서 블랙웰에서 싱글 칩 2개를 옆에다 갖다붙인 형태를 취해본 거란 생각이 드네요. 온 칩으로 하면 빨라진다는 거도 알고 그렇다고 웨이퍼 통쨰로 하면 수율 문제가 생기니까 두 마리 토끼를 다 잡으려 한 거 같은.. 근데 이게 sram을 크게 만든건 아니고 같은 gpu코어를 붙인 거라 조금 다른 거 같기도 하고 뭔가 과도기적인 무언가 같네요.
2:35 블랙웰 두개 합쳐서 GH200 을 만든다는 설명은 틀린 것 같습니다. GH200은 1 Grace CPU(ARM) + 1 Hopper GPU(H100)이 합쳐진 거고 GH200을 보드에 두 개 넣고 NVlink 로 연결하면 GH200 NVL2라고 부릅니다. 블랙웰은 H200 GPU 두개를 합친거고 이름은 B200. B200을 Grace CPU랑 합치면 GB200 입니다. (제가 틀렸을 수도 있으니 확인해보셔요)
같은제품에 성능이 제각각 다른 반도체가 있다? 그 기업 제품 살까요? 신뢰성 문제죠 그래서 웨이퍼 공정들이 진공에서 이루어지는거고요. 괜히 써도 별 문제 없는걸 폐기할까요~ TV를 샀는데 보는데 문제는 없는데 led 하나가 나갔어요? 이 제품 살건가요? 사람마다 다르겠지만 바로 반품하겠죠.
로직 인 메모리 구조로 20년전 AI 반도체 IP 설계를 우리 팀에서 실험적으로 시뮬 진행했었음 딱 Cerebras와 유사한 아키텍쳐로 그당시 비용 문제로 TEST만 하고 끝냈었는데 저 아키텍쳐에는 문제가 있어 해결 방안으로 가변 적인 로직 구조가 되어야 하나 평면 구조에선 구현하기 힘듬 즉 현재보다 수십배 더 고도화된 3차원 구조로 전환이 필수적임 즉 수천층 수만층의 다층레이어의 다음세대 반도체 기술의 탄생이 필요한 시점임
와 짱빠르다는거면 확실히 새로운 가능성들이 생기지 않을까 싶네요 저번에 4차산업, 5G 이야기 나올때도 이렇게 빨라서 뭐가 좋은거지 싶었는데 자율주행 자동차나 디지털 트윈등은 엄청난 통신속도가 있어야지 새로운 가능성이 생기는 부분들이 있더라고요 이 칩도 마찬가지로 엄청난 처리속도로 인해서 새로운가능성이 충분히 있지 않을까 싶네요 예를 들어서 현실에서1000년을 관찰할 일을 10분만에 시뮬레이션 돌려버린다거나 실시간으로 사람에 반응하는데 반응정도가 아니라 사람의 신경보다 빠르게 움직여서 동작하는 보조도구, 로봇등이 있을 수 있지 않을까 싶네요
그 지인이 어떤분인지 모르겠지만, 기술개발은 유독 세라브라스만 하는것은 아니겠지요. 단일칩 사이즈가 저리크면 응축열방출 문제가 엄청나겠고, TDP도 더 커지겠죠. 무엇보다 인류의 발전방향은 대형화보단 소형화이며 중량화가 아닌 경량화입니다. 속도에 양보할수 없는것은 편의성이며, 미래 기술의 표준은 그어딘가의 타협점을 찾겠져, 특히 B2C에서는 시장성이 없는 아이템같습니다. 항상 좋은 영상 감사합니다. ❤
한국사람이 엔비디아 기술 다 가지고 있었는데 그것을 상용화 못했다 시장 잠식 상용화가 힘든것이다. 테슬라 전기차는 백년전에 다 있었다. 그것을 상용화한것은 일론 머스크다 기술이라는것은 초다툼이고 시장잠식 능력이다. 말해봤자 이해도 못하고 걍 당분간 엔비디아 기업 따를자가 없다고 믿고 갈련다
오래 전 떡밥, 웨이퍼 한장 중 하나의 fet 반도체만 삑살나서 나오면, 수율이 떨어짐, 인공위성, 카메라, 포토센서는 웨이퍼 한장으로 만드는데, 그건, 몇 픽셀 삐구나도 괜찬고, 소프트웨어가 보정해 주기 때문에 사용함... Nvidia, 황사장이 바보가 아님... 될 것 같으면, 황사장이 투자 했겠지...
온칩메모리 구조가 더 높은 성능에 더 적은 전력 , 더빠른 결과를 가져오게 되니 적당한 온칩 사이즈로 제작하는 게 답이될 수도 있어보이네요. 지금의 엔비디아 AI칩 자체가 너무 고가이기도 하고 고전력에 발열문제도 심각한데 GROOQ이나 CEREBRES같이 온칩메모리가 대안이 될 수도. 그럼 국내 메모리 제조사들에겐 큰 타격이 될 수도 있겠네요
40년 전에 우리나라 메모리 초창기에도 이미 이런 아이디어는 있었음. 당시에 들은 얘기로 나사나 IBM 같은 곳에서는 전체 컴퓨터(CPU, Chip-Set, Memory 등)를 1칩으로 만들어 웨이퍼 1장에 몇개 정도만 나오게. 대신에 크기를 줄이고 성능을 높인다고 들었음. 당시에 5인치 웨이퍼에 16kSRAM이나 64kDRAM이 150~250개 정도 들어갔음. 수율 문제가 있겠지만...
저런 생각은 많은 사람들이 생각했지만 수율문제 해결도 문제고 sram가격도 문제고 하지만 수율은 레이저로 수율문제가 되는 코어를 죽이는 방식으로 해결할 듯 하여간 저 방식이 가장 이상적이라는 것은 모든 사람이 알았던 것이고 하지만 비용 때문에 비용효율적일 수 있을까? 라는 점인데 쓰다보면 답이 나오겠지
삼성 5나노에서 IBM 서버칩 만든다고 하는거 보니 삼성 5나노도 완전 숙성된 공정이고 4나노도 엑시 2200만드는거 봐서는 거의 정착한듯.. 3나노 gaa 차세대패키지 팬아웃패널패키지 적용한 액시노스 W1000 봐서는 어느정도 해결책은 찾은듯.. 수율만 제대로 올라오면 될듯.. 삼성도 라벨리온 칩도 만드니 오퍼만 오면 제대로 만들 능력은 완성된듯하네요
아무것도 모르는 입장에서 이 모델의 경우는 상상을 해보면 SRAM이 아니라 온칩위에 메모리 확장이 가능한 메모리(HBM등) 적층 기술만 만들면 ? llm 데이터 규모가 대량으로 커지며서 엔비디아 뿐만 아니라 모든 GPU를 망하게 만들 수 있을 것 같은데....상상력이 너무 나갔나? 발열, 수율과 성능대 비용의 적정성을 따져서 웨이퍼당 2, 4, 8개 정도?....더 작으면 의미가 없을 것 같고... 삼성이 그런 것을 연구해 보는 것도 좋을 듯....(페키징 분야에서 애먹는 삼성같은 경우 웨이퍼 온칩에 메모리 적층기술이 개발되면 패키징 약점이 사라질 듯...)
HBM을 사용한 같은 성능의 전체 시스템 대비 장단점을 비교해 주세요. 제품 하나의 성능이 좋다는 것은 충분히 이해가 되는데, 예를 들면 이거 하나 대비 HBM을 사용한 시스템을 열 개를 붙여서 비교를 해 보면 가격 성능 발열 등등 다양 한 비교를 해줘야 이해가 될거 같은 데 단품만 좋다고 얘기 하니까 얼마나 좋은 건지 머릿속에 들어오지 않네요
Cerebras 의 주장은 좀 말이 안됌. 여러 웨이퍼를 쌓아 올린게 HBM 인데 단일 웨이퍼에서 마스킹을 해서 전선을 놓으면 웨이퍼 낭비는 더 심해짐. Cerebras 홈페이지 테스트가 아니라 실제 제품을 가지고 테스트 해야함. Cerebras가 몇게의 실제 GPU로 그걸 처리하는지 어떻게 믿어? Cerebras 가 주장하는 bandwidth도 믿을수가 없음. 상식적으로 생각해 보삼. 단일 웨이퍼에 선을 놓아서 전송하면 단일 평면으로만 데이타가 이동함. 그러나 층층이 쌓인 웨이퍼(HBM)에 한번에 전송하면 더 빠름. CPU, GPU 에 들어가는 SRAM 의 용량이 작은게 구조적인 이유고 비용은 그 구조때문에 비싼진거고. 넌 선후 관계를 잘못 이해하고 있음. 라이젠 3D CPU도 왜 3D 라고 하냐면 캐쉬를 위로 쌓아올렸기 때문. 단일로 해도 캐쉬가 성공하면 왜 힘들게 위로 쌓음? Cerebras 가 기존 반도체 공학을 모두 뛰어넘는 외계임 회사임? 구독 취소 수준. 제품을 보고 말하삼. 홈페이지 말고.
NVIDIA H100 GPUs, which are large chips, yield approximately 60 to 65 chips from a standard 300mm wafer, depending on the specific manufacturing process and yield rates. This number can vary slightly depending on the efficiency of the process and other factors involved in the production.
내가 봤을 때는 특별한 기술이 아닌 것 같은데? sram 때려박아서 했다는 건데 그것도 웨이퍼 통채로 그렇다면 특허가 있는 것도 아니라면 인텔도 할 수 있는 것이고 다만 시장선점이라는 부분이 있고 두번째는 수율을 확보해야 한다는 점인데 sttmram같은 것을 실리콘인터포저로 연결하면 더 비용효율적이지 않을지?
웨이퍼? 통짜를??? 에반데 그렇게 좋은거를 우리가 알 정도면 업계 사람들이 몰랐을까? 그리고 웨이퍼 통짜로 써야 높은 처리속도가 나온다고 발표하면 대다수 사람들은 블랙웰 수백개 연결하는게 더 낫지 라고 생각함 그리고 소형으로는 못 만들기때문에 특정 조건 아니면 소외받을거는 기정사실 그리고ai생태계가 엔비디아 쿠다 아니면 돌아가기 힘들게 만든 상황이라서 소형화 될때까지 꽤 오래걸림
뭐든 첨에는 폄하받더라도 가능성을 제시해준다는 것만으로도 의미가 있죠. HBM도 처음에는 비현실적이라고 무시받았지만 결국 성공했듯이...
시장에서 약간 우습게(?) 보던 Cerebras, Groq, Graphcore 같은 독자적인 칩 개발사들을 다시 보게 되는 부분이 있네요.
짐켈러의 tenstorrent도 놀라운 것을 보여줄 수 있을지 기대가 됩니다.
그리고 엔비디아가 AI학습영역에서는 왕이었지만 중장기적으로 AI추론 영역도 지배하려고 진짜 열심히 노력하고 있는데...
현실적으로 추론 시장에서만큼은 쉽지 않겠다는 부분을 다시 한번 느끼게 되네요.
감사합니다.
오늘 낮에 시스코 이야기를 했는데 ... ㅎㅎㅎ
NVIDIA는 시스코와 다르다고 했는데 불과 몇시간만에 생각이 바뀔수 있다니 ..... 세상이 참 빠르네요!
웨이퍼는 효율이 안좋음 안쓰는 이유가있는거임 부품하나 망가지면 통채로 갈아야함
@@user-dz5yb4wj8 효율이 20배나 차이가 날까요? 한마디로 지금 쓰던 시스템 부품 교체 20번 하는거보다 싸다고 하면? 수율은 올리면 되고 그리돼면 메모리 반도체칩은 사장될겁니다
@@kimbrandon3083 웨이퍼에 하는건 이미 10년 전부터 있던거임 안쓰는 이유는 현실에서 못쓰기때문임 사이버 탁상론자들이나 좋다고 하는거임 현장을 조또 모르고 하는소리임
@@kimbrandon3083 개 뼈다구같은 소리하지마셈 이거에 혹하는것 자체가 이쪽 관련자는 아니라는건데 저딴 50년후에나 가능할 제품을 믿는거부터가 멍청한거임 사이버세상에서 유튜브 어디 주서듣고 허무맹랑한 말같지도않은 소리에 선동당하는것 자체가 존나 멍청함
오늘 정보 너무 좋아요. 굿굿
요약
1.웨이퍼 한 장에 sram과 cpu가 통합되어 있는 구조라서 처리속도가 넘사벽
2.통짜로 웨이퍼 한 장을 써야 되서 수율문제, 비용문제, 발열문제, 전력소비 과다 문제가 발생
3.그럼에도 자본이 충분히 공급될 상황이 갖춰지면 언젠가는 대세가 될 가능성이 있다
개인적인 생각이지만 이게 미래에 대세가 될 가능성이 있다면 현시점 자본력과 기술력이 넘사벽인 엔비디아에서도 연구 개발 하지 않을까?
1TFLPS당 얼마인지가 중요한거지
진짜 진정한 SOC로다....ㄷㄷㄷ😮😮😮
웨이퍼단위면 가성비랑 수율이 나오나...불량하나생기면 그비싼 웨이퍼 통채로 날라가네. 게다가s램이라니
S램이 미래다 비싸고 좋지 그리고 5nm 면 수율 됨
Hbm도 수율이 문제임
웨이퍼 하나의 면적에 SRAM 다 때려박는게 핵심이니까
@@gregory000 5나노면 수율 된다구요? ㅋ 웨이퍼 하나가 통째로 다 살아야 되는데...
수율이 불량이 있는 부분을 감안해서 redundant 로 설계함. 잊고 있었는 회사였는데 AI로 나오네요.
좋은 정보 제공해주셔서 감사해요! 매일 안될공학 영상 보는데 보람이 있네용!!!
영상 중간쯤 보다가 그냥 웃고 갑니다 ㅎㅎ 팹관련 현직분들은 이게 얼마나 허무맹랑한 제품인지 잘 아실 거에요.
그냥 단순하게 생각하면 아주 큰 ASIC이라고 보면 됩니다. 지금 장점만을 부각시켜서 그렇지 웨이퍼를 통째로 사용하는 칩이 가지는 단점은 장점과는 비교 불가 입니다.
발열부터 시작해서, 불량, 패키징, 가격 무엇하나 제대로 대응할 수 있는 것이 없습니다.
장점으로 내세운 성능도, 추후 확장성이나 설계 변경등을 고려하면 반쪽짜리 성능이고요.
이게 상용이 가능한 제품이라면 엔비디아는 몰라도 빅테크들은 이미 설계를 시작했거나 시범운영중이었겠죠. 빅테크들이 설계한 칩 사이즈 보면 답이 나옵니다.
현직자인지 몰라도 말하는 뽄새가 역겹기 짝이 없네요. 그냥 웃고 갑니다? 진짜 역겹기 짝이 없는 인간 같으니라고
scale is all you need란 말이 나올정도로
llm의 규모를 키우는것이 지능과 연결된다라는 현추세로봤을때는 저걸 쓸일은 없을겁니다...
본문에서도 봤다싶이 절대메모리 용량자체가 한계입니다.
기껏해야 저 큰웨이퍼를 썻는데 절대용량은 44기가가 한계죠
조단위 파라미터 llm은 못돌린단 얘기고 용량확보를 위해 몇장을 이어버리면
h100을 이어버리것이랑 결국 계산기때려보면 손해일겁니다..
그러니 다들 안쓰는거겟죠
그건 sota를 경쟁하는 리서치 사례에 적용되는 이야기지 프로덕션에 신경쓰는 최선두 기업들은 효율성 향상을 위한 모델 경량화에 환장함
gpt 4o mini, gemini 1.5 flash 같이 쿼리 밀도와 비중이 높은 sllm들은 50b 이하 크기라 sram 44기가로 돌리고도 남음
@@dtdtst50b 이하가 어떻게 44gb에서 돌아가죠. 모델 올리러면 100gb 이상 필요할탠데... 양자화해서 돌아가는걸 돌리고도 남는다고 표현하신건가요
@@민기-q1v 대다수의 기업들은 당연히 8bit 이하 수준으로 양자화해서 서빙하고
로드밸런싱 인프라에 기반해서 4bit 이하 모델도 사용하는데 50b 모델 돌리기에는 남아돌죠
@@민기-q1v
영상 안보셨나요… 보고 답시다
@@민기-q1v 지금 Chat GPT도 계속 증류해서 다운스케일하고 양자화 해서 호스팅 하는 겁니다. 애초에 8q양자화 이상으로 벤치상 점수 차이가 없어요.
와, 세상이 정말 빠르게 변하네요! 😲 웨이퍼 기반 기술은 진짜 새로운 패러다임이 올 것 같아요. 수율 문제만 잘 해결하면 대박일 듯! 이 기술이 AI의 미래를 어떻게 바꿀지도 궁금하네요. 🤔✨
저거 때문에 우리나라 변압기가 역대 최고로 수출 잘되고 있다고 합니다.
제룡이가 슬퍼여
좋은 영상 소개 감사합니다.
순간적 추론을 말씀하셨는데 자율주행차량에서 순간적인 계산이 중요하다고 알고있고 그래서 테슬라에 사용하는 칩이 말한것처럼 빅칩을 사용한다고 하던데 그거랑 같은 개념인가요?
잘 보았습니다.
현실적으로 저 대규모의 칩이 모두 동작할 필요가 없을지도 모릅니다.
어차피 칩은 작은 패널로 구성되어있고 그 중 몇개가 동작하지 않으면 그걸 건너 띄는 회로를 구성해 줄수 있고
그런 용도의 리소그래피 장비가 나와 있지요. 테스트를 통과한 웨이퍼를 가지고 죽은 칩을 빼고 새로 배선하는 방법을 쓴다면 수율 걱정은 없고
성능이 우수하다면 열발산 정도는 문제가 안될 수도 있습니다.
삼성 파운드리 패배자 : 삼성 파운드리 기준으로 안되고 TSMC 파운드리 5nm 가능 했다 증명한것임
회사가 연구 개발한 기술이 회사 가치에 얼마나 작용하는가에 대한 것은 고객의 수요 뿐이죠. 어떤게 더 효율적이다 뭐다 하는 이야기보다 결국 LLM을 사용하는 유저가 무엇을 선택하느냐가 중요할 것 같습니다. 개인적으로 ChatGPT, Copilot, Claude를 사용하면서 퀄리티가 무엇이 좋냐에 갈리지 토큰이 얼마나 더 빨리 나오냐는 특정 속도가 넘어가면서 크게 중요한 요소는 아닌 것 같습니다.
따라서, Cerebras에서 LLama 3 8b를 엄청나게 빠르게 제공한다고 해도 유저가 과연 많이 사용할까? 는 의문이고 LLama 3 8b가 아니라 사람들이 사용하는 LLM 서비스 제공자인 OpenAI, anthropic에서 Cerebras와 협력하여 현재 모델을 더 빠르게 제공한다면 사용자에게 더 큰 가치를 제공할 것 같네요.
감사합니다. 재밌게 봤어요.
이쯤되면 짐 캘러가 어디까지 할 수 있을지도 궁금해지네요
Hbm은 주문제작생산이고 지금은 매진이라서 안쓰는게 아니라 못쓰는거죠.
제 생각인데, ai 연구에서 경량화쪽 연구가 활발해지면서 어느 정도 성능에서 합의점에 도달하지 않을까 생각합니다. 그보다 이제 같은 성능의 칩을 어떻게 하면 싸게 공급할 수 있을까? 이런 쪽으로 포커싱이 되지 않을까 하네요.
The company has never officially disclosed the price of its chips, but they are believed to cost around $2-3 million. Hock said that a single CS-3 uses 23kW.2024. 3. 13.
굉장히 흥미로운 얘기군요. 설계 철학이 아주 재밌습니다.
그런데 궁금한 점은 저 웨이퍼 칩의 수율이 어느 정도인 걸까요? 5나노가 성숙됐다면 80~90% 정도의 싱글 다이 수율일까요? 0.9라고 가정하면 0.9의 84승이 84다이짜리 전체 웨이퍼칩의 수율이 되는 거 맞나요? 계산해보면 0.00014 즉 0.014%가 나오네요; 싱글 다이 수율이 99%면 수율 43% 정도네요.
이거 보고 느낀 게, 이런 문제를 인지하고 엔비디아에서 블랙웰에서 싱글 칩 2개를 옆에다 갖다붙인 형태를 취해본 거란 생각이 드네요. 온 칩으로 하면 빨라진다는 거도 알고 그렇다고 웨이퍼 통쨰로 하면 수율 문제가 생기니까 두 마리 토끼를 다 잡으려 한 거 같은.. 근데 이게 sram을 크게 만든건 아니고 같은 gpu코어를 붙인 거라 조금 다른 거 같기도 하고 뭔가 과도기적인 무언가 같네요.
매우 비효율적으로 보이긴해도 그걸로 어떤 AI의 벽을 깨서 기존에 안되는걸 될수있게 만들면 대박나긴할듯 ㅋ
과연 그게 가능할지 의문이네
Cerebras System 투자할 수 있는 방법이 있나요? 주식 시장 상장은 아직 안 된 건가요?
아마 내년쯤 미국 증권시장에 상장될 예정 올해 10월에 한다고는 했지만 일단 연기
와ㅋㅋ 웨이퍼 하나를 통째로 칩으로 써서 SRAM으로 도배를 해버리네ㅋㅋㅋㅋ
이 채널은 구독자들이 지식이 상당하네ㄷㄷ 뭔말인지 하나도 모르겠네ㅋㅋ
2:35 블랙웰 두개 합쳐서 GH200 을 만든다는 설명은 틀린 것 같습니다.
GH200은 1 Grace CPU(ARM) + 1 Hopper GPU(H100)이 합쳐진 거고 GH200을 보드에 두 개 넣고 NVlink 로 연결하면 GH200 NVL2라고 부릅니다.
블랙웰은 H200 GPU 두개를 합친거고 이름은 B200. B200을 Grace CPU랑 합치면 GB200 입니다.
(제가 틀렸을 수도 있으니 확인해보셔요)
수율도 별 문제 없는게 먼지 하나 떨어졌다고 다 버릴 필요 있나요? SRAM부분이면 그부분만 안쓰게 하면 되지.... SRAM 용량이 작아져서 성능이 좀 떨어지는 제품이 나올순 있어도 웨이퍼 다 버릴 필요는 없다고 생각이 드네요
같은제품에 성능이 제각각 다른 반도체가 있다? 그 기업 제품 살까요? 신뢰성 문제죠
그래서 웨이퍼 공정들이 진공에서 이루어지는거고요. 괜히 써도 별 문제 없는걸 폐기할까요~
TV를 샀는데 보는데 문제는 없는데 led 하나가 나갔어요? 이 제품 살건가요? 사람마다 다르겠지만 바로 반품하겠죠.
@@MUNSC미니멈 보장 수준만 제시하고 게런티하면 됨. 오버 스펙은 복불복으로 가져가는거고. 스펙 범위 제시해주면 구매함
이런 놈들 특 지가 사는 폰에 마감만 이상해도 바로 환불함
@@MUNSC
이미 소비자용 CPU도 최대 클럭은 랜덤 뽑기이고, 불량 난 부분 죽여서 싸게 파는 모델도 많음
불량이 많이 나면 하급제품으로 팔면 되고, 성능이 조금 떨어지는 부분은 애초에 마진을 두어여하는 부분이지
@@MUNSC이미 모든반도체 칩이 그러고 있고 품질 검사해서 칩컷해서 하위모델로 팔아버립니다 40기가 모델내고 가격 20퍼센트 깎으면 중소규모 기업이나 대학교에선 살껄요?
아무리 좋아도 수율이 안나오면 춘장들 뻘짓과 차이가 없을듯.
뻘짓은 아니지
@@KK-ub6ub뻘짓맞음 수율이 전부임
5나노로 저정도가 가능하다면...삼서에서도 도전해볼만 할지도?
빅다이 경험이 매애애애우 부족
삼성이 tsmc보다 불량율이 높아서 안될껄요
ARM 코어나 GPU 둘다 원래는 다른 용도였는데, 지금은 x86을 대체, 압도하고 있는것처럼 SRAM도 지금의 캐시 수준에서 벗어나서 DRAM과 위상을 역전시킬수있을까요. 궁금하네요
GPU는 애초에 병렬 연산용이고 ARM은 임베디드용 프로세서의 한계를 극복하지 못했듯이 SRAM도 구조적 한계로 절대 대체 못할듯
근데 텍스트 기반 추론말고, 이미지 생성이나 영상 생성에서는 엔비디아 GPU가 더 좋지 않을까요?
HBM보다 훨 비싼 SRAM을 마구 박아서 아주 비싼 NPU를 만든 것.
먼지떨어지면 그부분은 죽이는 설계를 했겠죠
하나 잘못됬다고 통으로 버리지는 않을듯
얼굴 안까고 유튜버 하는 애들은 믿음이 안가
근데 왜 와? 안 오면 되잖아.
@@사당꿈나무 그러게.. 거슬리게 왜 자꾸 뜨지 영구차단 ㄱ
로직 인 메모리 구조로 20년전 AI 반도체 IP 설계를 우리 팀에서 실험적으로 시뮬 진행했었음 딱 Cerebras와 유사한 아키텍쳐로 그당시 비용 문제로 TEST만 하고 끝냈었는데 저 아키텍쳐에는 문제가 있어 해결 방안으로 가변 적인 로직 구조가 되어야 하나 평면 구조에선 구현하기 힘듬 즉 현재보다 수십배 더 고도화된 3차원 구조로 전환이 필수적임 즉 수천층 수만층의 다층레이어의 다음세대 반도체 기술의 탄생이 필요한 시점임
와 짱빠르다는거면 확실히 새로운 가능성들이 생기지 않을까 싶네요
저번에 4차산업, 5G 이야기 나올때도 이렇게 빨라서 뭐가 좋은거지 싶었는데 자율주행 자동차나 디지털 트윈등은 엄청난 통신속도가 있어야지 새로운 가능성이 생기는 부분들이 있더라고요
이 칩도 마찬가지로 엄청난 처리속도로 인해서 새로운가능성이 충분히 있지 않을까 싶네요
예를 들어서 현실에서1000년을 관찰할 일을 10분만에 시뮬레이션 돌려버린다거나
실시간으로 사람에 반응하는데 반응정도가 아니라 사람의 신경보다 빠르게 움직여서 동작하는 보조도구, 로봇등이 있을 수 있지 않을까 싶네요
헐 웨이퍼 한장 안에 불량이 얼마나 많은지 알구나 이야기 하나
수율 최소 90프로대에 육박해야 할텐데, 그런 공장이 현실에 없을듯
우리는 엔비디아직장인들의 시대에 살고있다
좋은 정보 감사합니다! 댓글들도 다 유용하고 좋네요. 혹시나 확인 차 여쭤보는데 이 영상 세레브라스 측으로부터 지원 제작을 받았다거나 한 건 아니죠? 약간 긍정적인 뷰가 많이 강조되게 들어와서요. 댓글 보기전엔 와 엄청난 신기술?!?! 이런 느낌이었네요.
그 지인이 어떤분인지 모르겠지만, 기술개발은 유독 세라브라스만 하는것은 아니겠지요. 단일칩 사이즈가 저리크면 응축열방출 문제가 엄청나겠고, TDP도 더 커지겠죠. 무엇보다 인류의 발전방향은 대형화보단 소형화이며 중량화가 아닌 경량화입니다. 속도에 양보할수 없는것은 편의성이며, 미래 기술의 표준은 그어딘가의 타협점을 찾겠져, 특히 B2C에서는 시장성이 없는 아이템같습니다. 항상 좋은 영상 감사합니다. ❤
저 칩을 b2c라고 생각하시는건가요?? 진심으로?????
오히려 대규모 엔비디아 칩보다 더 효율적일 수도 있어보이네요.
글쎄요 최근 20년의 반도체 발전 경향을 보면 대형화로 가고 있습니다..
전투기에 달리는 레이더도 웨이퍼 통째로 만든다는것 같던데ㅎㅎ
이것도 국방용으로 첩보를 정보로 필터링 시키는 AI같은거에 쓰자
ㅋㅋㅋ 그거 그냥 안테나 입니다 생긴건 비슷하죠? MEMS 예요.
이젠 속도는 아무 의미가 없음
이젠 누가 제일 최신이고 누가 제일 정확한지가 중요한 시기임
한국사람이 엔비디아 기술 다 가지고 있었는데 그것을 상용화 못했다 시장 잠식 상용화가 힘든것이다.
테슬라 전기차는 백년전에 다 있었다.
그것을 상용화한것은 일론 머스크다
기술이라는것은 초다툼이고 시장잠식 능력이다.
말해봤자 이해도 못하고 걍 당분간 엔비디아 기업 따를자가 없다고 믿고 갈련다
오래 전 떡밥, 웨이퍼 한장 중 하나의 fet 반도체만 삑살나서 나오면, 수율이 떨어짐, 인공위성, 카메라, 포토센서는 웨이퍼 한장으로 만드는데, 그건, 몇 픽셀 삐구나도 괜찬고, 소프트웨어가 보정해 주기 때문에 사용함...
Nvidia, 황사장이 바보가 아님...
될 것 같으면, 황사장이 투자 했겠지...
구획에 따라선 비활성화하는 방법도 있긴하죠
홈페이지 들어가서 질문을 해봤는데 내용이 진짜 엉터리입니다. ㅋㅋ 빠르긴 엄청 빠르네요
온칩메모리 구조가 더 높은 성능에 더 적은 전력 , 더빠른 결과를 가져오게 되니 적당한 온칩 사이즈로 제작하는 게 답이될 수도 있어보이네요. 지금의 엔비디아 AI칩 자체가 너무 고가이기도 하고 고전력에 발열문제도 심각한데 GROOQ이나 CEREBRES같이 온칩메모리가 대안이 될 수도. 그럼 국내 메모리 제조사들에겐 큰 타격이 될 수도 있겠네요
40년 전에 우리나라 메모리 초창기에도 이미 이런 아이디어는 있었음. 당시에 들은 얘기로 나사나 IBM 같은 곳에서는 전체 컴퓨터(CPU, Chip-Set, Memory 등)를 1칩으로 만들어 웨이퍼 1장에 몇개 정도만 나오게. 대신에 크기를 줄이고 성능을 높인다고 들었음. 당시에 5인치 웨이퍼에 16kSRAM이나 64kDRAM이 150~250개 정도 들어갔음. 수율 문제가 있겠지만...
오늘 엔비디아 실적발표후
떡락하는 주가속도로 달려왔습니다😂
거의다 말아올렸어요 속도가 느려요 ㅋㅋㅋㅋㅋㅋ 양전각임 ㅋㅋㅋㅋ
@@토디-i7xㅋㅋㅋ?
@@토디-i7x 니가 바로 인간지표 -7%
@@토디-i7x 양전이요? 6퍼 하락했던데요?
빛보다 빠르면 타임머신도 가능한 애기
Chat gpt보다 속도는 엄청 빠른데 내용의 신뢰성은 점점이네요...글로 묻고 답하고 구두로는 안되는 것 같고요...
과거 hdd 쓰던 시절 램디스크 설치 한 느낌일듯
주식 빼야 하나요?
저런 생각은 많은 사람들이 생각했지만 수율문제 해결도 문제고 sram가격도 문제고 하지만 수율은 레이저로 수율문제가 되는 코어를 죽이는 방식으로 해결할 듯 하여간 저 방식이 가장 이상적이라는 것은 모든 사람이 알았던 것이고 하지만 비용 때문에 비용효율적일 수 있을까? 라는 점인데 쓰다보면 답이 나오겠지
그렇게 좋다면 왜 아직도 시장을 장악하지 못 했는지가 납득이 안 가긴 하네요.
신생회사입니다. 2019년 부터 제품이 나오기 시작함. 2017년 부터 구글이나 퀄컴의 투자를 받기 시작함. 잘 될지 안될지 모르겠는데 잘 되었으면 하는 회사임. 몇년전에 coreteks 유튜브에서 본거 같은데 제품화를 시도를 하는 모양입니다.
연산력을 펑펑 낭비해버릴 수 있게 되면 어떤 AI가 튀어나올지 기대되네요 ㅋㅋ
비전 인식 + 생성 AI도 성능의 벽에 가능성이 막혔던 분야였으니..
사람들은 다들 "이만하면 됐다. 그만하자. 소형화에 집중하자" 같은 말을 하고 있는데
전 AI 개발사들이 그러지 않을 거라고 생각합니다
일반 서비스용이라면 몰라도, AI 개발용 AI는 극한의 극한까지 규모를 쌓아 올리겠죠. 그러지 않으면 회사간 경쟁에서 밀릴 테니..
이 모든 경이로운 기술에 한국에서 기술적으로 기여 하는 부분은 있나? 기억소자 주문생산외에?
삼성 5나노에서 IBM 서버칩 만든다고 하는거 보니 삼성 5나노도 완전 숙성된 공정이고
4나노도 엑시 2200만드는거 봐서는 거의 정착한듯..
3나노 gaa 차세대패키지 팬아웃패널패키지 적용한 액시노스 W1000 봐서는 어느정도 해결책은 찾은듯..
수율만 제대로 올라오면 될듯..
삼성도 라벨리온 칩도 만드니 오퍼만 오면 제대로 만들 능력은 완성된듯하네요
오!! 세레브라스!! 감사합니다~~~ 안될공학 화이팅!!
이게 되면 삼전이랑 하닉 망하는건가요??
이건 특별한 기술이기라기보단(아 기술이 맞긴 하죠.) 웬지 콜롬부스의 계란에 근접해보이네요 ^ ^ ㅎㅎㅎ
누가 그걸 못해? 라기보단 그걸 일부러 해내는 발상인 느낌이랄까...
로보틱스랑 연동하는 과정에서 지금 기술로는 느린 반응성이 큰 허들이었을거 같은데 저런걸로 개선하면 좀 더 반응성 좋은 로봇들이 등장할 수 있겠네
아무것도 모르는 입장에서 이 모델의 경우는 상상을 해보면 SRAM이 아니라 온칩위에 메모리 확장이 가능한 메모리(HBM등) 적층 기술만 만들면 ?
llm 데이터 규모가 대량으로 커지며서 엔비디아 뿐만 아니라 모든 GPU를 망하게 만들 수 있을 것 같은데....상상력이 너무 나갔나?
발열, 수율과 성능대 비용의 적정성을 따져서 웨이퍼당 2, 4, 8개 정도?....더 작으면 의미가 없을 것 같고...
삼성이 그런 것을 연구해 보는 것도 좋을 듯....(페키징 분야에서 애먹는 삼성같은 경우 웨이퍼 온칩에 메모리 적층기술이 개발되면 패키징 약점이 사라질 듯...)
On memory chip 가장 잘 할 수 있는 회사가 삼성전자인데
참 뭐하고 있는지 모르겠네요
저정도속도차이라면 전력(어차피 속도가빠르니까 같은처리량대비 전력은 큰차이안날듯)수율등차이는 나중에잡더라도 개발할가치가있지
HBM을 사용한 같은 성능의 전체 시스템 대비 장단점을 비교해 주세요. 제품 하나의 성능이 좋다는 것은 충분히 이해가 되는데, 예를 들면 이거 하나 대비 HBM을 사용한 시스템을 열 개를 붙여서 비교를 해 보면 가격 성능 발열 등등 다양 한 비교를 해줘야 이해가 될거 같은 데 단품만 좋다고 얘기 하니까 얼마나 좋은 건지 머릿속에 들어오지 않네요
대량양산 성공 극히 어려움. 온칩개념 제품이나온지 반세기가 되어가는데 생산중 메모리Cell나가면 CPU도 같이버리게되어 오프칩이 대세인건데 양산되더라도 극도로비싼칩이될듯
Cerebras 의 주장은 좀 말이 안됌. 여러 웨이퍼를 쌓아 올린게 HBM 인데 단일 웨이퍼에서 마스킹을 해서 전선을 놓으면 웨이퍼 낭비는 더 심해짐. Cerebras 홈페이지 테스트가 아니라 실제 제품을 가지고 테스트 해야함. Cerebras가 몇게의 실제 GPU로 그걸 처리하는지 어떻게 믿어? Cerebras 가 주장하는 bandwidth도 믿을수가 없음. 상식적으로 생각해 보삼. 단일 웨이퍼에 선을 놓아서 전송하면 단일 평면으로만 데이타가 이동함. 그러나 층층이 쌓인 웨이퍼(HBM)에 한번에 전송하면 더 빠름. CPU, GPU 에 들어가는 SRAM 의 용량이 작은게 구조적인 이유고 비용은 그 구조때문에 비싼진거고. 넌 선후 관계를 잘못 이해하고 있음. 라이젠 3D CPU도 왜 3D 라고 하냐면 캐쉬를 위로 쌓아올렸기 때문. 단일로 해도 캐쉬가 성공하면 왜 힘들게 위로 쌓음? Cerebras 가 기존 반도체 공학을 모두 뛰어넘는 외계임 회사임? 구독 취소 수준. 제품을 보고 말하삼. 홈페이지 말고.
결국 설계 보다는 수율 좋은 생산력이 돈 버는거임
속도가 빠르다고 하는데 똑같은 내용이 계속 반복돼있고 이상한대답하고있는디
넘사벽 s램이라서 속도도 엄청나네 가격 도 넘사벽일걸
가격을 줄이려면 결론 hbm 써야함 속도 개선 할려면 통신 채널를 늘리는 방법밖에
웨이퍼에 통으로 찍으면 불량 관리는 어떻게 하려나? 불량 한두개 있으면 그부분 죽이고 쓸 수 있으면 나쁘지 않을지도..
그래서 최신공정사용안하고 이전버전은 16nm공정사용했었음. 이번에 5nm공정도입하는건 어느정도 수율을 잡을자신이생겼다고보는게맞을듯 이전버전도 어느정도 생산을 했었으니까
그러뭐해 한번고장나면 전체갈아야하는데 A/S 어떻게 감당해 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ
20년 뒤엔 손톱만한 칩이 지금 cerebras 한 다이보다 속도가 빠르겠지..?
웨이버 하나에 h100은 몇개 들어가요?
NVIDIA H100 GPUs, which are large chips, yield approximately 60 to 65 chips from a standard 300mm wafer, depending on the specific manufacturing process and yield rates. This number can vary slightly depending on the efficiency of the process and other factors involved in the production.
나스닥에 상장주 인가요?
있다면 종목이 뭔가요?
ㅇㄷ
ㅋㅋ 예전 컨셉을 실현한 현재.
하지만 크기 수율 제조 실용성 관점에서 가성비 안나와 사라진 형태임.
3d를 2d웨이퍼로 구현?
미래가 없는 오늘만 하는 방법
아직까진 웨이퍼 합치는거보다
Ml 개발자가 일일히 네트워크 고민해서 데이터 위치시키니는게 쌈
현시점 기준으론 썸네일용 화제 그 이상은 아닌듯하네요. 지금의 최신공정들이 레거시가 될 때 쯤이면 가능할지도 모르겠습니다
속도 빨라도 크기,가격,온도 적으로
문제만 없으면 대박이겠어요
저렇게 웨이프가 크면 클수록 수율은 나쁘기 때문에 웨이프를 크게 하지 않는 것인데...수율이도 좋다는 것이 사실일까? 의문이 생기네요.
인텔도 CPU자체에 On chip memory로 올리는과정이지만서도
저건 수율안나와 쓸수 있을지 ㅋㅋ
물리적 위치별 비활성화를 한다면 가능하겠지만서두
삼성이 이 아이디어로 설계 생산 까지 하면 중상급 스펙만 나와도 현H100을 확실하게 누른다는 말인데. 삼성도 해볼만한 시도 일듯
할 수는 있는데 단기간에 안됨
저 회사가 특허낸건가요?
저게 좋다면 엔비디아도 저걸 못만들이유는 없을거같은데.
이건뭔 ㅋㅋㅋ 그렇게따지면 애플이 블랙웰 못만들이유가 어딨음
그런데 웨이퍼 통째로 하면, 생산 수율 경제성이 맞나? 웨이퍼 하나 에러나면 그냥 다 버려야 하는데, 과연 수율이 경제성이 맞을 것인가가 문제인 것 아닌가요?
저게 3세대고 1세대모델이 이미gpt3훈련이 일부사용됨. 그래서 시장에서 생산되는 공정보다 더낮은 공정을사용하고 그렇게해도 대용량의 컴퓨팅성능하고 칩간대역폭제한이없어 전력효율성도 훨씬높음.1,2세대를 어느정도 생산도 이미 많이 했기때문에 수율문제는 생산하기에 큰문제 없을정도로 잡았다고봐야지. 근데 아직 쿠다생태계가 독보적이라 아직 대중화가안된것뿐 기술자체의 잠재력은 크다고봄
cerebras 가서 몇개질문해보니 대답퀄리티는 재미니 gpt보다 별로네요 답은 빨리나와요
수율이 문제 인데 이게 가장 큰 문제겠네요
지금까지의 시스템칩 보면 칩만들고나서 문제 있으면 문제 있는거 비활성화나 잘라서 사용했는데
원칩 사용이면 수율이 100퍼가 나와야한다는건데 이게 거의 불가능한 이야기 이니까요
1~2세대 다문제없이 개발하고 생산해서 사용한곳도 여러군데있음. 이미 수율문제는 판매하는데 문제없거나 수요만 많아지면 커버가능해지는수준일거란거임. 벤치마크성능이 압도적이라 실사용시 성능저하문제가 발생하지않으면 수율이 좀낮아도 사용할가치가있음
다른건 모르겠고 다량 양산으로 넘어가기엔 생산성의 기술적 장벽, 수율적 장벽, 수익성이 걱정되네 ㅋㅋㅋㅋㅋㅋㅋㅋ
내가 봤을 때는 특별한 기술이 아닌 것 같은데? sram 때려박아서 했다는 건데 그것도 웨이퍼 통채로 그렇다면 특허가 있는 것도 아니라면 인텔도 할 수 있는 것이고 다만 시장선점이라는 부분이 있고 두번째는 수율을 확보해야 한다는 점인데 sttmram같은 것을 실리콘인터포저로 연결하면 더 비용효율적이지 않을지?
기존 업체들이 저걸 안하는 이유가 있었을텐데 과연...
웨이퍼? 통짜를??? 에반데 그렇게 좋은거를 우리가 알 정도면 업계 사람들이 몰랐을까?
그리고 웨이퍼 통짜로 써야 높은 처리속도가 나온다고 발표하면
대다수 사람들은 블랙웰 수백개 연결하는게 더 낫지 라고 생각함
그리고 소형으로는 못 만들기때문에 특정 조건 아니면 소외받을거는 기정사실
그리고ai생태계가 엔비디아 쿠다 아니면 돌아가기 힘들게 만든 상황이라서
소형화 될때까지 꽤 오래걸림
음 ~ 저걸로 비트코인 채굴하면 재벌되겠네 ,,, 알아보니 안된다고 합니다
일론 머스크 질문한거 정지해서 보면 어이가 없음. 같은 내용 복붙되어 있음.
그래서 쿠다생태계는 어떻게 찢을거야
와.... 저거를 5나노.....
진짜 수율나오긴하나....
엔비디아는 오토캐드 처럼 인공지능을 위한 칩이 아니라 그래픽처리랑 인공지능이랑 비슷한 추론과정을 거치기에 좋았지만 인공지능 만을 위한칩에 비하면 떨어집니다..
전력이 문제겠어요. 20배나 빠르다는 것은 기업 입장에서 시간이 돈인데...
기업이 누군지가 아니라 기업이 어딘지라고 해야 되는게 아닐지.......가끔 이런 모습 보여주실 때마다 정말 착잡합니다.................
서버실 영상도 있는데 실제 칩 사진 한장이 없네요