AI판 LK-99이 등장했습니다... 상온 초전도체만큼 놀라운, 10000분의 1로 수를 줄여도 성능 동일. NVIDIA GPU가 아닌 새로운 GPU 탄생 예고!

Поделиться
HTML-код
  • Опубликовано: 26 окт 2024
  • НаукаНаука

Комментарии • 326

  • @leegenius2766
    @leegenius2766 7 месяцев назад +7

    항상 쉽고 자세하고 열정적으로 만들어주셔서 감사드립니다. 롱런하실꺼라 확신합니다. (개발 20년 엔지니어)

  • @홍경철-j7n
    @홍경철-j7n 7 месяцев назад +78

    얼마 전에 국내 연구진이 3진법 반도체를 양산 가능할 정도로 개발했다는 소식을 들었었는데.. 이걸로 되면 대박이겠네요..

    • @brandlee5089
      @brandlee5089 7 месяцев назад +7

      어디까지나 개발과 상용화의 간격은 너무 예측 불가하죠.
      그래서 그 사이 다른 대체 기술이나 상용화가 나와서 사라지기도 하고요.
      물론 위 경우에 이야기를 드리는 것은 아니고 다양한 사례들이 있어서 적어보고 갑니다.
      당연히 여러모로 되면 좋은 것은 사실이겠죠.

    • @루루-z4l
      @루루-z4l 7 месяцев назад +4

      이 논문이 사실이라면 상용화 가능성 높음

    • @ltaeyeon309
      @ltaeyeon309 7 месяцев назад +1

      @@루루-z4l ㅋㅋㅋ사용화 가능성높으면 벌써 앤비디아가 주도하겠죠..

    • @JKugane
      @JKugane 7 месяцев назад +14

      살면서 걸러야 할것: "국내 연구진" ㅇㅇ

    • @ltaeyeon309
      @ltaeyeon309 7 месяцев назад +12

      @@JKugane ㄹㅇ ㅋㅋㅋ국내연구진이 뉴스처럼 팍팍냈으면 진작 조센에 앤비디가 같은기업 물주리처럼 나올듯

  • @dhp5865
    @dhp5865 7 месяцев назад +169

    GPU가 계산할 양이 줄어들면, GPU한테 더 많은 일을 시키게 되죠

    • @DK.G
      @DK.G 7 месяцев назад +21

      이게 맞음

    • @하남자특-s3v
      @하남자특-s3v 7 месяцев назад +31

      고사양이 필요없으니 엔비디아꺼 안써도됨

    • @새새새-s7h
      @새새새-s7h 7 месяцев назад +17

      어려운 연산이 필요한 GPU가 아니어도 되니 그냥 CPU 차원에서 해결 되는 수도 있음. 기존 GPU는 결국 다시 그냥 그래픽 코어 로만 이용하게 될 수 도? 학습에서 까지도 성능이 된다고 하니 더더욱 이게 사실이면 웬만한 CPU GPU 제조업체들이 따로 NPU 코어 쉽게 만들듯...

    • @BlackSkyUploadTube
      @BlackSkyUploadTube 7 месяцев назад +3

      딴 거보다 pcie 통신 레이턴시도 크죠

    • @fly-code
      @fly-code 7 месяцев назад +2

      비동기까지 가능해지면
      io작업 마냥 잘 쓸수 있을텐데

  • @youngkilee1703
    @youngkilee1703 7 месяцев назад +50

    범용으로 설계할려면 너무 많은 제약들이 있지만.
    특정 기능에만 최적화 되도록 만들고자 한다면, 전성비를 끌어올릴수 있는 방법이 무궁무진하다고 하더라고요.
    그리고 세상엔 천재들이 많음..

    • @MrjinZin0902
      @MrjinZin0902 7 месяцев назад

      @@웃흥-n5v 딱히 그렇지도 않습니다. 크고 강력한 GPU가 필요한 곳도 있고 작지만 특정 기능은 빠르게 수행할 수 있는 칩도 수요가 있어서 시장에 이 두 개가 동시에 존재하는 거죠. PC 그래픽 카드도 하나의 예입니다. 영상 편집 이딴 것 난 안하고 게임할 때만 잘 돌아가면 된다 이런 사람들은 그냥 AMD 그래픽카드를 사는 게 가장 가성비가 좋습니다. 그렇지 않고 난 영상 편집 등등 다양하게 GPU를 사용한다 그러면 Nvidia 그래픽 카드가 가성비 선택이 되는 거고요. 사용도 하지 않는 기능이 우수하다고 그 제품을 큰 돈 주고 살 이유가 전혀 없잖아요? 사용 전력, 크기, 속도, 요구 되는 기능을 고려하면 항상 가장 강력한 GPU가 필요한 것은 아니니깐요.

    • @MrjinZin0902
      @MrjinZin0902 7 месяцев назад

      @@웃흥-n5v 꼭 그런 건 아니고 아니죠. 특화된 칩 구매해서 프로그래밍하는 건 전문가들이 하면 되는 거고요. 칩에 프로그램이 들어가는 건 아닙니다. 단지 어떤 연산을 특화 시킬 것인가만 다를 뿐. 여러 연산에서 다양하게 좋은 성능을 내는 칩들은 Nvidia 이런 회사들이 만드는 거고 스타트업 들이 만드는 칩은 단지 한 두가지 특정 연산에서 특출난 성능을 내는 칩을 만들어 내는 것이고요. 이건 시간이 지나도 두가지 다 공존할 거에요. 지금 CPU도 여러 종류가 계속 공존하는 것처럼.

    • @MrjinZin0902
      @MrjinZin0902 7 месяцев назад

      @@웃흥-n5v 이해를 못하시는 듯. 저런 특화된 칩이랑 Nvidia 칩이랑 기본적인 사용법은 차이가 없다니깐 그러네요. 특정 연산만 필요한 회사들은 그런 특화된 칩을 사서 사용하면 됩니다. 매번 어떤 회사의 요구에 맞춰 새로 칩을 설계하는 게 아니에요.

    • @MrjinZin0902
      @MrjinZin0902 7 месяцев назад

      @@웃흥-n5v 제가 괜히 그래픽카드 예를 든 게 아니에요. AMD의 그래픽카드는 게임에만 성능이 최적화 되어 있어요. 어차피 2인자이기 때문에 모든 기능의 성능으로는 경쟁이 안되니 가장 사람들이 많이 필요로 하는 3D 그래픽 성능만 높여 놓은 거라고요. 그런식으로 AI 칩도 특정 연산 속도만 높인 칩을 스타트업들이 만드는 거라고요.

    • @MrjinZin0902
      @MrjinZin0902 7 месяцев назад

      @@웃흥-n5v 아니 그런 칩이 필요없다고 말한 것도 아니잖아요. 그런 시장도 있고 저런 시장도 있다고 말한 거라고요.

  • @새새새-s7h
    @새새새-s7h 7 месяцев назад +7

    fp16으로 학습했을 경우보다 여러 부분에서 높은 점수가 나왔다는 부분이 굉장하네요. 그러면 오히려 fp16쓰면 손해가 되니 오히려 GPU 사용해서 학습 시키는 게 비효율적이 되는 날이 올지도 모르겠네요.

  • @WONDER-S
    @WONDER-S 7 месяцев назад +5

    근데 곰곰히 생각해보니 가능해보이긴 함. 3차원 구성상에 행렬, 곡선으로 이어보면 마치 mp3 디지털 음원과 실제 녹음된 아날로그 값 의 차이 정도로 느껴짐. 그리고 이거 양자역학 설명하는 영상중 어딘가에서도 보긴했는데…

  • @dreamggoom2970
    @dreamggoom2970 7 месяцев назад +3

    너무 유익합니다! ㅎㅎ

  • @이츠마인-m4q
    @이츠마인-m4q 7 месяцев назад +7

    아~ 완벽히 이해했어💡

  • @brandlee5089
    @brandlee5089 7 месяцев назад +4

    현재 인공지능 모델을 최적화 할 수 있는 아키텍쳐를 구현할 가능성을 시사한다고 봐야되는거죠?
    신기하긴 하네요.
    일반적으로 날씨 예측과 같은 경우엔 소숫점 하나로도 결과가 달라진다고 이해하고 그 방식으로 똑같이 데이터 공학에 접근하려고 해서 그런가..? ㅎㅎ
    특히 후반부 논문을 봐도 큰 차이가 없을 뿐더러 대형 모델의 경우 조금 높게 평가될 정도면?
    위 내용이 사실이라면 환영 받을 일로 볼 수 있겠네요.
    무엇보다 오픈소스로 공개한다고 하니 다양한 전문가들의 평가도 기다려봐야겠습니다.
    좋은 내용 감사합니다 :)

  • @aiphdssong
    @aiphdssong 7 месяцев назад +3

    weight 개수가 너무 많다보니 그냥 저렇게 뭉개버려도 될 수는 있겠네요. 만약에 그렇다면 오히려 작은 크기의 모델에는 못 쓸거 같네요

    • @aiphdssong
      @aiphdssong 7 месяцев назад

      진짜 이건가 ... ? Accuracy 의 경우도 모델 사이즈가 상대적으로 작으면 accuracy가 지는데 더 커지면 이기기도 하고 그러네요 ?

  • @j-kpark8396
    @j-kpark8396 7 месяцев назад +6

    정리가 잘 된 데이터와 저장장치가 중요해지겠군요

  • @sanghoonahn5410
    @sanghoonahn5410 7 месяцев назад +13

    throughput, latency 측면에선 당연히 좋을텐데, 모델 크기가 커졌을 때 답변 품질과 관련된 다양한 evaluation metric들에서 성능이 좋은 지가 키 포인트일 것 같네요.
    vision쪽에서도 bit단위 모델 학습이 존재했지만, 분류모델 학습시켜보면 acc(또는 f1)가 너무 구려서 사장되었죠.
    영상으로만 보면 PPL 으로만 모델의 품질을 대충 가늠해볼 수 있는데, 사실 PPL은 답변의 품질을 얘기하기에 적절치 않고요.
    답변 품질과 관련된 내용은 어디에서 확인해볼 수 있을까요? 논문 보기가 귀찮네요 ㅠ

    • @nickkunst952
      @nickkunst952 7 месяцев назад

      오..vision쪽에서 이미 bit단위 학습모델이 존재했군요. 배우고 갑니다

  • @bolasla8306
    @bolasla8306 7 месяцев назад +5

    weight는 이해가는데 bias가 -1, 0, +1로 처리된다는건 좀 의아하네요. matrix 곱셈까지만 3개로 처리한다는건가..
    나머지 중간단계 carry를 버리면서 특정 아웃풋에 가중치가 확실하게 나오는 성능이 나올리가 없을거 같네요
    비슷한 성능이 사실이라고해도 중간단계에서는 바이트 정도는 사용할거 같아서, 코프로세서 정도로밖에 구현이 안될거 같네요
    그리고 현재 그런 HW가 없는데 그런 대형모델 레이턴시 벤치마크를 FPGA 여러개 chip2chip bus IP 붙여 설계해서라도 뽑은건지 ㅋㅋ
    말씀대로 초전도체 느낌이 나네요

    • @aila9
      @aila9 7 месяцев назад

      softmax 값이라 bias 가 없지 않나요?

    • @nagnusyo
      @nagnusyo 7 месяцев назад +1

      bias뿐만 아니라 모든 training parameter (weights) 들이 -1 0 1인 거예요.
      물론 LLM에서 입력값은 임베딩된 벡터이기 때문에 -1 0 1이 아니긴하죠.
      영상에서 말한 것 처럼 이럼 선형 행렬연산이 순수 덧셈뺄쎔으로 간단해지죠.
      그리고 하드웨어부분을 말씀하신거같은데, 학습파라메터들이 -1 0 1로 한정되게 하고 이에 따른 메모리할당을 적게 하는건, 대단한 하드웨어적 구현 없이도 실현 가능한거라.
      성능 테스트는 충분히 가능하죠. 이게 확실히 입증되면, 그 이후에 최적화된 하드웨어를 구성하면 되니깐.

    • @jjh-k5i
      @jjh-k5i 7 месяцев назад

      논문 원문을 보니 latency는 현존하는 2bit matrix multiplication kernel을 사용해서 GPU에서 잰 것 같네요

    • @JKim-hq3dn
      @JKim-hq3dn 7 месяцев назад

      플로팅웨이트를 셀의 개수로 대체하고 논리니어액티베이션 전 사이즈를 잘 조절하면 어느 정도 이론적으로 가능합니다. 시간적으로 쌓이지만 사람의 뇌도 다음 레이어 뉴론의 멤브레인포텐셜에 바이너리 스파이크가 쌓이는 구조라는 점은 어느 정도 비슷하고요. 다만 뇌에도 웨이트처럼 시냅틱스트렝쓰가 존재합니다.

  • @d192eej1hjq
    @d192eej1hjq 7 месяцев назад +10

    짐 켈러의 텐스토렌트회사에 대해서 다뤄주실 계획없으신가요 짐켈러가 자기는 hbm도 안쓰고 칩 가격 1/10로 낮추는게 목표라고했는데 진짜 가능한건지

    • @fjord38
      @fjord38 7 месяцев назад +5

      다른 사람 말이면 사기라고 할텐데 짐켈러면 웬지 기대감이 ...

  • @sungkilcho7210
    @sungkilcho7210 7 месяцев назад +1

    벡터값을 표현할때 각각 위치점을 표현해야 하지만 그냥 x,y,z 축으로 간단하게 표현할수 있는것과 마찬가지네요..전체적으로 봤을때는 동일한 위치있지만 그것을 응용하고 계산할때는 간단한것이 좋죠.

  • @can_opener_Mr.A
    @can_opener_Mr.A 7 месяцев назад +2

    저런 발견을 전세계 천재들과 기업들 누구도 몰랐네? 와아~ 한국인들 대단함.
    근데 실험실 레벨이 아니라 양산 가능한 레벨로 되어야 믿음이 가겠네요.
    예고편이 전부인 것들이 너무 많아서요.

  • @hyo3377
    @hyo3377 7 месяцев назад +2

    어째 댓글의 반은 엔비디아 주주가 쓴듯한 ㅋ. 모든 신규산업이 그렇듯이 전망과 수익이 나는 순간 그동안 축적된 수많은 주변 최신기술들이 순차적으로 적용되면서 일정수준까진 기하급수적으로 빠르게 발전하기 마련이죠. 인터넷이 그랬고 휴대폰이 그랬듯이. 지켜봐야겠지만 기대되는 내용이네요.

  • @다섯숟갈유자청
    @다섯숟갈유자청 7 месяцев назад +15

    이게 가능하면 엔비디아에게 종속되지 않을 수 있겠네요!!

    • @kamuiKana
      @kamuiKana 7 месяцев назад

      그걸 시진핑이 노리고 저 논문저자들의 이름이 전부 중국식이니 저자들을 중국으로 끌고와서
      중국방산기업에서 그 논문을 양산화시켜서 인민해방군과 공안에서 쓰게 하라고 명령을...

  • @VandalFX
    @VandalFX 7 месяцев назад +2

    오디오 업계에서 1bit dsd 쓰는거랑 비슷한 접근일까 싶네요. 그렇다고 멀티비트 보다 무조건 더 좋다라고 하긴 그렇고 좋은 부분도 확실하지만 다른 방식을 사용하는정도로 안착중인데 (서로 자기네 방식이 짱이라 다른 방식 굳이 왜 써? 라는 식 주장을 펼치긴 하지만) 아직 실사용 사례 데이터 누적경험치가 적으니 어느 부분에서 강하고 어느 부분이 상대적 취약 부분인지 더 지켜볼 필요도 있지 않을까 싶네요. 최근의 ai흐름은 음향업계의 1비트 dsd에서 하던 것과 비슷한 방법으로 나오는 결과값을 보이고 있다고 느꼈는데 생각처럼 아직은 널리 쓰이는 방법이 아녔거나 오픈된 방법이 아녔거나 그랬던걸까요. 그리고 비유하자면 고클럭 int연산 싱글코어 머신 같은 느낌이라 일상적으로 보탬이 되는 분야도 많겠지만 그렇다고 만능은 아니라서 실수벡터연산이 반드시 필요한 유체역학 이나 공간 인식 처리 같은 분야에선 효율이 떨어지지 않을까 싶은 생각도 해보게 되네요. 그리고 여담으로 음향업계에서 1비트 방식이 만능이 아님을 알게된 것은 측정치 그래프로 표현이 안되는 영역이 의외로 중요한 부분이였다는 것을 사람들이 실사용 경험누적값이 쌓이는동안 자연스럽게 깨닫게 되었다는 부분이 있는데 얘도 쓰다보면 그럴 수 있지 않을까 뭐 그런 자잘한 의구심이 들었다고 할까요.

  • @유빈귀요미
    @유빈귀요미 7 месяцев назад +2

    일단 이 방법을 적용하려면 학습시에도 그렇게 해야한다고 하였는데 llama2의 경우 모델은 공유되어있지만 어떤데이터로 학습했는지 공유가 안되어있는데 본인들 성능평가표에 llama2 모델을 가지고 평가할수 있는게 이해가 안되네요

  • @polska9333
    @polska9333 7 месяцев назад +7

    Binary neural network 에 process in memory를 결합시키는건 사실 예전부터 있던 방법이었는데 LLM 이 상용화 된지 얼마 안된지라 여기에 결합 시킨거 같네요. 다만 너무 호들갑 처럼 느껴지는건, 엔비디아에게 새로운 하드웨어 아키텍쳐가 대적할 수 없는 이유가 바로 CUDA 생태계인데 이 부분은 쏙 빼놓고 얘기하시네요

  • @simonson6498
    @simonson6498 7 месяцев назад +7

    안될공학님 왤케 빨라요?

  • @정규성-l3w
    @정규성-l3w 7 месяцев назад +1

    고맙습니다

  • @handling_investment
    @handling_investment 7 месяцев назад +1

    이게 인지학적으론 가능할거라 생각된건데 실현이 가능하다고 벌써 연구가 나오는군요.

  • @yanksyoon1795
    @yanksyoon1795 7 месяцев назад +2

    CUDA Translation Layer 라이선스 제약때문에 칩이 나와도 기존 ML트레이닝 코드를 못쓰니 소프트웨어 개발도 중요해보입니다.

    • @루루-z4l
      @루루-z4l 7 месяцев назад +1

      이정도 혁신이득이면 빅테크들이 알아서 코드 포팅할걸요 ㅋㅋ
      이미 본인들이 칩설계 부터 데이터센터까지 만드는 인간들인데

    • @yanksyoon1795
      @yanksyoon1795 7 месяцев назад

      @@루루-z4l cuda제외 어느회사들이 하드웨어 오퍼레이터 코드를 배포했나요? AMD도 소프트웨어 이슈 심한거 george hotz가 스트림에서 공개하고 파이토치 텐서플로우도 다 쿠다쓰고 맥만 자체 ML엔진 모듈 개발하지만 ML 라이브러리 호환이 잘 안되있지 않나요?

  • @김정갑-v9h
    @김정갑-v9h 7 месяцев назад +1

    옛날에 cpu 와 co-prosser로 명령어와 연산을 담당하던 cpu를 별도로 만들었는데, 어차피 16bit에선 명령을 실행하는 8bit와 계산을 담당하는 8bit가 동작을 하는게 16bit의 기본이면, os를 바꿔서 현재의 16bit는 명령을 수행하고 다른 16bit(co-prosser)는 연산을 수행하면 가능하지 않을까요?그래도 현재 32bit cpu로

    • @p4rk5h
      @p4rk5h 7 месяцев назад

      FP32 안 쓰고 FP16 쓰는 이유가 GPU 파이프라이닝 + 비트 적게써서 동시처리 FLOPS 성능 올리려는 이유가 있는데 굳이 OPS 를 최적화 할 이유는 없어보임.

  • @junyshin5843
    @junyshin5843 7 месяцев назад +15

    한국인으로써 초전도든 ai든 모든 한국에서 잭팟 터졌으면 하네요......
    인구 폭망 만회할 거는 고부가가치 밖에 없어보이네요...

    • @asdsdasd-h8x
      @asdsdasd-h8x 7 месяцев назад +2

      가능성 0%

    • @typebin
      @typebin 7 месяцев назад +2

      그게 될

    • @KK-ub6ub
      @KK-ub6ub 7 месяцев назад

      조시나 ㅋ

    • @it_Is_A_wONdErFUL_liFe
      @it_Is_A_wONdErFUL_liFe 7 месяцев назад +2

      돈을 퍼부어도 될까말깐데 연구비 축소나 해대고 있는 꼴 보면 망했어요

  • @jp5862
    @jp5862 7 месяцев назад

    너무 놀라서 지렸어요. ㅠㅠ 앙. 3진법 반도체에 물리적으로 즉각적으로 연산하면 더 저전력이고 좋겠네요.

  • @gyeolee5299
    @gyeolee5299 7 месяцев назад

    이거 이전에 갑자기 급 부상했다가 사라지는 추세인... 아날로그 컴퓨팅이랑 섞으면 진짜 초 대박이겠네요
    아날로그 행렬 연산기의 단점이 정확도 였는 데, 연산 한 이후 {-1, 0, 1} 로 반올림 해버린다면 레이턴시가 클럭 주기 수준으로 떨어지겠네요

  • @mimi-ph5kn
    @mimi-ph5kn 7 месяцев назад +1

    사용자의 이용데이터를 수집하여 활용하는 AI의 기억체계를 기업이 독점하지 못하도록 노력해야힙니다 !!

  • @jsy30945
    @jsy30945 7 месяцев назад +2

    발전 속도가 대단합니다😊 특이점을 향해 ㄱㄱ

  • @jhp680
    @jhp680 7 месяцев назад

    찾아보니 패러미터 양자화는 꽤 오래된 얘기더군요. 2019년도 자료도 있는걸 보면. 그런데 학습 한 후에 양자화였던거였나보네요. 최소한 모든 빅테크들이 검증하려고 달려들고 있을라나요.

  • @조니비
    @조니비 7 месяцев назад

    처음 듣자마자 들었던 생각. 이게 말이 안될텐데
    다 듣고 나서. 와... 흥분되는뎅!!!

  • @balkist1
    @balkist1 7 месяцев назад +32

    타이슨의 명언이 떠오르네요 계획은 항상 그럴듯하죠

    • @kwk6173
      @kwk6173 7 месяцев назад +2

      좃나 쳐 막기전까지는..

    • @김성태-l3g
      @김성태-l3g 7 месяцев назад +2

      데이터 다 보여주고 오픈소스로 보여준다고 하는데도 안 믿으면 어쩌라는 거지???😅

    • @oc1007
      @oc1007 7 месяцев назад

      @@김성태-l3g거기까지. 계획이라는거지. 실제 링위에 올라 누가 쳐맞는지는 두고보자는거. 뭔소린지 모름??

  • @mg850103
    @mg850103 7 месяцев назад

    감사합니다

  • @차아차아차차
    @차아차아차차 7 месяцев назад +2

    조금 전 카이스트 개발한 거 뉴스타던데 그거 이야기인줄 ㅎ

  • @손톱-b6m
    @손톱-b6m 7 месяцев назад +3

    컨셉은 대박이군요. 그런데 2진수가 아닌 3진수로 된다고 하는 점이 이를 위한 특별한 하드웨어가 필요하단 이야기 같군요. 마침 양자비트가 딱 3비트 아닌가요? 양자 컴퓨팅과 인공지능이 합쳐지는 지점같기도 하고.. 암튼 대박같습니다.

    • @BlackSkyUploadTube
      @BlackSkyUploadTube 7 месяцев назад +1

      양자는 굳이 따지면 4진법 아닌가요?

    • @새새새-s7h
      @새새새-s7h 7 месяцев назад +1

      연산에는 1비트를 이용하는 거고 쓰자면 1,0,-1 값을 넣을 수 있다는 거니 하드웨어가 3비트 연산장치일 필요는 없는 거 아닐까용? 그냥 정수 덧셈 뺄셈만 연산하는 거니 기존 CPU에서 다 동작 될지도?

    • @typebin
      @typebin 7 месяцев назад +1

      양자컴은 큐빗이자나 ..

    • @nagnusyo
      @nagnusyo 7 месяцев назад +2

      전혀 이해 못하신거 같아요..

  • @박정호-m4z
    @박정호-m4z 7 месяцев назад

    ㅋㅋ AI 프레임워크에 따라
    현재 8개 전문엔진
    이젠 동영상 sora까지 나왔죠 ㅎㅎ

  • @ehrl1234
    @ehrl1234 7 месяцев назад

    곱셈을 하면 여러 클럭동안 계산을 하는데 한 클럭 동안 계산 가능한 덧셈 뺄셈 정도면 확실히 성능이 늘어나겠군요..

    • @ehrl1234
      @ehrl1234 7 месяцев назад

      거기에다가 부동소수점을 정수형으로 바꾸는 것도 부동 소수점은 계산할 때 여러가지 과정을 통해서 계산하는데 정수형은 그런거 없어서도 성능이 늘어난거 같고요.

  • @alphago1677
    @alphago1677 7 месяцев назад

    머야 엄청 쉽자나. 이제 bit단위도 바뀌는건가?

  • @worldhellow6046
    @worldhellow6046 7 месяцев назад +6

    지나가던 예체능 뒤로가기 박습니다..

  • @eiliosice
    @eiliosice 7 месяцев назад

    오잉, 그럼 삼성 연구소였나? 삼성 지원금 받는 연구실이었나. 거기서 개발한 3진법 반도체 쓰면 하드웨어단에서 3bit 최적화 연산이 가능한 건가요?

  • @dqkor3405
    @dqkor3405 7 месяцев назад +1

    논문 DOI 없나요

  • @루루-z4l
    @루루-z4l 7 месяцев назад

    1bit이면 0 1 로만 해도 된다는건가 ㄷㄷ
    npu회사가 여기에 몰빵해야겠네
    사실인지 먼저 검증을 해야될듯
    중국 대학생이 던진게 아니고 ms에서 낸 논문인데, 그래도 내부 토론정도는 했을거 같은데
    예전에는 이런 시도가 있었고 어떻게 됬는지 궁금하네요?
    fp16으로 학습된 모델의 int8 4 2 양자화 기술은 경량화 기술이니 예전부터 알려졌는데, 추론정확도 성능이 10프로 정도 떨어진다고 알고있었는데 말이죠
    아예 처음부터 int8 4 2로 학습시키는 시도는 지금도 계속 되는걸로 알고있긴한데...

  • @hikim47678811
    @hikim47678811 7 месяцев назад

    AI아키텍쳐를 우리가 선도할수 있을까?

  • @martinpak180
    @martinpak180 7 месяцев назад

    계산할때 값을 저장하는게 아니라 > , =, < 만 저장해서 처리하나본데..

  • @Squrtz-u5m
    @Squrtz-u5m 7 месяцев назад

    backpropagation이 불가능한데 어떻게 학습을 시켰는지 궁금해요

  • @aiphdssong
    @aiphdssong 7 месяцев назад +2

    이거는 진짜 많은 교차검증이 필요할 것 같습니다. 와 저게 말이 되나... 아니 이게 말이 된다고 하더라도 저게 왜 되는거지 ...

  • @nietzschef.1760
    @nietzschef.1760 7 месяцев назад

    결국 비트 레벨에서는 0 아니면 1인데, 비트레벨에서 어떻게 ternary를 만드는가에 대해 추가 설명을 보고 싶군요

  • @mrgil7246
    @mrgil7246 7 месяцев назад

    음… 비트수를 줄이는건 그림 해상도 보다는 컬러가 흑백이 된다는게 더 어울리는것 같습니다. 그보다 -1,0,1로 행렬 연산하면 곱셈이 사라진다는 생각이 참 기발하네요. 어떻게 이런 생각을 한거지… 세상에 천재들 참 많네요 ㅋㅋ

  • @Info-dy1tx
    @Info-dy1tx 7 месяцев назад +1

    이미 cnn시대부터 2bit으로도 가능하다는 연구결과는 많이 있었죠 보통 실용화되지는 않았지만요

    • @루루-z4l
      @루루-z4l 7 месяцев назад

      그러게요 누구나 한번쯤은 해봤을거 같긴한데
      파라미터 스케일이 늘어나다보니까 발견되는 현상일까 싶기도 하구요
      cnn때는 파라미터 수가 작았m으니까

  • @zu24481
    @zu24481 7 месяцев назад

    트랜스포머를 사용하지 않는 경우에는 큰 의미 없는 것은 아닌지요?

  • @강수현-v3l
    @강수현-v3l 7 месяцев назад

    정말 똑똑하다 부럽 ❤❤❤

  • @N.A665
    @N.A665 7 месяцев назад +8

    인간 뉴런도 따지고보면 16비트가 아니잖아요. 그런데도 실시간으로 생각하고 말도하고 운전도 한단 말이지요.

    • @polska9333
      @polska9333 7 месяцев назад +2

      인간 뉴런은 반도체 보다 훨씬 복잡하게 작동합니다. 뉴런 사이의 길이나 연결 정도 몇 개가 연결 되어 있는지 등으로 말이죠 자가 생성이 불가능 한 하드웨어 위에 올려놓은 소프트웨어 최적화 방식으로 작동하는 인공지능하곤 완전 별개의 영역입니다. 밖에서 오는 자극으로 인해 자동 생성 되는 하드웨어라고 보시면 됩니다..

  • @hyunseungyoon3568
    @hyunseungyoon3568 7 месяцев назад +1

    상온초전도체 vs AGI , SF 영화로 점점 지구가 변화는거 같다.

  • @user-shadower
    @user-shadower 7 месяцев назад +3

    저런경우는 optimize를 어떤식으로 할지 궁금하네요 파라미터가 이산적이면 learning rate 와 경사하강법을 가지고 최적화하지 못할텐데

    • @ramieieieie
      @ramieieieie 7 месяцев назад

      그러게 너 좀 아는구나

    • @sang459
      @sang459 7 месяцев назад

      그러네요 어떻게 학습이 되는건지 궁금하네요
      미분값이 일정 쓰레시홀드를 넘으면 -1한다거나…?

    • @matsuridaisukii
      @matsuridaisukii 7 месяцев назад +1

      경사 기반 훈련은 1비트 또는 이진화된 네트워크에서는 작동하지 않으므로 유전 알고리즘이나 기타 경사 없는 기술과 같이 경사 기반이 아닌 기술이 적합해집니다( nevergrad 및 PyGAD 확인). 대부분의 경우 역전파는 경사가 없는 솔루션보다 훨씬 효율적이지만 1비트 네트워크는 부동 소수점 네트워크보다 훨씬 더 효율적으로 실행될 수 있습니다. 따라서 역전파를 사용하면 유전 알고리즘을 사용하는 것보다 부동 소수점 수를 사용하여 최적의 네트워크를 10배 더 빠르게 찾을 수 있습니다. 그러나 1비트 네트워크가 20배 더 빠르게 실행된다면 유전 알고리즘을 사용하여 훈련하는 속도는 여전히 2배 더 빠릅니다. 그라디언트 없는 방법을 사용하여 1비트 네트워크를 얼마나 효과적으로 훈련할 수 있는지 조사하는 것은 매우 흥미로운 연구 주제가 될 수 있습니다.

    • @matsuridaisukii
      @matsuridaisukii 7 месяцев назад +1

      위 글은 다른 사이트에서 발췌해 왔는데요, 원문의 마지막 문단에 평가도 정확히 나와있는거 같습니다ㅋㅋㅋ
      "이 방향은 장기적으로 막다른 골목으로 판명될 가능성이 있지만" "현재로서는 혁명적인 잠재력이 명백"

    • @jjh-k5i
      @jjh-k5i 7 месяцев назад

      해당 논문은 BitNet의 weight 구성만 변경한 것이고 BitNet의 Straight-Through Estimator 방식을 그대로 사용하여 full precision SGD로 학습하는 것으로 보입니다.. 수년 전부터 Quantization-Aware Training 분야에서 많이 시도되어오던 접근법이고 그렇게 호들갑떨 연구는 아닌듯

  • @데빌네로
    @데빌네로 7 месяцев назад +1

    형님 그래서 저희는 여윳돈을 어디다 뇌두먄 될까요? ㅋㅋㅋ

  • @MrLalagom
    @MrLalagom 7 месяцев назад

    이렇게된다면 저전력 NPU모델이 나올수있어서 엔비디아 GPU를 사용 안해도 될듯

  • @나융-y6d
    @나융-y6d 7 месяцев назад +1

    NPU 개발 업체들이 미친듯이 달리기 시작할 것 같네요

    • @동근이-b4o
      @동근이-b4o 7 месяцев назад +1

      행님 관련주 추천점여

    • @dlsrksguadhX
      @dlsrksguadhX 7 месяцев назад

      AMD가 최근 라이젠 8000번대 CPU에 NPU기능을 소폭 추가해서 올해에 팔기 시작하는데
      그 성능향상이 그닥 크지 않다고 시장에서는 받아들인 탓인지.. 어쨌든 아직 시장의 반응은 엄청나진 않고 7000번대의 재탕이라고 욕 먹는 분위기인데요. 모르겠네요 NPU를 I당이랑 A당 말고 또 다른 회사에서 만들어야 붐을 탈런지 말런지 미래를 알면 이미 부자됐을거고 ㅋㅋ

    • @TKOLLASDLFKASOGAGAGAGAGAGAG
      @TKOLLASDLFKASOGAGAGAGAGAGAG 7 месяцев назад

      @@동근이-b4o 난 아는데...

  • @길치루피
    @길치루피 7 месяцев назад +1

    스타트업한텐 한줄기 빛 ㅋㅋ

  • @아무것도하지마-q5q
    @아무것도하지마-q5q 7 месяцев назад +6

    최근에 과학기술의 특이점이 올라고하네...앞으로 몇년동안 폭풍처럼 휘몰아칠듯

  • @이건개발-p8n
    @이건개발-p8n 7 месяцев назад +1

    ms ceo 가 직접 언급했습니다.
    ai 알고리즘 개선으로 컴퓨팅 파워가 덜 필요하다고 인터뷰 했고
    엔비디아가 내리고 ms 가 올랐습니다.

  • @harr2222
    @harr2222 7 месяцев назад

    잘봤습니다~

  • @kimrie2
    @kimrie2 7 месяцев назад +1

    SLLM 사용하는이유가 고성능 GPU 쓰기 힘들어서 인데
    스타트업에서도 활용할 길이 열리겟네요

  • @nickkunst952
    @nickkunst952 7 месяцев назад +2

    곱하기는 더하기를 반복하는거라, 곱하기를 줄이면 더하기가 늘어날 듯. 즉 행렬 연산은 단순해지지만 행렬 자체가 커지지 않을까요? n by n이 N by N으로.. 만약 저게 정말 더 효율적이라면 HBMx가 중요해질듯..?

    • @chulminlee9626
      @chulminlee9626 7 месяцев назад +1

      알고리즘이 다르거잖아요 두번째는 같은 횟수의 덧셈으로 처리되는거죠

    • @chulminlee9626
      @chulminlee9626 7 месяцев назад +2

      그리고 하드웨어 최적화는 더이상개선불가할때나 신경쓰는거죠

    • @Caffeine.Overdose
      @Caffeine.Overdose 7 месяцев назад +1

      @@chulminlee9626 행렬 자체가 커져야하면 같은 횟수의 덧셈이 아니죠.

  • @BladerSoul9375
    @BladerSoul9375 7 месяцев назад

    순간 제목이 엔비디아인줄 알았는데, 다시 보니 '얼레? 다른 개발사였구나?'였네요ㅋ

  • @mapx2100
    @mapx2100 7 месяцев назад +1

    12:54 핵심->액침
    13:03 요구->연구
    2x 속도로 보다가 자막만 보고 무슨 말인가 해서 1x 로 다시 듣기했네요.
    요즘 이런 연구논문들은 죄다 중국인들이 내는 거 같아요.
    은근 무섭기도 하고, 한편으로는 엔비디아 주식 못샀었는데 살만한게 생기는건가 싶기도 합니다.

  • @fjskfjdkdksofk
    @fjskfjdkdksofk 7 месяцев назад +1

    depth나 width는 그대로인거임?
    만약 맞다면 어떻게 그게가능

  • @BlackSkyUploadTube
    @BlackSkyUploadTube 7 месяцев назад

    가만... UNIST에서 MOSFET 2개 접합해서 3진법 구현하지 않았나...?

  • @darkkjw
    @darkkjw 7 месяцев назад

    오늘 뉴스에 카이스트에서 상보형 트렌스포머를 세계최초로 개발했다는 기사 떳던데..이거랑 무슨 상관 있는건가?
    거기도 훨씬 작은 칩으로 지금 GPU와 같은 성능에 전력 소비량은 625분의 1로 줄일수 있다던데

    • @sexking-seungho
      @sexking-seungho 7 месяцев назад

      그거랑 이거랑 둘다 몇십년전부터 연구하던 SNN임

  • @trustarMello
    @trustarMello 7 месяцев назад +1

    AI 최적화 ㅎㄸㄷㄷㄷ

  • @mejaeuk1104
    @mejaeuk1104 7 месяцев назад

    fp 연산기법 연구하시던분들은 날벼락이겠네

  • @박정호-m4z
    @박정호-m4z 7 месяцев назад

    점점 AI도 플랫폼 사업자 되는 중이죠

  • @leedonghoon
    @leedonghoon 7 месяцев назад

    오늘은 평소보다 몇배는 어렵네요 ㅜㅜ

  • @에니그마-k9m
    @에니그마-k9m 7 месяцев назад

    흠... 완벽히 이해했어.

  • @myungheesong2753
    @myungheesong2753 7 месяцев назад

    10:20 라마 큰 모델...

  • @구글링-p6e
    @구글링-p6e 7 месяцев назад

    걍 삼진법 반도체 쓰면 빨라진다 그 소리 아님? 근데 현재 바너리 메모리보다 먼저 러시아에서 개발된 삼진법 메모리가 사장된 이유는 기술성 시장성등 여려 이유가 있죠. 이진법이든 삼진법이든 현재 양자컴퓨터가 나오니 마니 하는 마당에 그냥 이렇게 하면 이정도 효용이 있다는 정보전달 수준의 의미 그 이상은 없겠네요

  • @굿텐모르겐
    @굿텐모르겐 7 месяцев назад

    거 만드는 회사가 어디요 허허허

  • @TheCitygear
    @TheCitygear 7 месяцев назад

    Binary weight 적용한 것은 영상인식용 뉴럴 네트워크는 벌써 몇 년전에 나왔는데.

  • @레몬청-x9k
    @레몬청-x9k 7 месяцев назад

    와..

  • @에너지-g2i
    @에너지-g2i 7 месяцев назад

    연구용 이라네요

  • @Igotthis777
    @Igotthis777 7 месяцев назад

    과학기술 보면 이제 인류는 지구에서 놀게 아니라 우주로 가야할듯..

  • @골드핑거-e8y
    @골드핑거-e8y 7 месяцев назад +1

    오랜시간 뒤에 인공지능 로봇만 남고 인류는 지능을 제거 당한 동물로만 남을 듯.

  • @kanghyouglee4164
    @kanghyouglee4164 7 месяцев назад +1

    오늘 기사에 나온 카이스트 연구인 28나노칩 기반 SNN + DNN 연구와 이 연구가 결합이 되면 어마무시하게 경량화 AI가 가능할 것 같습니다

  • @MrDsew21
    @MrDsew21 7 месяцев назад

    홀리싯....

  • @stomanekro2810
    @stomanekro2810 7 месяцев назад

    그래서 그걸 누가 어떻게 '많이' 만듬?

  • @FrankRyu
    @FrankRyu 7 месяцев назад +1

    입력층에서도 셀의 입력값은 -1 0 1 만 가질 수 있겠네요. 그러면 입력층 셀의 갯수는 기존보다 훨씬 커질 것 같은데. 제가 제대로 이해한거 맞나요?

    • @nagnusyo
      @nagnusyo 7 месяцев назад +2

      입력값은 임베딩된 벡터라서 -1 0 1로 한정되는건 아니예요. 학습 파라메터들이 -1 0 1이란거죠.

    • @FrankRyu
      @FrankRyu 7 месяцев назад

      이제 이해가 되네요 ㅎㅎㅎ 감사합니다 꾸벅

  • @김종헌-c9g
    @김종헌-c9g 7 месяцев назад

    LK-99는 어떻게 되었나요?

  • @numberofcases
    @numberofcases 7 месяцев назад +2

    댓글들 보니 이과들이 몰려온거 같아서 예체능은 그냥 조용히 퇴장하겠습니다 나오지들마세요

  • @yujin-vj3ol
    @yujin-vj3ol 7 месяцев назад

    Ai 도 선입견 같은게 생기려나요

  • @Qvdyssbw
    @Qvdyssbw 7 месяцев назад

    마지막에 신나서 춤추는걸 상상했는데 아쉽네요.

  • @victorlee1186
    @victorlee1186 7 месяцев назад

    솔직히 이건 말이 안되는데....

  • @theTruth-as-a-lamp
    @theTruth-as-a-lamp 7 месяцев назад

    The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

  • @Mrnell-fe7ie
    @Mrnell-fe7ie 7 месяцев назад

    1,0,-1 세가지를 표현한다는거부터가 이미 양자컴퓨터 얘기인거같은데?

    • @Mrnell-fe7ie
      @Mrnell-fe7ie 7 месяцев назад

      컴퓨터가 1bit를 표현하는게 전기가 흐르면 1 없으면 0일껀데 -1까지 나타내려면 중첩상태를 표현가능한 양자컴퓨터나 가능할텐데

  • @martinlee965
    @martinlee965 7 месяцев назад

    관련 논문 링크는 없나요?

    • @nagnusyo
      @nagnusyo 7 месяцев назад

      논문 봤는데 되게 짧아요.
      arxiv.org/pdf/2402.17764.pdf

  • @YoungsooPark
    @YoungsooPark 7 месяцев назад +1

    팔아야하나.. 흠..
    돌릴 소프트웨어만든것도 일이겠네... 저거돌릴 소프트웨어 만들 컴파일러 다른 애들한테 만들라고하면 재밋을듯

  • @bho2848
    @bho2848 7 месяцев назад

    아주 오래전 프로그램할 때 였는데,
    원을 그리는데 무식하게 360각도로 돌려 주던 걸 수학으로 풀어서 줄여버린 것과 비슷하네

  • @dingky1981
    @dingky1981 7 месяцев назад

    그래서 어디 주식을 사야 하는 건가요?

    • @JHJi-j6u
      @JHJi-j6u 7 месяцев назад

      영상 초반에 마이크로소프트리서치 연구원들이낸 논문이라니깐 마소겠죠?

  • @원두허니
    @원두허니 7 месяцев назад

    1.58(-1,0,1)비트가 가능하다면 1비트(0,1)로도 가능할듯. 1.58이 필요한 이유는 random성과 많이 사용되는 것들을 동급에서 찾기위해 0이 필요했던 것 같음. 그런데 이 random성과 동급찾기를 아예 데이터를 구성할때 layer로 만들어버리면 0과 1로 찾아다녀도 가능할듯. 기존의 vector방식을 사용하던걸 data를 정렬해서 btree 서칭방식으로 바꾼듯. 이걸 학습에서도 적용하려면 하나하나 data가 들어갈때마다 data를 계속 재정렬해야 가능할듯. gemini ultra가 핸드폰에 들어간다던데 그 이유가 1.58비트로 만들어져서 그렇다던데 이 논문이면 다른 사람들도 구현이 가능할듯. 카이스트에서도 이 기술이 개발된듯한 저성능 npu에서도 저전력으로 빠르게 도는 것을 발표했던데 비슷한 내용일듯한.

  • @YeonLee-u5i
    @YeonLee-u5i 7 месяцев назад

    진짠가?!