Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.

Поделиться
HTML-код
  • Опубликовано: 31 окт 2024

Комментарии • 63

  • @alexgri1699
    @alexgri1699 15 дней назад +1

    Спасибо. Много инфы из первых рук. Сегодня это очень ценно. Буду дальше следить за реализациями проектов.

  • @timurotube
    @timurotube Месяц назад +1

    Спасибо за видео 👍👌

  • @IT_psychopath
    @IT_psychopath 4 месяца назад +3

    железный лайк! я как раз про это спрашивал. огромное спасибо!

  • @toster8240
    @toster8240 4 месяца назад +2

    Спасибо! Очень интересное видео, ждём продолжения!

  • @antonchechenev7078
    @antonchechenev7078 27 дней назад +1

    Сумаризовал видео:
    1. **Цель:** Построить домашний компьютер для запуска нейросетей, в частности, Lama 70b (7 млрд параметров).
    2. **Требования к видеопамяти:** Lama 70b требует 38 ГБ видеопамяти, что означает необходимость двух видеокарт по 24 ГБ (например, RTX 3090, 3090 Ti, 4090).
    3. **Тестирование конфигурации:** Рекомендуется протестировать выбранную конфигурацию в облачных сервисах (например, ers Cloud) с несколькими видеокартами для оценки производительности.
    4. **Варианты аренды сервера в ers Cloud:**
    - Почасовая аренда: удобна для быстрого тестирования конкретной конфигурации (например, две RTX 3090 для Lama 70b).
    - Ежемесячная аренда: выгоднее при длительном использовании. Стоимость примерной аренды сервера с двумя RTX 3090 составляет около 64 000 рублей в месяц.
    5. **Дополнительные расходы:**
    - Аренда диска (например, 160 ГБ): около 320 рублей в месяц.
    6. **Корпус для видеокарт:** Из-за габаритов RTX 3090/4090 не подходит стандартный системный блок. Рекомендуется использовать каркас для майнеров с райзерами PCI Express 4.0 (рекомендуемая длина - 20 см).
    7. **Подключение видеокарт к материнской плате:**
    - Используйте райзеры x16 для максимальной пропускной способности.
    - Убедитесь, что версия PCI Express на райзере и материнской плате поддерживает вашу видеокарту (в данном случае - 4.0).
    8. **Процессор:** Не играет ключевой роли в работе нейросетей, так как вычисления выполняются на видеокартах. Достаточно процессора с минимальным количеством ядер (1-2) для управления сервером и передачей данных.
    9. **Оперативная память:** 128 ГБ не требуется для Lama 70b, можно использовать меньшее количество. Скорость оперативной памяти не сильно влияет на производительность.
    10. **Диск:** SSD диск предпочтительнее для быстрой загрузки весов нейросети (первый запуск может занимать 10-20 секунд). HDD также возможен, но первый запуск будет медленнее.
    11. **Блок питания:** Мощный блок питания (например, Sonic на 1300 Вт) необходим для трех видеокарт RTX 3090 Ti с заниженными Power лимитами (300 Вт).

  • @tomskaya-ql7vm
    @tomskaya-ql7vm День назад +1

    А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают.
    Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.

    • @kuliev.vitaly
      @kuliev.vitaly  День назад

      работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.

  • @tkavelli
    @tkavelli 4 месяца назад +3

    Благодарю, действительно интересный, пожалуй и уникальный контент =) - вопрос - сказано "у меня 2 карты" - а на видео 3, потому что используется менее урезанная версия 70 б модели которая занимает больше врам? если уже есть 4090, 3090 хватит для того чтобы с дополненным объемом запускать всё и проблем от разницы поколений не будет?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Планировал на 3х запускать, но столкнулся с багом и запускаю на двух. На третьей карте ллама 8б пока работает.

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +1

      Карты разных поколений одновременно не запускал. Скорость будет ограничена слабой картой и по стоимости такая сборка проигрывает одинаковым картам.

    • @PurpleGmod
      @PurpleGmod 4 месяца назад

      А можно ли использовать оперативную память компьютера, а не видеокарты? Понятно что медленнее будет, но сама возможность есть? Карта 3090, ОЗУ 128Гб.

    • @tkavelli
      @tkavelli 4 месяца назад

      @@PurpleGmod по идее да но там ужасная скорость. Может я что то не так настроил но у меня 70б модель отвечала просто думая минутами.

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +1

      Можно. Будет медленне примерно в 10 раз, чем на видеокарте

  • @ПавелПопов-э6г
    @ПавелПопов-э6г Месяц назад +1

    Здравствуйте! Отличное видео, спасибо за полезную информацию. У меня есть вопрос: возможно ли дообучить модель LLaMA 3.1 8B на GPU NVIDIA 3090 с 32 ГБ ОЗУ без применения квантизации, но с использованием LoRA ? И если я приобрету вторую 3090 и увеличу объем ОЗУ до 64 ГБ, смогу ли я провести полное обучение модели без квантизации и LoRA? Буду признателен за ответ. Спасибо!

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      Скорее всего не получится. В fp16 на 3090 помещается впритык для инференса. Насчет двух видеокарт не знаю - нужно пробовать.
      Можешь снять на несколько часов карту с нужным объемом памяти и на ней натренировать.

  • @waxboy6331
    @waxboy6331 4 месяца назад +2

    Отличное видео. Большое спасибо. Подскажите пожалуйста , почему нельзя использовать оперативную память ПК?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Можно, но у нее на порядок меньшая пропускная способность. Например, LMstudio может часть модели в оперативке считать. Для хорошей производительности вся модель должна помещаться в видеопамяти.

    • @dolotube
      @dolotube Месяц назад

      Как измеряется "хорошая производительность"? Это "максимум из доступного" или "достаточно для решения наличных задач"?
      И чем аргументирован ответ "на порядок"? В зависимости от архитектуры модели, типа задач и узких мест в железе разница может составлять от 2-3 раз до 20-30. Очень не всегда на порядок, зачастую это "в несколько раз" и иногда "не существенно". Ведь в данном ролике речь про инференс, а не про обучение. При этом цена железа со стеком из дорогих видеокарт легко улетает вверх на несколько порядков при сравнении с бытовой связкой девятого Райзена и формальной 3060.
      Да, если для предприятия, то можно расщедриться на топовые решения, там окупится экономия человеко-часов, и важно спокойствие пользователей. Но если для себя лично, чтобы попробовать и прикинуть свои желания, то лучше идти именно на вариант с обычной оперативкой, а не вкладывать тысячи долларов в обогрев квартиры видюшками.

  • @rybiizhir
    @rybiizhir 2 месяца назад

    Круто, какой программой пользуешься для вывода глаз? Где-то слышал что есть софт который маскирует движение зрачков.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Никакой) при съемке в камеру смотрю, потом монтаж идет.

  • @дикий-ь2с
    @дикий-ь2с 3 месяца назад +1

    Здравствуйте, что лучше взять одну 4090 или две 3070 ti super для разворачивания LLM и обучения?

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      3070ti всего 8гб памяти имеет. Рекомендую выбирать из 3090, 3090ти, 4090. У них 24гб памяти

    • @дикий-ь2с
      @дикий-ь2с 3 месяца назад

      @@kuliev.vitaly извините, 4070 ti super или 4090. 2 двух 4070 ti super будет 32 Гб ОЗУ.

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      За эти деньги лучше взять две 3090/3090ti. У них будет 48гб памяти

    • @дикий-ь2с
      @дикий-ь2с 3 месяца назад

      @@kuliev.vitaly спасибо!

  • @Werviop
    @Werviop Месяц назад

    Здравствуйте Виталий, подскажите пожалуйста какую материнскую карту c процессором вы используете ?

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад +1

      Следующее видео будет на эту тему. Перешел на EPYC платформу.

    • @dolotube
      @dolotube Месяц назад

      @@kuliev.vitaly После этого видео на данном канале вышло уже несколько новых, но они не похожи на рассказ про EPYC. Он еще в планах?

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      Сегодня вечером публикация

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад +1

      ruclips.net/video/IEku7Dm9VEk/видео.html

  • @ElenaElena-st1mg
    @ElenaElena-st1mg 3 месяца назад +1

    подскажите, пожалуйста, какой ноутбук asus лучше купить для нейросетей создания?

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +2

      любой на rtx 4090

    • @nikolaydd6219
      @nikolaydd6219 3 месяца назад

      @@kuliev.vitaly или с 3090 но 4090 мощней её почти в 2 раза

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      3090 нет мобильной версии. 3080ti только, но в ней памяти меньше.

  • @Alexandr_Ogorodnik
    @Alexandr_Ogorodnik 2 месяца назад +1

    Здравствуйте, видео через нейронку сделали ?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      нет

    • @Alexandr_Ogorodnik
      @Alexandr_Ogorodnik 2 месяца назад

      @@kuliev.vitaly такое ощущение , что хайген, видимо показалось

  • @Nikita-g1d
    @Nikita-g1d 4 месяца назад

    Правильно ли я понимаю, что если внешние видеокарты подключать даже через современные Thunderbolt 4 или TGX интерфейсы скорость будет значительно меньше чем таким способом как в этом видео? Или это не имеет значения т.к. все вычисления происходят на видеокартах, а на выходе только результат?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Скорость будет ниже, но не сильно.

  • @sebariart
    @sebariart 4 месяца назад +2

    09:27
    Пробовали видеокарты андервольтить?

    • @sebariart
      @sebariart 4 месяца назад +1

      Спасибо за полезный контент

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Пока нет.

  • @ГаэльРин
    @ГаэльРин 4 месяца назад +1

    Подойдут ли старые карты tesla p40?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Да подходят. Только у них compute capability уже старое, поэтому возможно не весь софт будет поддерживаться ими. P40 В сравнении с 3090 ti выглядит хуже - памяти столько же, но в 2 раза меньше пропускная способность, чип раза в 2 слабже, устаревшая архитектура. При этом она дешевле.

  • @Metalbender777
    @Metalbender777 4 месяца назад

    Здравствуйте Виталий, можно ли связать это видео с вашим прошлым видео о цифровом производстве?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Добрый день. Можно, но очень косвенно

    • @Metalbender777
      @Metalbender777 4 месяца назад

      @@kuliev.vitaly Спасибо за ответ, меня очень интересует практическая сторона вопроса. Но в сфере LLM, я полный профан

  • @vitall789
    @vitall789 2 месяца назад

    Я правильно понимаю, что НЕ для обучения, а только для использования достаточно одну курта 3090 ?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      зависит от модели. 8б на одной запустится, 70б минимум две.

    • @vitall789
      @vitall789 2 месяца назад

      @@kuliev.vitaly GGUF Llama3.1 80B 8bit вроде 24GB VRAM пишет что должна встать!

  • @theNotLogo
    @theNotLogo 2 месяца назад

    ест вот такая относительно дешевая сборка но с внушительным количеством ядер ЦП, запуститься ли 70B?
    Блок питания: ATX 800W Bronze 1st player DK Premium
    Материнская плата: LGA2011v3x2 Huananzhi X99-F8D PLUS 8xDDR4 3xPCI
    Процессор: LGA2011v3 Intel Xeon E5-2699v3 18/36 DDR4 3.8Hz 145W x2
    Кулер процессорный: башенный 2011 (6 трубок) 4pin AVC6 x2
    Оперативная память: DDR4 ECC 16GB 2133MHz x4
    Накопитель: NVME 1TB Lexar NM620
    Видеокарта: AMD RX6900XT 16GB GDDR6 Asus

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Можно запустить лламу 70б с квантизацией 4 бита на процессоре. Будет выдавать ориентировочно 2-3 токена в секунду. Все упрется в скорость оперативки. Я сейчас готовлю видео про свой сервер на epyc. Там будет сравнимая скорость

  • @vrabosh
    @vrabosh 4 месяца назад

    А если собрать максимальную сборку для cpu+ram, то какая будет производительность?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Зависит от скорости памяти и процессора. В лучшем случае 8-12 канальная память последнего поколения и топовый серверный процессор по скорости будут приближаться к 1-2 видеокартам.

    • @vrabosh
      @vrabosh 4 месяца назад

      @@kuliev.vitaly больше интересно, то что за недороже 150к собрать можно. То что дороже, мне кажется через год будет в разы дешнвле такая мощность.
      Например на 14900k + 128gb 6000mhz, какие скорости будут?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +1

      1-2 токена в секунду будет на лламе 70б. Чуть меньше я получаю на 3950x 128гб, который в видео показан. Для сравнения на двух 3090ti выдает выше 20токенов в секунду и поддерживает несколько запросов одновремменно.

    • @vrabosh
      @vrabosh 4 месяца назад

      @@kuliev.vitaly 1 токен - это одно слово? Если так, то это норм.

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +1

      чуть меньше. несколько букв. загугли например openai токенезатор

  • @NSGromov
    @NSGromov 4 месяца назад +4

    Спасибо за полезный контент

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +2

      Спасибо. Перезапустил - заработало