Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.

Виталий Кулиев

Просмотров 3,6 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 26 янв 2025

Комментарии • 73

@alexgri1699 3 месяца назад ⁺²
Спасибо. Много инфы из первых рук. Сегодня это очень ценно. Буду дальше следить за реализациями проектов.
@antonchechenev7078 3 месяца назад ⁺⁵
Сумаризовал видео:
1. **Цель:** Построить домашний компьютер для запуска нейросетей, в частности, Lama 70b (7 млрд параметров).
2. **Требования к видеопамяти:** Lama 70b требует 38 ГБ видеопамяти, что означает необходимость двух видеокарт по 24 ГБ (например, RTX 3090, 3090 Ti, 4090).
3. **Тестирование конфигурации:** Рекомендуется протестировать выбранную конфигурацию в облачных сервисах (например, ers Cloud) с несколькими видеокартами для оценки производительности.
4. **Варианты аренды сервера в ers Cloud:**
- Почасовая аренда: удобна для быстрого тестирования конкретной конфигурации (например, две RTX 3090 для Lama 70b).
- Ежемесячная аренда: выгоднее при длительном использовании. Стоимость примерной аренды сервера с двумя RTX 3090 составляет около 64 000 рублей в месяц.
5. **Дополнительные расходы:**
- Аренда диска (например, 160 ГБ): около 320 рублей в месяц.
6. **Корпус для видеокарт:** Из-за габаритов RTX 3090/4090 не подходит стандартный системный блок. Рекомендуется использовать каркас для майнеров с райзерами PCI Express 4.0 (рекомендуемая длина - 20 см).
7. **Подключение видеокарт к материнской плате:**
- Используйте райзеры x16 для максимальной пропускной способности.
- Убедитесь, что версия PCI Express на райзере и материнской плате поддерживает вашу видеокарту (в данном случае - 4.0).
8. **Процессор:** Не играет ключевой роли в работе нейросетей, так как вычисления выполняются на видеокартах. Достаточно процессора с минимальным количеством ядер (1-2) для управления сервером и передачей данных.
9. **Оперативная память:** 128 ГБ не требуется для Lama 70b, можно использовать меньшее количество. Скорость оперативной памяти не сильно влияет на производительность.
10. **Диск:** SSD диск предпочтительнее для быстрой загрузки весов нейросети (первый запуск может занимать 10-20 секунд). HDD также возможен, но первый запуск будет медленнее.
11. **Блок питания:** Мощный блок питания (например, Sonic на 1300 Вт) необходим для трех видеокарт RTX 3090 Ti с заниженными Power лимитами (300 Вт).
@IT_psychopath 7 месяцев назад ⁺⁴
железный лайк! я как раз про это спрашивал. огромное спасибо!
@toster8240 7 месяцев назад ⁺²
Спасибо! Очень интересное видео, ждём продолжения!
@lescha1983 18 дней назад ⁺¹
привет! на вскидку можно что-то сказать о локальном pc для LLM на 2 или 3 График картах от Intel A770 16GB (350€ за одну). Это было бы 48Гб. Есть смысл? Спасибо
@kuliev.vitaly 17 дней назад
У интел слабая поддержка в части софта. Рекомендую нвидиа и две 3090.
@Серж-14 Месяц назад ⁺¹
3:05 а подскажите название вашей материнской платы, которая поддерживает x8 x8 x4
@kuliev.vitaly Месяц назад
am4 570f gaming
Это уже старая плата. Сейчас рекомендую брать уже на платформе ам5.
@NSGromov 7 месяцев назад ⁺⁴
Спасибо за полезный контент
@kuliev.vitaly 7 месяцев назад ⁺²
Спасибо. Перезапустил - заработало
@tomskaya-ql7vm 2 месяца назад ⁺¹
А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают.
Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.
@kuliev.vitaly 2 месяца назад
работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.
@waxboy6331 7 месяцев назад ⁺²
Отличное видео. Большое спасибо. Подскажите пожалуйста , почему нельзя использовать оперативную память ПК?
@kuliev.vitaly 7 месяцев назад
Можно, но у нее на порядок меньшая пропускная способность. Например, LMstudio может часть модели в оперативке считать. Для хорошей производительности вся модель должна помещаться в видеопамяти.
@dolotube 4 месяца назад ⁺¹
Как измеряется "хорошая производительность"? Это "максимум из доступного" или "достаточно для решения наличных задач"?
И чем аргументирован ответ "на порядок"? В зависимости от архитектуры модели, типа задач и узких мест в железе разница может составлять от 2-3 раз до 20-30. Очень не всегда на порядок, зачастую это "в несколько раз" и иногда "не существенно". Ведь в данном ролике речь про инференс, а не про обучение. При этом цена железа со стеком из дорогих видеокарт легко улетает вверх на несколько порядков при сравнении с бытовой связкой девятого Райзена и формальной 3060.
Да, если для предприятия, то можно расщедриться на топовые решения, там окупится экономия человеко-часов, и важно спокойствие пользователей. Но если для себя лично, чтобы попробовать и прикинуть свои желания, то лучше идти именно на вариант с обычной оперативкой, а не вкладывать тысячи долларов в обогрев квартиры видюшками.
@sebariart 7 месяцев назад ⁺²
09:27
Пробовали видеокарты андервольтить?
@sebariart 7 месяцев назад ⁺¹
Спасибо за полезный контент
@kuliev.vitaly 7 месяцев назад
Пока нет.
@tkavelli 7 месяцев назад ⁺³
Благодарю, действительно интересный, пожалуй и уникальный контент =) - вопрос - сказано "у меня 2 карты" - а на видео 3, потому что используется менее урезанная версия 70 б модели которая занимает больше врам? если уже есть 4090, 3090 хватит для того чтобы с дополненным объемом запускать всё и проблем от разницы поколений не будет?
@kuliev.vitaly 7 месяцев назад
Планировал на 3х запускать, но столкнулся с багом и запускаю на двух. На третьей карте ллама 8б пока работает.
@kuliev.vitaly 7 месяцев назад ⁺¹
Карты разных поколений одновременно не запускал. Скорость будет ограничена слабой картой и по стоимости такая сборка проигрывает одинаковым картам.
@PurpleGmod 7 месяцев назад
А можно ли использовать оперативную память компьютера, а не видеокарты? Понятно что медленнее будет, но сама возможность есть? Карта 3090, ОЗУ 128Гб.
@tkavelli 7 месяцев назад
@@PurpleGmod по идее да но там ужасная скорость. Может я что то не так настроил но у меня 70б модель отвечала просто думая минутами.
@kuliev.vitaly 7 месяцев назад ⁺¹
Можно. Будет медленне примерно в 10 раз, чем на видеокарте
@StitchUA 25 дней назад ⁺¹
Привет, какая у тебя использована мать?
@kuliev.vitaly 25 дней назад ⁺¹
x570 gaming f
лучше взять более новую на ам5 платформе
@ПавелПопов-э6г 4 месяца назад ⁺¹
Здравствуйте! Отличное видео, спасибо за полезную информацию. У меня есть вопрос: возможно ли дообучить модель LLaMA 3.1 8B на GPU NVIDIA 3090 с 32 ГБ ОЗУ без применения квантизации, но с использованием LoRA ? И если я приобрету вторую 3090 и увеличу объем ОЗУ до 64 ГБ, смогу ли я провести полное обучение модели без квантизации и LoRA? Буду признателен за ответ. Спасибо!
@kuliev.vitaly 4 месяца назад ⁺¹
Скорее всего не получится. В fp16 на 3090 помещается впритык для инференса. Насчет двух видеокарт не знаю - нужно пробовать.
Можешь снять на несколько часов карту с нужным объемом памяти и на ней натренировать.
@rybiizhir 4 месяца назад
Круто, какой программой пользуешься для вывода глаз? Где-то слышал что есть софт который маскирует движение зрачков.
@kuliev.vitaly 4 месяца назад ⁺¹
Никакой) при съемке в камеру смотрю, потом монтаж идет.
@The2427666 Месяц назад
Как можно использовать смр 50 в качестве ускормтелей нейросети?
@kuliev.vitaly Месяц назад
можно
@Alexandr_Ogorodnik 5 месяцев назад ⁺¹
Здравствуйте, видео через нейронку сделали ?
@kuliev.vitaly 5 месяцев назад
нет
@Alexandr_Ogorodnik 5 месяцев назад
@@kuliev.vitaly такое ощущение , что хайген, видимо показалось
@дикий-ь2с 5 месяцев назад ⁺¹
Здравствуйте, что лучше взять одну 4090 или две 3070 ti super для разворачивания LLM и обучения?
@kuliev.vitaly 5 месяцев назад
3070ti всего 8гб памяти имеет. Рекомендую выбирать из 3090, 3090ти, 4090. У них 24гб памяти
@дикий-ь2с 5 месяцев назад
@@kuliev.vitaly извините, 4070 ti super или 4090. 2 двух 4070 ti super будет 32 Гб ОЗУ.
@kuliev.vitaly 5 месяцев назад
За эти деньги лучше взять две 3090/3090ti. У них будет 48гб памяти
@дикий-ь2с 5 месяцев назад
@@kuliev.vitaly спасибо!
@ElenaElena-st1mg 6 месяцев назад ⁺¹
подскажите, пожалуйста, какой ноутбук asus лучше купить для нейросетей создания?
@kuliev.vitaly 6 месяцев назад ⁺²
любой на rtx 4090
@nikolaydd6219 6 месяцев назад
@@kuliev.vitaly или с 3090 но 4090 мощней её почти в 2 раза
@kuliev.vitaly 6 месяцев назад
3090 нет мобильной версии. 3080ti только, но в ней памяти меньше.
@ГаэльРин 7 месяцев назад ⁺¹
Подойдут ли старые карты tesla p40?
@kuliev.vitaly 7 месяцев назад ⁺¹
Да подходят. Только у них compute capability уже старое, поэтому возможно не весь софт будет поддерживаться ими. P40 В сравнении с 3090 ti выглядит хуже - памяти столько же, но в 2 раза меньше пропускная способность, чип раза в 2 слабже, устаревшая архитектура. При этом она дешевле.
@Werviop 4 месяца назад
Здравствуйте Виталий, подскажите пожалуйста какую материнскую карту c процессором вы используете ?
@kuliev.vitaly 4 месяца назад ⁺¹
Следующее видео будет на эту тему. Перешел на EPYC платформу.
@dolotube 4 месяца назад
@@kuliev.vitaly После этого видео на данном канале вышло уже несколько новых, но они не похожи на рассказ про EPYC. Он еще в планах?
@kuliev.vitaly 4 месяца назад
Сегодня вечером публикация
@kuliev.vitaly 4 месяца назад ⁺¹
ruclips.net/video/IEku7Dm9VEk/видео.html
@vitall789 5 месяцев назад
Я правильно понимаю, что НЕ для обучения, а только для использования достаточно одну курта 3090 ?
@kuliev.vitaly 5 месяцев назад
зависит от модели. 8б на одной запустится, 70б минимум две.
@vitall789 5 месяцев назад
@@kuliev.vitaly GGUF Llama3.1 80B 8bit вроде 24GB VRAM пишет что должна встать!
@Metalbender777 7 месяцев назад
Здравствуйте Виталий, можно ли связать это видео с вашим прошлым видео о цифровом производстве?
@kuliev.vitaly 7 месяцев назад
Добрый день. Можно, но очень косвенно
@Metalbender777 7 месяцев назад
@@kuliev.vitaly Спасибо за ответ, меня очень интересует практическая сторона вопроса. Но в сфере LLM, я полный профан
@Nikita-g1d 7 месяцев назад
Правильно ли я понимаю, что если внешние видеокарты подключать даже через современные Thunderbolt 4 или TGX интерфейсы скорость будет значительно меньше чем таким способом как в этом видео? Или это не имеет значения т.к. все вычисления происходят на видеокартах, а на выходе только результат?
@kuliev.vitaly 6 месяцев назад
Скорость будет ниже, но не сильно.
@vrabosh 7 месяцев назад
А если собрать максимальную сборку для cpu+ram, то какая будет производительность?
@kuliev.vitaly 7 месяцев назад
Зависит от скорости памяти и процессора. В лучшем случае 8-12 канальная память последнего поколения и топовый серверный процессор по скорости будут приближаться к 1-2 видеокартам.
@vrabosh 7 месяцев назад
@@kuliev.vitaly больше интересно, то что за недороже 150к собрать можно. То что дороже, мне кажется через год будет в разы дешнвле такая мощность.
Например на 14900k + 128gb 6000mhz, какие скорости будут?
@kuliev.vitaly 7 месяцев назад ⁺¹
1-2 токена в секунду будет на лламе 70б. Чуть меньше я получаю на 3950x 128гб, который в видео показан. Для сравнения на двух 3090ti выдает выше 20токенов в секунду и поддерживает несколько запросов одновремменно.
@vrabosh 7 месяцев назад
@@kuliev.vitaly 1 токен - это одно слово? Если так, то это норм.
@kuliev.vitaly 7 месяцев назад ⁺¹
чуть меньше. несколько букв. загугли например openai токенезатор
@theNotLogo 5 месяцев назад
ест вот такая относительно дешевая сборка но с внушительным количеством ядер ЦП, запуститься ли 70B?
Блок питания: ATX 800W Bronze 1st player DK Premium
Материнская плата: LGA2011v3x2 Huananzhi X99-F8D PLUS 8xDDR4 3xPCI
Процессор: LGA2011v3 Intel Xeon E5-2699v3 18/36 DDR4 3.8Hz 145W x2
Кулер процессорный: башенный 2011 (6 трубок) 4pin AVC6 x2
Оперативная память: DDR4 ECC 16GB 2133MHz x4
Накопитель: NVME 1TB Lexar NM620
Видеокарта: AMD RX6900XT 16GB GDDR6 Asus
@kuliev.vitaly 5 месяцев назад
Можно запустить лламу 70б с квантизацией 4 бита на процессоре. Будет выдавать ориентировочно 2-3 токена в секунду. Все упрется в скорость оперативки. Я сейчас готовлю видео про свой сервер на epyc. Там будет сравнимая скорость
@Япохожнакота 2 месяца назад ⁺¹
По цене 1 RTX4090 можно взять 4 RTX4060ti с 16 гб это будет 64 гб против 24. В топовых видюхах для нейронок нет смысла.
@kuliev.vitaly Месяц назад
Оверхед на синхронизацию данных будет между 4 видеокартами. В десктопную материнку не воткнешь 4 видеокарты, нужно на серверную переходить и это дороже. Лучше 2 3090 взять.
@timurotube 4 месяца назад ⁺¹
Спасибо за видео 👍👌

Следующие

Автовоспроизведение

Топ советов по выбору видеокарты для машинного обучения и инференса нейросетей(LLM)?