Сумаризовал видео: 1. **Цель:** Построить домашний компьютер для запуска нейросетей, в частности, Lama 70b (7 млрд параметров). 2. **Требования к видеопамяти:** Lama 70b требует 38 ГБ видеопамяти, что означает необходимость двух видеокарт по 24 ГБ (например, RTX 3090, 3090 Ti, 4090). 3. **Тестирование конфигурации:** Рекомендуется протестировать выбранную конфигурацию в облачных сервисах (например, ers Cloud) с несколькими видеокартами для оценки производительности. 4. **Варианты аренды сервера в ers Cloud:** - Почасовая аренда: удобна для быстрого тестирования конкретной конфигурации (например, две RTX 3090 для Lama 70b). - Ежемесячная аренда: выгоднее при длительном использовании. Стоимость примерной аренды сервера с двумя RTX 3090 составляет около 64 000 рублей в месяц. 5. **Дополнительные расходы:** - Аренда диска (например, 160 ГБ): около 320 рублей в месяц. 6. **Корпус для видеокарт:** Из-за габаритов RTX 3090/4090 не подходит стандартный системный блок. Рекомендуется использовать каркас для майнеров с райзерами PCI Express 4.0 (рекомендуемая длина - 20 см). 7. **Подключение видеокарт к материнской плате:** - Используйте райзеры x16 для максимальной пропускной способности. - Убедитесь, что версия PCI Express на райзере и материнской плате поддерживает вашу видеокарту (в данном случае - 4.0). 8. **Процессор:** Не играет ключевой роли в работе нейросетей, так как вычисления выполняются на видеокартах. Достаточно процессора с минимальным количеством ядер (1-2) для управления сервером и передачей данных. 9. **Оперативная память:** 128 ГБ не требуется для Lama 70b, можно использовать меньшее количество. Скорость оперативной памяти не сильно влияет на производительность. 10. **Диск:** SSD диск предпочтительнее для быстрой загрузки весов нейросети (первый запуск может занимать 10-20 секунд). HDD также возможен, но первый запуск будет медленнее. 11. **Блок питания:** Мощный блок питания (например, Sonic на 1300 Вт) необходим для трех видеокарт RTX 3090 Ti с заниженными Power лимитами (300 Вт).
А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают. Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.
работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.
Благодарю, действительно интересный, пожалуй и уникальный контент =) - вопрос - сказано "у меня 2 карты" - а на видео 3, потому что используется менее урезанная версия 70 б модели которая занимает больше врам? если уже есть 4090, 3090 хватит для того чтобы с дополненным объемом запускать всё и проблем от разницы поколений не будет?
Здравствуйте! Отличное видео, спасибо за полезную информацию. У меня есть вопрос: возможно ли дообучить модель LLaMA 3.1 8B на GPU NVIDIA 3090 с 32 ГБ ОЗУ без применения квантизации, но с использованием LoRA ? И если я приобрету вторую 3090 и увеличу объем ОЗУ до 64 ГБ, смогу ли я провести полное обучение модели без квантизации и LoRA? Буду признателен за ответ. Спасибо!
Скорее всего не получится. В fp16 на 3090 помещается впритык для инференса. Насчет двух видеокарт не знаю - нужно пробовать. Можешь снять на несколько часов карту с нужным объемом памяти и на ней натренировать.
Можно, но у нее на порядок меньшая пропускная способность. Например, LMstudio может часть модели в оперативке считать. Для хорошей производительности вся модель должна помещаться в видеопамяти.
Как измеряется "хорошая производительность"? Это "максимум из доступного" или "достаточно для решения наличных задач"? И чем аргументирован ответ "на порядок"? В зависимости от архитектуры модели, типа задач и узких мест в железе разница может составлять от 2-3 раз до 20-30. Очень не всегда на порядок, зачастую это "в несколько раз" и иногда "не существенно". Ведь в данном ролике речь про инференс, а не про обучение. При этом цена железа со стеком из дорогих видеокарт легко улетает вверх на несколько порядков при сравнении с бытовой связкой девятого Райзена и формальной 3060. Да, если для предприятия, то можно расщедриться на топовые решения, там окупится экономия человеко-часов, и важно спокойствие пользователей. Но если для себя лично, чтобы попробовать и прикинуть свои желания, то лучше идти именно на вариант с обычной оперативкой, а не вкладывать тысячи долларов в обогрев квартиры видюшками.
Правильно ли я понимаю, что если внешние видеокарты подключать даже через современные Thunderbolt 4 или TGX интерфейсы скорость будет значительно меньше чем таким способом как в этом видео? Или это не имеет значения т.к. все вычисления происходят на видеокартах, а на выходе только результат?
Да подходят. Только у них compute capability уже старое, поэтому возможно не весь софт будет поддерживаться ими. P40 В сравнении с 3090 ti выглядит хуже - памяти столько же, но в 2 раза меньше пропускная способность, чип раза в 2 слабже, устаревшая архитектура. При этом она дешевле.
Можно запустить лламу 70б с квантизацией 4 бита на процессоре. Будет выдавать ориентировочно 2-3 токена в секунду. Все упрется в скорость оперативки. Я сейчас готовлю видео про свой сервер на epyc. Там будет сравнимая скорость
Зависит от скорости памяти и процессора. В лучшем случае 8-12 канальная память последнего поколения и топовый серверный процессор по скорости будут приближаться к 1-2 видеокартам.
@@kuliev.vitaly больше интересно, то что за недороже 150к собрать можно. То что дороже, мне кажется через год будет в разы дешнвле такая мощность. Например на 14900k + 128gb 6000mhz, какие скорости будут?
1-2 токена в секунду будет на лламе 70б. Чуть меньше я получаю на 3950x 128гб, который в видео показан. Для сравнения на двух 3090ti выдает выше 20токенов в секунду и поддерживает несколько запросов одновремменно.
Спасибо. Много инфы из первых рук. Сегодня это очень ценно. Буду дальше следить за реализациями проектов.
Спасибо за видео 👍👌
железный лайк! я как раз про это спрашивал. огромное спасибо!
Спасибо! Очень интересное видео, ждём продолжения!
Сумаризовал видео:
1. **Цель:** Построить домашний компьютер для запуска нейросетей, в частности, Lama 70b (7 млрд параметров).
2. **Требования к видеопамяти:** Lama 70b требует 38 ГБ видеопамяти, что означает необходимость двух видеокарт по 24 ГБ (например, RTX 3090, 3090 Ti, 4090).
3. **Тестирование конфигурации:** Рекомендуется протестировать выбранную конфигурацию в облачных сервисах (например, ers Cloud) с несколькими видеокартами для оценки производительности.
4. **Варианты аренды сервера в ers Cloud:**
- Почасовая аренда: удобна для быстрого тестирования конкретной конфигурации (например, две RTX 3090 для Lama 70b).
- Ежемесячная аренда: выгоднее при длительном использовании. Стоимость примерной аренды сервера с двумя RTX 3090 составляет около 64 000 рублей в месяц.
5. **Дополнительные расходы:**
- Аренда диска (например, 160 ГБ): около 320 рублей в месяц.
6. **Корпус для видеокарт:** Из-за габаритов RTX 3090/4090 не подходит стандартный системный блок. Рекомендуется использовать каркас для майнеров с райзерами PCI Express 4.0 (рекомендуемая длина - 20 см).
7. **Подключение видеокарт к материнской плате:**
- Используйте райзеры x16 для максимальной пропускной способности.
- Убедитесь, что версия PCI Express на райзере и материнской плате поддерживает вашу видеокарту (в данном случае - 4.0).
8. **Процессор:** Не играет ключевой роли в работе нейросетей, так как вычисления выполняются на видеокартах. Достаточно процессора с минимальным количеством ядер (1-2) для управления сервером и передачей данных.
9. **Оперативная память:** 128 ГБ не требуется для Lama 70b, можно использовать меньшее количество. Скорость оперативной памяти не сильно влияет на производительность.
10. **Диск:** SSD диск предпочтительнее для быстрой загрузки весов нейросети (первый запуск может занимать 10-20 секунд). HDD также возможен, но первый запуск будет медленнее.
11. **Блок питания:** Мощный блок питания (например, Sonic на 1300 Вт) необходим для трех видеокарт RTX 3090 Ti с заниженными Power лимитами (300 Вт).
А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают.
Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.
работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.
Благодарю, действительно интересный, пожалуй и уникальный контент =) - вопрос - сказано "у меня 2 карты" - а на видео 3, потому что используется менее урезанная версия 70 б модели которая занимает больше врам? если уже есть 4090, 3090 хватит для того чтобы с дополненным объемом запускать всё и проблем от разницы поколений не будет?
Планировал на 3х запускать, но столкнулся с багом и запускаю на двух. На третьей карте ллама 8б пока работает.
Карты разных поколений одновременно не запускал. Скорость будет ограничена слабой картой и по стоимости такая сборка проигрывает одинаковым картам.
А можно ли использовать оперативную память компьютера, а не видеокарты? Понятно что медленнее будет, но сама возможность есть? Карта 3090, ОЗУ 128Гб.
@@PurpleGmod по идее да но там ужасная скорость. Может я что то не так настроил но у меня 70б модель отвечала просто думая минутами.
Можно. Будет медленне примерно в 10 раз, чем на видеокарте
Здравствуйте! Отличное видео, спасибо за полезную информацию. У меня есть вопрос: возможно ли дообучить модель LLaMA 3.1 8B на GPU NVIDIA 3090 с 32 ГБ ОЗУ без применения квантизации, но с использованием LoRA ? И если я приобрету вторую 3090 и увеличу объем ОЗУ до 64 ГБ, смогу ли я провести полное обучение модели без квантизации и LoRA? Буду признателен за ответ. Спасибо!
Скорее всего не получится. В fp16 на 3090 помещается впритык для инференса. Насчет двух видеокарт не знаю - нужно пробовать.
Можешь снять на несколько часов карту с нужным объемом памяти и на ней натренировать.
Отличное видео. Большое спасибо. Подскажите пожалуйста , почему нельзя использовать оперативную память ПК?
Можно, но у нее на порядок меньшая пропускная способность. Например, LMstudio может часть модели в оперативке считать. Для хорошей производительности вся модель должна помещаться в видеопамяти.
Как измеряется "хорошая производительность"? Это "максимум из доступного" или "достаточно для решения наличных задач"?
И чем аргументирован ответ "на порядок"? В зависимости от архитектуры модели, типа задач и узких мест в железе разница может составлять от 2-3 раз до 20-30. Очень не всегда на порядок, зачастую это "в несколько раз" и иногда "не существенно". Ведь в данном ролике речь про инференс, а не про обучение. При этом цена железа со стеком из дорогих видеокарт легко улетает вверх на несколько порядков при сравнении с бытовой связкой девятого Райзена и формальной 3060.
Да, если для предприятия, то можно расщедриться на топовые решения, там окупится экономия человеко-часов, и важно спокойствие пользователей. Но если для себя лично, чтобы попробовать и прикинуть свои желания, то лучше идти именно на вариант с обычной оперативкой, а не вкладывать тысячи долларов в обогрев квартиры видюшками.
Круто, какой программой пользуешься для вывода глаз? Где-то слышал что есть софт который маскирует движение зрачков.
Никакой) при съемке в камеру смотрю, потом монтаж идет.
Здравствуйте, что лучше взять одну 4090 или две 3070 ti super для разворачивания LLM и обучения?
3070ti всего 8гб памяти имеет. Рекомендую выбирать из 3090, 3090ти, 4090. У них 24гб памяти
@@kuliev.vitaly извините, 4070 ti super или 4090. 2 двух 4070 ti super будет 32 Гб ОЗУ.
За эти деньги лучше взять две 3090/3090ti. У них будет 48гб памяти
@@kuliev.vitaly спасибо!
Здравствуйте Виталий, подскажите пожалуйста какую материнскую карту c процессором вы используете ?
Следующее видео будет на эту тему. Перешел на EPYC платформу.
@@kuliev.vitaly После этого видео на данном канале вышло уже несколько новых, но они не похожи на рассказ про EPYC. Он еще в планах?
Сегодня вечером публикация
ruclips.net/video/IEku7Dm9VEk/видео.html
подскажите, пожалуйста, какой ноутбук asus лучше купить для нейросетей создания?
любой на rtx 4090
@@kuliev.vitaly или с 3090 но 4090 мощней её почти в 2 раза
3090 нет мобильной версии. 3080ti только, но в ней памяти меньше.
Здравствуйте, видео через нейронку сделали ?
нет
@@kuliev.vitaly такое ощущение , что хайген, видимо показалось
Правильно ли я понимаю, что если внешние видеокарты подключать даже через современные Thunderbolt 4 или TGX интерфейсы скорость будет значительно меньше чем таким способом как в этом видео? Или это не имеет значения т.к. все вычисления происходят на видеокартах, а на выходе только результат?
Скорость будет ниже, но не сильно.
09:27
Пробовали видеокарты андервольтить?
Спасибо за полезный контент
Пока нет.
Подойдут ли старые карты tesla p40?
Да подходят. Только у них compute capability уже старое, поэтому возможно не весь софт будет поддерживаться ими. P40 В сравнении с 3090 ti выглядит хуже - памяти столько же, но в 2 раза меньше пропускная способность, чип раза в 2 слабже, устаревшая архитектура. При этом она дешевле.
Здравствуйте Виталий, можно ли связать это видео с вашим прошлым видео о цифровом производстве?
Добрый день. Можно, но очень косвенно
@@kuliev.vitaly Спасибо за ответ, меня очень интересует практическая сторона вопроса. Но в сфере LLM, я полный профан
Я правильно понимаю, что НЕ для обучения, а только для использования достаточно одну курта 3090 ?
зависит от модели. 8б на одной запустится, 70б минимум две.
@@kuliev.vitaly GGUF Llama3.1 80B 8bit вроде 24GB VRAM пишет что должна встать!
ест вот такая относительно дешевая сборка но с внушительным количеством ядер ЦП, запуститься ли 70B?
Блок питания: ATX 800W Bronze 1st player DK Premium
Материнская плата: LGA2011v3x2 Huananzhi X99-F8D PLUS 8xDDR4 3xPCI
Процессор: LGA2011v3 Intel Xeon E5-2699v3 18/36 DDR4 3.8Hz 145W x2
Кулер процессорный: башенный 2011 (6 трубок) 4pin AVC6 x2
Оперативная память: DDR4 ECC 16GB 2133MHz x4
Накопитель: NVME 1TB Lexar NM620
Видеокарта: AMD RX6900XT 16GB GDDR6 Asus
Можно запустить лламу 70б с квантизацией 4 бита на процессоре. Будет выдавать ориентировочно 2-3 токена в секунду. Все упрется в скорость оперативки. Я сейчас готовлю видео про свой сервер на epyc. Там будет сравнимая скорость
А если собрать максимальную сборку для cpu+ram, то какая будет производительность?
Зависит от скорости памяти и процессора. В лучшем случае 8-12 канальная память последнего поколения и топовый серверный процессор по скорости будут приближаться к 1-2 видеокартам.
@@kuliev.vitaly больше интересно, то что за недороже 150к собрать можно. То что дороже, мне кажется через год будет в разы дешнвле такая мощность.
Например на 14900k + 128gb 6000mhz, какие скорости будут?
1-2 токена в секунду будет на лламе 70б. Чуть меньше я получаю на 3950x 128гб, который в видео показан. Для сравнения на двух 3090ti выдает выше 20токенов в секунду и поддерживает несколько запросов одновремменно.
@@kuliev.vitaly 1 токен - это одно слово? Если так, то это норм.
чуть меньше. несколько букв. загугли например openai токенезатор
Спасибо за полезный контент
Спасибо. Перезапустил - заработало