Не могу сказать что в теме, но выскажу пару предположений почему скорость может быть ниже. 1. Нужно проверить частоты процессора и видеокарт в нагрузке, выходят ли они на максимальные паспортные частоты,. Проверить план электропитания чтобы было высокая производительность, что точно актуально для windows, про линукс не знаю. 2. Проверить, а хватает ли картам выделенных линий pci-e. Они могут работать как через линии процессора, так и через линии чипсета. Это отдельная тема, тем более для серверного железа, тут читать нужно
Вырубает совсем уже блин 3 часа ночи, я тут начал курить причину почему у меня драйвер, глючит. Начал смотреть, обнаружил вот чего. База 22б выдавала в 2 раза меньше токенов чем нормально. Перезапуск, ничего не давал, как и попытки каким-то образом заставить работать на полных частотах. Я менял драйверы и НИ-ЧЕ-ГО не менялось. И тогда я сделал 2 вещи, я бросил все настройки панели управления нвидиа, а потом зашел в geforce experience И ОТКЛЮЧИЛ К ЧЕРТОВОЙ МАТЕРИ оптимизацию что она делает. И случилось чудо. При генерации частоты стали такие как должны. Поставь софт, который контролирует частоты карты и смотри. У тебя линукс, я уже не помню какой софт там это умеет. Или же, ты же знаешь сколько жрет карта ~300-350? подключи весь комп через ватт метр и проверь потребление! Будет сразу видно. Я спать)
@@kuliev.vitaly Я проснулся, снова проверил скорость в 2 раза ниже что должна. Просто включил gpu-z(какого хрена...) и карта тут же набрала нормальную частоту, отключил, карта осталась на той же частоте. Вырубил нейронку, закрыл gpu-z, запустил нейронку, опять половина. Просто снова запустил gpu-z. И снова все нормально. Значит мне надо после загрузки базы, просто включать gpu-z. //бьется головой о стену... какого х... что происходит....
на десктопе можно только 3 карты запустить. на данный момент нет рядом быстрой десктопной сборки. думаю через несколько месяцев смогу такой тест сделать.
Наши китайские друзья распаивают на 4090 еще 24гига, шьют какой то своей прошей и получают 4090 на 48гб vram, чип 4090 довольно шустрый, но вот для ллмок памяти ей конечно нахватает (хитрая Nvidia так делает чтоб брали профессиональные карты за многого денег)
Добавляй еще v100 в тесты в будущем, пожалуйста) А для этого ролика можно дополнение потом снять, добавить к текущим сравнениям и замерить стенды с 2 и 4 v100
Поищи модели на huggungface. Обычно перевыложены другими пользователями. Еще рекомендую потестить qwen нейронки аналогичного размера - они лучше по метрикам.
Попробуй тесты с разными наборами 4 из 5 карт, т.е. исключая из пяти одну карту каждый раз - может проблема на уровне железа видеокарты, райзера или порта. А может иммерсклауд по старой дружбе решил расшарить мощности больше, чем заказано? )
сейчас 4 карты оставил. Пробовал запускать два инстанса нейросети, каждый на двух картах. По бенчмарку скороcти совпали. Ранее пробовал запускать на разных 4 видеокартах из 5. Результаты тоже сопадали. В имерс клауд была видеокарта 3090, судя по nvidia-smi.
ой, чувак, спасибо за видео, как раз очень в тему. Пытаюсь понять, что выйдет лучше - две 3090, работающие в паре через НВ-линк, или две 4090, но работающие в паре через PCIe_5,0. Я вроде где-то читал, что н-видия, говорят что типа, для 4090 не нужен нв-линк, так как PCIe-5.0 м так уже работает на скоростях близких к работе нв-линка, и по этому не стали устанавливать там нв-линк. Но что-то есть сомнения у меня на этот счет. Вопрос такой возник так как нужно загружать модели AI больше чес 24Гб. Как вы могли бы прокомментироваь эту тему? что лучше было бы на ваш взгляд 2х3090 + нв-линк, или 2х4090 через PCIe5. Я не рассматриваю A5000-A6000, ибо А5000 заведомо уже слабее чем 3090, а карта А6000 жутко дорого стоит, дороже чем две 4090 которые намного быстрее чем А6000. что думаете по этому поводу. Спасибо
Не надо морочиться с нвлинком вообще. Во-первых он для инференса просто не даст никакого буста. Во-вторых попробуй найди нужный мостик за вменяемые деньги под твою мать - бывают же 2/3/4 слот они и мостик не гибкий)) У тебя скорее всего 3-слот, это 61мм между слотами pci-e и такой мостик будет стоить как половина 3090😂 Бери 2х3090 и не парься. 70b модели как раз влезут и бюджет не треснет.
@@kuliev.vitaly у видюх только один параметр по которому можно спавнивать.Это rop's/tmu. 4090-1270 3090-1100 radeon pro w7800-4400 a6000-5950 rop's/tmu По этому и цена такая у про,по сравнению с софт.)
Какая материнка и какой проц у тебя в системе? На игровых материнках проблемы с тем, чтобы обеспечить 4-м видеокартам полноценных 4 канала по 16 линий PCI-express.. нужна либо ASUS Pro WS WRX90E-SAGE SE на тредрипере (но там есть нюансы), а лучше серверную двупроцессорную материнку на интеле (но с интелом лучше подождать, пока появятся в доступе Xeon 6900P и материнки под них с упором на PCIe16x слоты).
@@kuliev.vitaly та да.. intel значительно дороже обходится.. но для ИИ важна скорость работы ядер в однопотоке (лучше меньше ядер но мощнее, чем много слабых ядер).. у 7k62 однопоточная скорость совсем не из выдающихся.. даже у Threadripper PRO 7975WX скорость однопотока почти в 2 раза выше чем у 7k62, и тредрипер будет гораздо предпочтительнее для ИИ (если рассматривать только АМД).
@@kuliev.vitaly Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р) По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.
@@kuliev.vitaly Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р) По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.
Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р) По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.
Тоже интересует данный вопрос. Полагаю люди пилят сервисы. Сейчас как грибов после дождя развелось сервисов аля чат гпт, или генерация картинок по промпту,
Тренировка нейросетей, инференс нейросетей - много кому нужны свои дотренированные нейронки. Еще важна приватность - компания арендует или покупает сервер для инференса нейронок, так как запрещено договорами/законами передача данных на сторону.
Виталий, а как, по твоему опыту, будут работать много-много дешевых карт завязанных на "майнинговые" платы? В этих материнках от 12 до 18 PCI-Ex1. Имеет смысл? Будет рабочей схема, если воткнуть по PCI-Ex1 12 карт 1060 с 6GB GDDR5 (72GB всего), например? Скорость одного PCI-Ex1 , как понимаю, до 250 MB/s, проц до 4 ядер, ОЗУ до 32 MB
Работать будет, но медленно. На каждой видеокарте еще отжирается 1-3гб видеопамяти для построения графа. С каждой новой видеокартой добавляется оверхед на передачу данных. В идеале, чтоб на одну видеокарту все помещалось.
в майниге и 1х хватало, между картами обмен данными почти не нужен был. фермы эти имеют смысл для параллельного независимого запуска нескольких инстансов. например много инстансов 3B моделей. чтобы каждая отдельно работала - тогда будет очень даже ничего. маленькие модели ведь тоже для чего то применяются
Много дешевых карт потребуют много дорогого электричества и будут проблемы с утилизацией тепла от них. Когда один риг, то плюс-минус терпимо, а когда их 10-ть.. Ну и имхо, 12 карт 1060 будут заметно медленнее даже 4-х карт 4070ti super. Да и бифуркация PCIe слотов не поддерживает разбиение на x1, а только есть варианты - всё по х4.
Блин, я когда увидел название, понял что что-то пошло не так. Жааааль. Напиши админу компании на @ спроси что за железо, мать/проц. Я заметил у себя странный баг именно на 3090, у меня не ti, обычная. но такого бага не было на 4070ti! ВРЕМЕНАМИ, по хрен пойми каким причинам, драйвер не включает частоты видеокарты на полную. Частота замирает на самой низкой ~500mhz, как в 2D режиме и не включается 3d режим! Соответственно просадка сразу в 3-4 раза по токенам. Попробуй глянуть все ли тут у тебя в порядке. Удачи!
У Вас power limit, на 300Вт. На Windows , при power limit, производительность, в попугаях, сильнее просаживается, в отличии от снижения потребляемой мощности через undervolting. Пробуйте снизить потребляемую мощность через undervolting.
@@kuliev.vitaly Я заметил что есть лимит потребления, например 50% для мелкой ламы и 70% для какой 22b и как ты его не увеличь прибавка к скорости ноль.
На обычной оперативной памяти 128gb можно запустить большую модель ? 70b ? Видеокарта есть тоже на 12gb, процессор i5 13 поколения. Если можно где почитать про это ?
Можно, но скорость будет ЧУДОВИЩНО низкая. С такой видюхой, 0.5-1 токена/сек, в лучшем случае. Что совершенно неприемлемо //У меня на 4090 и 64 памяти( этого хватает на q4), сейчас глянул 1.9 токена/сек. У тебя будет ~1. Оставь надежду всяк сюда входящий...
Отличный тест, спасибо. Подскажи по RL. Если нужно в симуляторе загружать агентов и просчитывать физику, то та же 4090 буде в разы лучше серверных решений типа ф100, ш100?
мне стал интересен тест обратный если 4 видеокарты выдают меньшую производительность то вероятней всего они - недозагружены (причины не важны) таким образом хотелось видеть тест на 3/2/1 видеокарте в домашней сборке и как это повлияет на производительность. те если не хватает шины или докер как то неправильно работает с кластером карт и тд это сразу должно всплыть "брюхом к верху". при этом сразу понятно будет "сколько вешать в граммах" (сколько брать видеокарт) если не хочешь столкнуться с проблемой когда части производительности просто нет.
vllm имеют отличную в сравнении с другими производительность. может запускаться на 1, 2, 4, 8...видеокартах. Тут все в видеопамять упирается. llama 70b awq можно запустить на двух картах 3090, но размер контекста будет в районе 8-10к. Параллельно не сможешь большое количество запросов считать.
Круто конечно! Респект! Такое человек соорудил и запустил! А в чем смысл,что количество карт должно быть кратко 2. У меня материнка тянет или (3шт.pcie x16) или( 2шт.х16 и 2шт.х8). Посоветуйте пожалуйста сколько карт 3090тi оптимально вешать? 2,3 или 4карты(2 из которых будут работать на pci8).
@@DmitriNesterov Да, уже есть материнка рабочая и 2 шт.3090ti купил.) Вот теперь хочу попробовать Llama 3.2. Подскажите пожалуйста,кто знает, может и 2шт. 3090ti хватит для этого? Или можно как то третью 3090ti поставить? Вообще,от куда принцип кратности двум ?
vllm может запускать на двух картах llama 70b с ограниченным контекстом. На трех картах он не работает. Изначально у меня была сборка на ам4 и 3 картами. Сейчас переехал на epyc - 4 карты работают, но производительность чем-то ограничена.
это ограничение pytorch поверх которого работает vllm. По какой-то причине tensor parallel реализовали таким образом. Количество видеокарт должно быть кратно количеству attention heads у нейронки.
@@SmartSmartphone-nx3hp не знаю. Я подсказывал из соображений экономической целесообразности. Зависит не от версии LLAMA а от числа инструкций модели. Пишут, что 70b model works surprisingly fast on 24gb 3090ti 24GB. Про нечётное число карт ничего плохого не слышал. Для обучения нкжен SLI (но это не точно)
7:02 получается если есть какой то длинный ввод, то его можно разбить до 5 частей и считать параллельно без существенной потери производительности? (+ как бы ещё экономя контекстное окно)
Недавно нвидиа выпустила новую нейросеть, бенчмарки у неё хорошие. Говорят, что она ещё и самая быстрая из существующих 70b, у вас есть в планах ее попробовать?
Ваш домашний сервер уступал, наверное, потому, что в прошлом видео вы сказали о фиксации энергопотребления видеокарт на уровне 350ВТ. Это, конечно же, снижает их эффективность
Привет! Интересуюсь и смотрю твои видео на крайне любительском уровне. По-этому если дочитаешь мой вопрос до конца, то относись ко мне как к любителю пожалуйста :) У меня 2060 8gb, калькулятор в мире нейросетей. Однажды, каким-то чудом, удавалось запустить нейросеть, llm, не помню сколько B параметров 3-4-6 на этой видеокарте в рамках SillyTawern с использованием koboldcpp, всё под Виндой.. Но это один раз и чудом, какое-то время это всё работало. Но с тех пор так и не удавалось. Никакая нейросеть не видит кудо-ядра, их не инициализирует. И какие только таблицы совместимости софта не пытался соблюсти, там если копаться.. И VisualStudio должна быть определённая версия под определенную версию Cudo-драйверов и целая куча команд для установки через pip install софта.. Никак не видит. В общем вопрос не про то как мне запустить нейросеть на 2060, хотя правду бы хотелось узнать и где не прав, очень интересно, но вот так в сообщении-удалённо, словно бабушке по телефону, не разобраться и не проконсультируешь.. ) Вопрос про другое. В ближайшие пару месяцев, хочу собрать новый компьютер, бюджет не большой, от 150 до самый край 200 тысяч и что бы не только под игры, но и под игру-знакомство с нейросетями. 16gb видеопамяти мне хватит? А сколько оперативной лучше взять? Можно же пожертвовать скоростью генерации и переложить часть вычислений в оперативную? Могу ли я параллельно на двух компьютерах (новом и старом) запустить одну нейросеть? Где будет 2060 8gb и 4070 Ti SUPER 16gb, например? И, я так понял, что бы без проблем и запар - только линкус?
Под винду тоже можно нейронки запускать. Для знакомства можешь lmstudio попробовать - там все просто с точки зрения пользователя и поддерживается выгрузка части весов в оперативку.
Поповоду скорости раьоты. Считаю что виновата материнка. Вы используете 5 видеокарт с pci x16, получается нужно чтлбы процессор имел 80 линий pci которые бы были разведены напрямую. Так же не забывайте про nvme он тоже хочет линии pci. В общем нужно посмотреть архитеткуру материнской платы
Материнка h12ssl-i supermicro. У процессора 128 линий pcie. Все карты напрямую подключены к процессору по pcie 4.0 x16. Данные через чипсет не передаются
@@kuliev.vitaly хорошо... А как насчёт разрядности шины памяти у видеокарт? Там бывают разные варианты ? Как выглядит видеокарта для серверного решения?
1) Хотел бы я сдавать сервер с 4090 (в наличии 3шт) по цене ближе к той что на скрине 1:00 2) Сейчас сдаю свои карты на CloreAI в разы дешевле! Есть ли возможность использовать данную нейросеть в CloreAI? И/ИЛИ как сдать свои 4090 выгоднее?
CloreAI скорее всего самый прибыльный будет. По цене immerse cloud врятли ты сдашь. У них железо в датацентре, серверные материнки, стабильный интернет и электричество. Они могут гарантировать работу и принимать по безналу оплату. Еще у них большой выбор железа и возможности масштабирования. Предполагаю, что ты не можешь все это обеспечить.
@@kuliev.vitaly имеется ли возможности у CloreAI для решения данной задачи что на видео? Это было бы намного дешевле для аренды. Я видел что можно использовать в разных задачах, но не знаю наверняка, т.к. я не арендую, а сдаю
Запускать нейронки на cloreai можно. Это маркетплейс мощностей. Я анализировал их железо - примерно половина это железо из майнинга и оно не оптимально для запуска нейросетей. Будут заметно большие просадки, чем на моем сервере.
В части производительности подозреваю, что дело в чиплетной компоновке EPYC. У меня домашний сервер на эпике первого поколения, но карт нет, используется большое количество дисков, включая NVMe с подключением в PCI-e. На тестах обнаружил значительное падение скорости обращения к устройствам из-за распределения pci-e линий по ядрам процессора. (NUMA). Когда процесс крутится на конкретном ядре и обращается к устройству, которое обслуживается другим чиплетом - скорость значительно падает. На Зионах такой особенности нет.
@@kuliev.vitaly Виталий, пользуясь случаем хочу спросить совета. Занимаюсь генерацией текстов и изображений при помощи нейросетей. Основной инструмент - koboldcpp и nvidia 3070ti на 8Гб. Из-за малого объема памяти использую сети 7B-13B Q4, но хочется улучшить качество генерации. Есть ли смысл собирать дорогой конфиг на одной будущей 5090, или 32Гб VRAM все равно недостаточно для перехода на более высокий уровень? И есть ли разница, какой процессор подбирать: менее частотный, но с большим количеством ядер, или с более быстрыми ядрами?
Если скорость работы вторична, то лучше взять 2 или 4 3090. Можно запускать большие нейронки на 70 миллиардов. Насчет процессора пока не знаю, буду детельнее изучать.
@@misha-kun7 В оперативной даже 70б +3090+64рам, у меня дают 2 токена/сек. В 405б, наверное если задать вопрос на ночь, утром ответ будет))) Заодно отопление бесплатное Так что постоянной и видео памяти. ВОЗМОЖНО, на 512 памяти и его всех картах, можно будет токенов 5-10 выжать
перегрева и тротлинга точно нет. вентиляторы крутятся не на полную и температуры адекватные. Загрузка близка к 100%. Мощность в районе 300вт, зависит от нагрузки. Энергопотребление не достигает максимума.
Подписался. Лайк. Топ контент. Спасибо!!!
Не могу сказать что в теме, но выскажу пару предположений почему скорость может быть ниже. 1. Нужно проверить частоты процессора и видеокарт в нагрузке, выходят ли они на максимальные паспортные частоты,. Проверить план электропитания чтобы было высокая производительность, что точно актуально для windows, про линукс не знаю. 2. Проверить, а хватает ли картам выделенных линий pci-e. Они могут работать как через линии процессора, так и через линии чипсета. Это отдельная тема, тем более для серверного железа, тут читать нужно
Будет интересно посмотреть видео с процессом и результатом увеличения производительности домашнего сервера!
Вырубает совсем уже блин 3 часа ночи, я тут начал курить причину почему у меня драйвер, глючит.
Начал смотреть, обнаружил вот чего.
База 22б выдавала в 2 раза меньше токенов чем нормально. Перезапуск, ничего не давал, как и попытки каким-то образом заставить работать на полных частотах.
Я менял драйверы и НИ-ЧЕ-ГО не менялось.
И тогда я сделал 2 вещи, я бросил все настройки панели управления нвидиа, а потом зашел в geforce experience И ОТКЛЮЧИЛ К ЧЕРТОВОЙ МАТЕРИ оптимизацию что она делает.
И случилось чудо. При генерации частоты стали такие как должны.
Поставь софт, который контролирует частоты карты и смотри. У тебя линукс, я уже не помню какой софт там это умеет.
Или же, ты же знаешь сколько жрет карта ~300-350? подключи весь комп через ватт метр и проверь потребление! Будет сразу видно.
Я спать)
nvidia-smi в линуксе монитроит и управляет картами. Карта жрет в районе 300вт. Ваттметр в розетке показывает в районе 1500вт.
@@kuliev.vitaly Я проснулся, снова проверил скорость
в 2 раза ниже что должна.
Просто включил gpu-z(какого хрена...) и карта тут же набрала нормальную частоту, отключил, карта осталась на той же частоте. Вырубил нейронку, закрыл gpu-z, запустил нейронку, опять половина. Просто снова запустил gpu-z. И снова все нормально.
Значит мне надо после загрузки базы, просто включать gpu-z.
//бьется головой о стену... какого х... что происходит....
Сделайте обзор с использованием процессора epyc от AMD под десктопную материнкую, интересно посмотреть на разницу результатов!
на десктопе можно только 3 карты запустить. на данный момент нет рядом быстрой десктопной сборки. думаю через несколько месяцев смогу такой тест сделать.
Наши китайские друзья распаивают на 4090 еще 24гига, шьют какой то своей прошей и получают 4090 на 48гб vram, чип 4090 довольно шустрый, но вот для ллмок памяти ей конечно нахватает (хитрая Nvidia так делает чтоб брали профессиональные карты за многого денег)
Да есть такое. Получается отличная видеокарта для ИИ, но в свободной продаже ее не видел.
Добавляй еще v100 в тесты в будущем, пожалуйста) А для этого ролика можно дополнение потом снять, добавить к текущим сравнениям и замерить стенды с 2 и 4 v100
v100 относительно старая и слабая. По соотношению цена/производительность плохой результат будет
но к тесту можно добавить
H200 надо намутить))
Добрый день. Немного не по теме. Виталий, не знаете ли, как можно получить модель LLaMA 3.2 90b?
Поищи модели на huggungface. Обычно перевыложены другими пользователями. Еще рекомендую потестить qwen нейронки аналогичного размера - они лучше по метрикам.
Возможно влияние рейзеров. Нужен тест хотя бы двух вк непосредственно в материнке по сравнению с ними же через рейзеры.
Попробуй тесты с разными наборами 4 из 5 карт, т.е. исключая из пяти одну карту каждый раз - может проблема на уровне железа видеокарты, райзера или порта. А может иммерсклауд по старой дружбе решил расшарить мощности больше, чем заказано? )
сейчас 4 карты оставил. Пробовал запускать два инстанса нейросети, каждый на двух картах. По бенчмарку скороcти совпали. Ранее пробовал запускать на разных 4 видеокартах из 5. Результаты тоже сопадали.
В имерс клауд была видеокарта 3090, судя по nvidia-smi.
ой, чувак, спасибо за видео, как раз очень в тему. Пытаюсь понять, что выйдет лучше - две 3090, работающие в паре через НВ-линк, или две 4090, но работающие в паре через PCIe_5,0. Я вроде где-то читал, что н-видия, говорят что типа, для 4090 не нужен нв-линк, так как PCIe-5.0 м так уже работает на скоростях близких к работе нв-линка, и по этому не стали устанавливать там нв-линк. Но что-то есть сомнения у меня на этот счет. Вопрос такой возник так как нужно загружать модели AI больше чес 24Гб. Как вы могли бы прокомментироваь эту тему? что лучше было бы на ваш взгляд 2х3090 + нв-линк, или 2х4090 через PCIe5. Я не рассматриваю A5000-A6000, ибо А5000 заведомо уже слабее чем 3090, а карта А6000 жутко дорого стоит, дороже чем две 4090 которые намного быстрее чем А6000. что думаете по этому поводу. Спасибо
4090 имеет pcie 4 версии. Отличия от 3090 тут нет. Для инференса nvlink мало значим. 4090 конечно будет быстрее, примерные цифры в видео есть.
Не надо морочиться с нвлинком вообще. Во-первых он для инференса просто не даст никакого буста. Во-вторых попробуй найди нужный мостик за вменяемые деньги под твою мать - бывают же 2/3/4 слот они и мостик не гибкий)) У тебя скорее всего 3-слот, это 61мм между слотами pci-e и такой мостик будет стоить как половина 3090😂
Бери 2х3090 и не парься. 70b модели как раз влезут и бюджет не треснет.
@@kuliev.vitaly у видюх только один параметр по которому можно спавнивать.Это rop's/tmu. 4090-1270 3090-1100 radeon pro w7800-4400 a6000-5950 rop's/tmu По этому и цена такая у про,по сравнению с софт.)
Какая материнка и какой проц у тебя в системе? На игровых материнках проблемы с тем, чтобы обеспечить 4-м видеокартам полноценных 4 канала по 16 линий PCI-express.. нужна либо ASUS Pro WS WRX90E-SAGE SE на тредрипере (но там есть нюансы), а лучше серверную двупроцессорную материнку на интеле (но с интелом лучше подождать, пока появятся в доступе Xeon 6900P и материнки под них с упором на PCIe16x слоты).
Проц epyc 7k62. Материнка supermicro H12. Последние тредриперы и серверные интел по бюджету не подходят под такую сборку.
@@kuliev.vitaly та да.. intel значительно дороже обходится.. но для ИИ важна скорость работы ядер в однопотоке (лучше меньше ядер но мощнее, чем много слабых ядер).. у 7k62 однопоточная скорость совсем не из выдающихся.. даже у Threadripper PRO 7975WX скорость однопотока почти в 2 раза выше чем у 7k62, и тредрипер будет гораздо предпочтительнее для ИИ (если рассматривать только АМД).
@@kuliev.vitaly Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р)
По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.
@@kuliev.vitaly Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р)
По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.
Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р)
По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.
Привет Виталий. А для каких задач люди арендуют на долгий срок сервера стоимостью под миллион рублей в месяц с картами h100?
Тоже интересует данный вопрос. Полагаю люди пилят сервисы. Сейчас как грибов после дождя развелось сервисов аля чат гпт, или генерация картинок по промпту,
Тренировка нейросетей, инференс нейросетей - много кому нужны свои дотренированные нейронки. Еще важна приватность - компания арендует или покупает сервер для инференса нейронок, так как запрещено договорами/законами передача данных на сторону.
@@kuliev.vitaly Под генерацию контента берут такие серваки?
Виталий, а как, по твоему опыту, будут работать много-много дешевых карт завязанных на "майнинговые" платы? В этих материнках от 12 до 18 PCI-Ex1. Имеет смысл? Будет рабочей схема, если воткнуть по PCI-Ex1 12 карт 1060 с 6GB GDDR5 (72GB всего), например? Скорость одного PCI-Ex1 , как понимаю, до 250 MB/s, проц до 4 ядер, ОЗУ до 32 MB
Работать будет, но медленно. На каждой видеокарте еще отжирается 1-3гб видеопамяти для построения графа. С каждой новой видеокартой добавляется оверхед на передачу данных. В идеале, чтоб на одну видеокарту все помещалось.
в майниге и 1х хватало, между картами обмен данными почти не нужен был.
фермы эти имеют смысл для параллельного независимого запуска нескольких инстансов. например много инстансов 3B моделей. чтобы каждая отдельно работала - тогда будет очень даже ничего. маленькие модели ведь тоже для чего то применяются
Много дешевых карт потребуют много дорогого электричества и будут проблемы с утилизацией тепла от них. Когда один риг, то плюс-минус терпимо, а когда их 10-ть.. Ну и имхо, 12 карт 1060 будут заметно медленнее даже 4-х карт 4070ti super. Да и бифуркация PCIe слотов не поддерживает разбиение на x1, а только есть варианты - всё по х4.
Блин, я когда увидел название, понял что что-то пошло не так. Жааааль.
Напиши админу компании на @ спроси что за железо, мать/проц.
Я заметил у себя странный баг именно на 3090, у меня не ti, обычная. но такого бага не было на 4070ti!
ВРЕМЕНАМИ, по хрен пойми каким причинам, драйвер не включает частоты видеокарты на полную.
Частота замирает на самой низкой ~500mhz, как в 2D режиме и не включается 3d режим!
Соответственно просадка сразу в 3-4 раза по токенам.
Попробуй глянуть все ли тут у тебя в порядке.
Удачи!
Вроде бы частота чипа и частота памяти нормальные.
У Вас power limit, на 300Вт. На Windows , при power limit, производительность, в попугаях, сильнее просаживается, в отличии от снижения потребляемой мощности через undervolting. Пробуйте снизить потребляемую мощность через undervolting.
В этих тестах я убрал лимиты. Стоит дефолтный лимит 450вт на карту.
@@kuliev.vitaly Я заметил что есть лимит потребления, например 50% для мелкой ламы и 70% для какой 22b и как ты его не увеличь прибавка к скорости ноль.
На обычной оперативной памяти 128gb можно запустить большую модель ? 70b ? Видеокарта есть тоже на 12gb, процессор i5 13 поколения. Если можно где почитать про это ?
Можно, но скорость будет ЧУДОВИЩНО низкая.
С такой видюхой, 0.5-1 токена/сек, в лучшем случае. Что совершенно неприемлемо
//У меня на 4090 и 64 памяти( этого хватает на q4), сейчас глянул 1.9 токена/сек.
У тебя будет ~1.
Оставь надежду всяк сюда входящий...
можно. скорость около 1 токена в секунду будет.
У меня 3060 12гб, выдает 0.7 токена для лама 70б квантизация 4.
Отличный тест, спасибо. Подскажи по RL. Если нужно в симуляторе загружать агентов и просчитывать физику, то та же 4090 буде в разы лучше серверных решений типа ф100, ш100?
По скорости должно быть сравнимо, главное чтоб памяти 24гб хватило.
по стоимости 4090 на порядок дешевле.
@@kuliev.vitaly получается нет никакого смысла в ш100 в рл. Спасибо
мне стал интересен тест обратный если 4 видеокарты выдают меньшую производительность то вероятней всего они - недозагружены (причины не важны) таким образом хотелось видеть тест на 3/2/1 видеокарте в домашней сборке и как это повлияет на производительность. те если не хватает шины или докер как то неправильно работает с кластером карт и тд это сразу должно всплыть "брюхом к верху". при этом сразу понятно будет "сколько вешать в граммах" (сколько брать видеокарт) если не хочешь столкнуться с проблемой когда части производительности просто нет.
vllm имеют отличную в сравнении с другими производительность. может запускаться на 1, 2, 4, 8...видеокартах. Тут все в видеопамять упирается. llama 70b awq можно запустить на двух картах 3090, но размер контекста будет в районе 8-10к. Параллельно не сможешь большое количество запросов считать.
Круто конечно! Респект! Такое человек соорудил и запустил!
А в чем смысл,что количество карт должно быть кратко 2.
У меня материнка тянет или (3шт.pcie x16) или( 2шт.х16 и 2шт.х8).
Посоветуйте пожалуйста сколько карт 3090тi оптимально вешать? 2,3 или 4карты(2 из которых будут работать на pci8).
Материнку меняй и вешай 4 х16, раз на четыре 3090 деньги есть. Что-то вопрос какой-то риторический, угадал?
@@DmitriNesterov Да, уже есть материнка рабочая и 2 шт.3090ti купил.)
Вот теперь хочу попробовать Llama 3.2.
Подскажите пожалуйста,кто знает, может и 2шт. 3090ti хватит для этого? Или можно как то третью 3090ti поставить? Вообще,от куда принцип кратности двум ?
vllm может запускать на двух картах llama 70b с ограниченным контекстом. На трех картах он не работает. Изначально у меня была сборка на ам4 и 3 картами. Сейчас переехал на epyc - 4 карты работают, но производительность чем-то ограничена.
это ограничение pytorch поверх которого работает vllm. По какой-то причине tensor parallel реализовали таким образом. Количество видеокарт должно быть кратно количеству attention heads у нейронки.
@@SmartSmartphone-nx3hp не знаю. Я подсказывал из соображений экономической целесообразности. Зависит не от версии LLAMA а от числа инструкций модели. Пишут, что 70b model works surprisingly fast on 24gb 3090ti 24GB. Про нечётное число карт ничего плохого не слышал. Для обучения нкжен SLI (но это не точно)
Не понимаю, можно ли на домашнем сервере заработать? По вашим рассчётам, когда окупятся вложения в сервер?
Мне сервер для работы нужен, для всяких экспериментов.. Он окупается косвенно.
7:02 получается если есть какой то длинный ввод, то его можно разбить до 5 частей и считать параллельно без существенной потери производительности? (+ как бы ещё экономя контекстное окно)
зависит от данных.
Недавно нвидиа выпустила новую нейросеть, бенчмарки у неё хорошие. Говорят, что она ещё и самая быстрая из существующих 70b, у вас есть в планах ее попробовать?
Планы есть. У нее пока не вышло подходящих квантизаций для запуска vllm на моем железе.
Ваш домашний сервер уступал, наверное, потому, что в прошлом видео вы сказали о фиксации энергопотребления видеокарт на уровне 350ВТ. Это, конечно же, снижает их эффективность
Привет! Интересуюсь и смотрю твои видео на крайне любительском уровне. По-этому если дочитаешь мой вопрос до конца, то относись ко мне как к любителю пожалуйста :)
У меня 2060 8gb, калькулятор в мире нейросетей. Однажды, каким-то чудом, удавалось запустить нейросеть, llm, не помню сколько B параметров 3-4-6 на этой видеокарте в рамках SillyTawern с использованием koboldcpp, всё под Виндой.. Но это один раз и чудом, какое-то время это всё работало. Но с тех пор так и не удавалось. Никакая нейросеть не видит кудо-ядра, их не инициализирует. И какие только таблицы совместимости софта не пытался соблюсти, там если копаться.. И VisualStudio должна быть определённая версия под определенную версию Cudo-драйверов и целая куча команд для установки через pip install софта.. Никак не видит. В общем вопрос не про то как мне запустить нейросеть на 2060, хотя правду бы хотелось узнать и где не прав, очень интересно, но вот так в сообщении-удалённо, словно бабушке по телефону, не разобраться и не проконсультируешь.. ) Вопрос про другое. В ближайшие пару месяцев, хочу собрать новый компьютер, бюджет не большой, от 150 до самый край 200 тысяч и что бы не только под игры, но и под игру-знакомство с нейросетями. 16gb видеопамяти мне хватит? А сколько оперативной лучше взять? Можно же пожертвовать скоростью генерации и переложить часть вычислений в оперативную? Могу ли я параллельно на двух компьютерах (новом и старом) запустить одну нейросеть? Где будет 2060 8gb и 4070 Ti SUPER 16gb, например? И, я так понял, что бы без проблем и запар - только линкус?
Каким обывательским языком написал.. Ужас )) Просто поток мыслей!)) В голове каша, по-этому так плохо сформулировал вопрос. Прости :)
Под винду тоже можно нейронки запускать. Для знакомства можешь lmstudio попробовать - там все просто с точки зрения пользователя и поддерживается выгрузка части весов в оперативку.
Для нового компа я бы советовал видюху с большим количеством памяти. Лучше взять 3090/3090ti из прошлого поколения с 24гб, чем более новую с 16гб.
Поповоду скорости раьоты. Считаю что виновата материнка. Вы используете 5 видеокарт с pci x16, получается нужно чтлбы процессор имел 80 линий pci которые бы были разведены напрямую. Так же не забывайте про nvme он тоже хочет линии pci. В общем нужно посмотреть архитеткуру материнской платы
Материнка h12ssl-i supermicro. У процессора 128 линий pcie. Все карты напрямую подключены к процессору по pcie 4.0 x16. Данные через чипсет не передаются
@@kuliev.vitaly хорошо... А как насчёт разрядности шины памяти у видеокарт? Там бывают разные варианты ? Как выглядит видеокарта для серверного решения?
3090/3090ti очень близки по архитектуре. это десктопная видеокарта в обоих случаях.
1) Хотел бы я сдавать сервер с 4090 (в наличии 3шт) по цене ближе к той что на скрине 1:00
2) Сейчас сдаю свои карты на CloreAI в разы дешевле! Есть ли возможность использовать данную нейросеть в CloreAI? И/ИЛИ как сдать свои 4090 выгоднее?
CloreAI скорее всего самый прибыльный будет. По цене immerse cloud врятли ты сдашь. У них железо в датацентре, серверные материнки, стабильный интернет и электричество. Они могут гарантировать работу и принимать по безналу оплату. Еще у них большой выбор железа и возможности масштабирования. Предполагаю, что ты не можешь все это обеспечить.
попробуй майнить или сдавать в аренду cloreai или аналоги.
@@kuliev.vitaly имеется ли возможности у CloreAI для решения данной задачи что на видео? Это было бы намного дешевле для аренды. Я видел что можно использовать в разных задачах, но не знаю наверняка, т.к. я не арендую, а сдаю
Запускать нейронки на cloreai можно. Это маркетплейс мощностей. Я анализировал их железо - примерно половина это железо из майнинга и оно не оптимально для запуска нейросетей. Будут заметно большие просадки, чем на моем сервере.
В части производительности подозреваю, что дело в чиплетной компоновке EPYC. У меня домашний сервер на эпике первого поколения, но карт нет, используется большое количество дисков, включая NVMe с подключением в PCI-e. На тестах обнаружил значительное падение скорости обращения к устройствам из-за распределения pci-e линий по ядрам процессора. (NUMA). Когда процесс крутится на конкретном ядре и обращается к устройству, которое обслуживается другим чиплетом - скорость значительно падает. На Зионах такой особенности нет.
Не рекомендуешь epyc?
Лучше взять 5700х с режимом 2х8 линий? Если у меня две карты 3090.
Тоже думаю, что с этим связано. материнки с зионом под рукой нет(
Линии pcie через io die соединены с ядрами. Странно, что это влияет на передачу данных.
@@kuliev.vitaly Виталий, пользуясь случаем хочу спросить совета. Занимаюсь генерацией текстов и изображений при помощи нейросетей. Основной инструмент - koboldcpp и nvidia 3070ti на 8Гб. Из-за малого объема памяти использую сети 7B-13B Q4, но хочется улучшить качество генерации. Есть ли смысл собирать дорогой конфиг на одной будущей 5090, или 32Гб VRAM все равно недостаточно для перехода на более высокий уровень? И есть ли разница, какой процессор подбирать: менее частотный, но с большим количеством ядер, или с более быстрыми ядрами?
Если скорость работы вторична, то лучше взять 2 или 4 3090. Можно запускать большие нейронки на 70 миллиардов. Насчет процессора пока не знаю, буду детельнее изучать.
Че то я не понимаю, процессор и оперативная память тут вообще не учитывпются? Нэрйосети только с видеокартами работают?
Основные вычисления идут на видеокартах. На процессоре только данные подготавливаются.
а как это монетизировать?
очень интересно. Но почему, реально, так медленно?
да может там вазе не 3090 дали в аренду) что было свободное то и дали. а подсунули как 3090.
по nvidia-smi 3090 показывало
сколько памяти необходимо для тяжелой модели (бесплатно доступной)?
Для ламы 405b ~ 450 гигабайтов
@@ysamaэто видеопамяти, оперативной или постоянной?)
@@misha-kun7 В оперативной даже 70б +3090+64рам, у меня дают 2 токена/сек.
В 405б, наверное если задать вопрос на ночь, утром ответ будет))) Заодно отопление бесплатное
Так что постоянной и видео памяти.
ВОЗМОЖНО, на 512 памяти и его всех картах, можно будет токенов 5-10 выжать
модель 70б с квантизацией 4 бита запускается на двух 24гб картах с ограниченным контекстом.
@@kuliev.vitaly что значит с ограниченным контекстом?
Возможно карты перегреваются и не работают на полную мощность, посмотри сколько потребляют
перегрева и тротлинга точно нет. вентиляторы крутятся не на полную и температуры адекватные. Загрузка близка к 100%. Мощность в районе 300вт, зависит от нагрузки. Энергопотребление не достигает максимума.