Протестировал видеокарты nvidia 3090, 4090, A100 в задаче инференса нейросети Llama 70b.

Поделиться
HTML-код
  • Опубликовано: 31 окт 2024

Комментарии • 117

  • @bbbbbb9193
    @bbbbbb9193 11 дней назад +1

    Подписался. Лайк. Топ контент. Спасибо!!!

  • @loogle00
    @loogle00 12 дней назад +3

    Не могу сказать что в теме, но выскажу пару предположений почему скорость может быть ниже. 1. Нужно проверить частоты процессора и видеокарт в нагрузке, выходят ли они на максимальные паспортные частоты,. Проверить план электропитания чтобы было высокая производительность, что точно актуально для windows, про линукс не знаю. 2. Проверить, а хватает ли картам выделенных линий pci-e. Они могут работать как через линии процессора, так и через линии чипсета. Это отдельная тема, тем более для серверного железа, тут читать нужно

  • @secondswag7897
    @secondswag7897 15 дней назад +5

    Будет интересно посмотреть видео с процессом и результатом увеличения производительности домашнего сервера!

  • @ysama
    @ysama 15 дней назад +3

    Вырубает совсем уже блин 3 часа ночи, я тут начал курить причину почему у меня драйвер, глючит.
    Начал смотреть, обнаружил вот чего.
    База 22б выдавала в 2 раза меньше токенов чем нормально. Перезапуск, ничего не давал, как и попытки каким-то образом заставить работать на полных частотах.
    Я менял драйверы и НИ-ЧЕ-ГО не менялось.
    И тогда я сделал 2 вещи, я бросил все настройки панели управления нвидиа, а потом зашел в geforce experience И ОТКЛЮЧИЛ К ЧЕРТОВОЙ МАТЕРИ оптимизацию что она делает.
    И случилось чудо. При генерации частоты стали такие как должны.
    Поставь софт, который контролирует частоты карты и смотри. У тебя линукс, я уже не помню какой софт там это умеет.
    Или же, ты же знаешь сколько жрет карта ~300-350? подключи весь комп через ватт метр и проверь потребление! Будет сразу видно.
    Я спать)

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      nvidia-smi в линуксе монитроит и управляет картами. Карта жрет в районе 300вт. Ваттметр в розетке показывает в районе 1500вт.

    • @ysama
      @ysama 14 дней назад

      @@kuliev.vitaly Я проснулся, снова проверил скорость
      в 2 раза ниже что должна.
      Просто включил gpu-z(какого хрена...) и карта тут же набрала нормальную частоту, отключил, карта осталась на той же частоте. Вырубил нейронку, закрыл gpu-z, запустил нейронку, опять половина. Просто снова запустил gpu-z. И снова все нормально.
      Значит мне надо после загрузки базы, просто включать gpu-z.
      //бьется головой о стену... какого х... что происходит....

  • @internetnickname8923
    @internetnickname8923 12 дней назад +1

    Сделайте обзор с использованием процессора epyc от AMD под десктопную материнкую, интересно посмотреть на разницу результатов!

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад

      на десктопе можно только 3 карты запустить. на данный момент нет рядом быстрой десктопной сборки. думаю через несколько месяцев смогу такой тест сделать.

  • @ЕвгенийВладимиров-л3к

    Наши китайские друзья распаивают на 4090 еще 24гига, шьют какой то своей прошей и получают 4090 на 48гб vram, чип 4090 довольно шустрый, но вот для ллмок памяти ей конечно нахватает (хитрая Nvidia так делает чтоб брали профессиональные карты за многого денег)

    • @kuliev.vitaly
      @kuliev.vitaly  10 дней назад

      Да есть такое. Получается отличная видеокарта для ИИ, но в свободной продаже ее не видел.

  • @VirtusTex
    @VirtusTex 15 дней назад +1

    Добавляй еще v100 в тесты в будущем, пожалуйста) А для этого ролика можно дополнение потом снять, добавить к текущим сравнениям и замерить стенды с 2 и 4 v100

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      v100 относительно старая и слабая. По соотношению цена/производительность плохой результат будет

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +1

      но к тесту можно добавить

    • @trex4426
      @trex4426 14 дней назад

      H200 надо намутить))

  • @kalugarussia
    @kalugarussia 3 дня назад +1

    Добрый день. Немного не по теме. Виталий, не знаете ли, как можно получить модель LLaMA 3.2 90b?

    • @kuliev.vitaly
      @kuliev.vitaly  3 дня назад

      Поищи модели на huggungface. Обычно перевыложены другими пользователями. Еще рекомендую потестить qwen нейронки аналогичного размера - они лучше по метрикам.

  • @alexborn2899
    @alexborn2899 12 дней назад +1

    Возможно влияние рейзеров. Нужен тест хотя бы двух вк непосредственно в материнке по сравнению с ними же через рейзеры.

  • @ПавелМинич
    @ПавелМинич 14 дней назад +1

    Попробуй тесты с разными наборами 4 из 5 карт, т.е. исключая из пяти одну карту каждый раз - может проблема на уровне железа видеокарты, райзера или порта. А может иммерсклауд по старой дружбе решил расшарить мощности больше, чем заказано? )

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад

      сейчас 4 карты оставил. Пробовал запускать два инстанса нейросети, каждый на двух картах. По бенчмарку скороcти совпали. Ранее пробовал запускать на разных 4 видеокартах из 5. Результаты тоже сопадали.
      В имерс клауд была видеокарта 3090, судя по nvidia-smi.

  • @vladislavvladislav6387
    @vladislavvladislav6387 13 дней назад +1

    ой, чувак, спасибо за видео, как раз очень в тему. Пытаюсь понять, что выйдет лучше - две 3090, работающие в паре через НВ-линк, или две 4090, но работающие в паре через PCIe_5,0. Я вроде где-то читал, что н-видия, говорят что типа, для 4090 не нужен нв-линк, так как PCIe-5.0 м так уже работает на скоростях близких к работе нв-линка, и по этому не стали устанавливать там нв-линк. Но что-то есть сомнения у меня на этот счет. Вопрос такой возник так как нужно загружать модели AI больше чес 24Гб. Как вы могли бы прокомментироваь эту тему? что лучше было бы на ваш взгляд 2х3090 + нв-линк, или 2х4090 через PCIe5. Я не рассматриваю A5000-A6000, ибо А5000 заведомо уже слабее чем 3090, а карта А6000 жутко дорого стоит, дороже чем две 4090 которые намного быстрее чем А6000. что думаете по этому поводу. Спасибо

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад

      4090 имеет pcie 4 версии. Отличия от 3090 тут нет. Для инференса nvlink мало значим. 4090 конечно будет быстрее, примерные цифры в видео есть.

    • @SibLondon
      @SibLondon 12 дней назад

      Не надо морочиться с нвлинком вообще. Во-первых он для инференса просто не даст никакого буста. Во-вторых попробуй найди нужный мостик за вменяемые деньги под твою мать - бывают же 2/3/4 слот они и мостик не гибкий)) У тебя скорее всего 3-слот, это 61мм между слотами pci-e и такой мостик будет стоить как половина 3090😂
      Бери 2х3090 и не парься. 70b модели как раз влезут и бюджет не треснет.

    • @manatureprofonde4315
      @manatureprofonde4315 11 дней назад

      @@kuliev.vitaly у видюх только один параметр по которому можно спавнивать.Это rop's/tmu. 4090-1270 3090-1100 radeon pro w7800-4400 a6000-5950 rop's/tmu По этому и цена такая у про,по сравнению с софт.)

  • @JimCrowsby
    @JimCrowsby 12 дней назад +1

    Какая материнка и какой проц у тебя в системе? На игровых материнках проблемы с тем, чтобы обеспечить 4-м видеокартам полноценных 4 канала по 16 линий PCI-express.. нужна либо ASUS Pro WS WRX90E-SAGE SE на тредрипере (но там есть нюансы), а лучше серверную двупроцессорную материнку на интеле (но с интелом лучше подождать, пока появятся в доступе Xeon 6900P и материнки под них с упором на PCIe16x слоты).

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад

      Проц epyc 7k62. Материнка supermicro H12. Последние тредриперы и серверные интел по бюджету не подходят под такую сборку.

    • @JimCrowsby
      @JimCrowsby 11 дней назад

      @@kuliev.vitaly та да.. intel значительно дороже обходится.. но для ИИ важна скорость работы ядер в однопотоке (лучше меньше ядер но мощнее, чем много слабых ядер).. у 7k62 однопоточная скорость совсем не из выдающихся.. даже у Threadripper PRO 7975WX скорость однопотока почти в 2 раза выше чем у 7k62, и тредрипер будет гораздо предпочтительнее для ИИ (если рассматривать только АМД).

    • @manatureprofonde4315
      @manatureprofonde4315 11 дней назад

      ​@@kuliev.vitaly Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р)
      По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.

    • @manatureprofonde4315
      @manatureprofonde4315 11 дней назад

      @@kuliev.vitaly Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р)
      По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.

    • @manatureprofonde4315
      @manatureprofonde4315 11 дней назад

      Конечно. Asus ROG Dominus не подходит) У меня xeon gold 6248r asus pro c621-64L sage 10g 240 оперативки 6-канал квадра а6000+Тесла L40.Но я графикой занимаюсь.Гейм дев) Ультраглюк энжин 5))) psu HP c7000 2450W потребление меньше 1600,по шуму турбин) Райзены,тредриперы,эпики не умеют 48 линий PCI титанам+40 линий nvme/U.2 Лиза Су еще не изобрела контроллер "интел Н-170" ядра Haswell-E/EP(2016 год),пока только eDRAM кеш L3-50Mb(2015 год) Ой,упс,у красных это 3D vCache называется. Дёргаешь м.2 диск с амд конфига,буст по видюхам 13-15%...Не знаю с чем связано,с технологической отсталостью амд возможно(имхо) Думаю заказать с али xeon P-8275cl б/у,как цена упадет на меньше 10'000р)
      По интелу. 3647-лучше пропустить.Они в гейм сегмент смотрят.С W-3175x отключающим ядра по мере приближения к 4.2 ГГц *4 ядра(28/56) от нагрузки. SM X12SPL-f по дешевле мамки под epyk от SM же.Присмотрись.Плюс u.2/u.3 шина.И опять же это флагман отрасли,а не унылое красное ничто.) з.ы. не видюхи норм W7800 pro radeon-нравится.Достойная альтернатива quadro 5000.

  • @paulzibert9985
    @paulzibert9985 15 дней назад +3

    Привет Виталий. А для каких задач люди арендуют на долгий срок сервера стоимостью под миллион рублей в месяц с картами h100?

    • @РоманЧорний-д8щ
      @РоманЧорний-д8щ 15 дней назад +3

      Тоже интересует данный вопрос. Полагаю люди пилят сервисы. Сейчас как грибов после дождя развелось сервисов аля чат гпт, или генерация картинок по промпту,

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +1

      Тренировка нейросетей, инференс нейросетей - много кому нужны свои дотренированные нейронки. Еще важна приватность - компания арендует или покупает сервер для инференса нейронок, так как запрещено договорами/законами передача данных на сторону.

    • @trex4426
      @trex4426 3 дня назад

      @@kuliev.vitaly Под генерацию контента берут такие серваки?

  • @ДмитрийПервушин-в9ш
    @ДмитрийПервушин-в9ш 12 дней назад +1

    Виталий, а как, по твоему опыту, будут работать много-много дешевых карт завязанных на "майнинговые" платы? В этих материнках от 12 до 18 PCI-Ex1. Имеет смысл? Будет рабочей схема, если воткнуть по PCI-Ex1 12 карт 1060 с 6GB GDDR5 (72GB всего), например? Скорость одного PCI-Ex1 , как понимаю, до 250 MB/s, проц до 4 ядер, ОЗУ до 32 MB

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад

      Работать будет, но медленно. На каждой видеокарте еще отжирается 1-3гб видеопамяти для построения графа. С каждой новой видеокартой добавляется оверхед на передачу данных. В идеале, чтоб на одну видеокарту все помещалось.

    • @silentage6310
      @silentage6310 12 дней назад +1

      в майниге и 1х хватало, между картами обмен данными почти не нужен был.
      фермы эти имеют смысл для параллельного независимого запуска нескольких инстансов. например много инстансов 3B моделей. чтобы каждая отдельно работала - тогда будет очень даже ничего. маленькие модели ведь тоже для чего то применяются

    • @JimCrowsby
      @JimCrowsby 12 дней назад

      Много дешевых карт потребуют много дорогого электричества и будут проблемы с утилизацией тепла от них. Когда один риг, то плюс-минус терпимо, а когда их 10-ть.. Ну и имхо, 12 карт 1060 будут заметно медленнее даже 4-х карт 4070ti super. Да и бифуркация PCIe слотов не поддерживает разбиение на x1, а только есть варианты - всё по х4.

  • @ysama
    @ysama 15 дней назад +3

    Блин, я когда увидел название, понял что что-то пошло не так. Жааааль.
    Напиши админу компании на @ спроси что за железо, мать/проц.
    Я заметил у себя странный баг именно на 3090, у меня не ti, обычная. но такого бага не было на 4070ti!
    ВРЕМЕНАМИ, по хрен пойми каким причинам, драйвер не включает частоты видеокарты на полную.
    Частота замирает на самой низкой ~500mhz, как в 2D режиме и не включается 3d режим!
    Соответственно просадка сразу в 3-4 раза по токенам.
    Попробуй глянуть все ли тут у тебя в порядке.
    Удачи!

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      Вроде бы частота чипа и частота памяти нормальные.

  • @vladimirkulakov2661
    @vladimirkulakov2661 15 дней назад +1

    У Вас power limit, на 300Вт. На Windows , при power limit, производительность, в попугаях, сильнее просаживается, в отличии от снижения потребляемой мощности через undervolting. Пробуйте снизить потребляемую мощность через undervolting.

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад

      В этих тестах я убрал лимиты. Стоит дефолтный лимит 450вт на карту.

    • @ysama
      @ysama 14 дней назад

      @@kuliev.vitaly Я заметил что есть лимит потребления, например 50% для мелкой ламы и 70% для какой 22b и как ты его не увеличь прибавка к скорости ноль.

  • @atarainvestor
    @atarainvestor 15 дней назад +3

    На обычной оперативной памяти 128gb можно запустить большую модель ? 70b ? Видеокарта есть тоже на 12gb, процессор i5 13 поколения. Если можно где почитать про это ?

    • @ysama
      @ysama 15 дней назад +1

      Можно, но скорость будет ЧУДОВИЩНО низкая.
      С такой видюхой, 0.5-1 токена/сек, в лучшем случае. Что совершенно неприемлемо
      //У меня на 4090 и 64 памяти( этого хватает на q4), сейчас глянул 1.9 токена/сек.
      У тебя будет ~1.
      Оставь надежду всяк сюда входящий...

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +1

      можно. скорость около 1 токена в секунду будет.

    • @1234mifa
      @1234mifa 14 дней назад +1

      У меня 3060 12гб, выдает 0.7 токена для лама 70б квантизация 4.

  • @mylittledrone
    @mylittledrone 15 дней назад +1

    Отличный тест, спасибо. Подскажи по RL. Если нужно в симуляторе загружать агентов и просчитывать физику, то та же 4090 буде в разы лучше серверных решений типа ф100, ш100?

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      По скорости должно быть сравнимо, главное чтоб памяти 24гб хватило.

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      по стоимости 4090 на порядок дешевле.

    • @mylittledrone
      @mylittledrone 15 дней назад

      @@kuliev.vitaly получается нет никакого смысла в ш100 в рл. Спасибо

  • @mag_ai
    @mag_ai 15 дней назад +1

    мне стал интересен тест обратный если 4 видеокарты выдают меньшую производительность то вероятней всего они - недозагружены (причины не важны) таким образом хотелось видеть тест на 3/2/1 видеокарте в домашней сборке и как это повлияет на производительность. те если не хватает шины или докер как то неправильно работает с кластером карт и тд это сразу должно всплыть "брюхом к верху". при этом сразу понятно будет "сколько вешать в граммах" (сколько брать видеокарт) если не хочешь столкнуться с проблемой когда части производительности просто нет.

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +1

      vllm имеют отличную в сравнении с другими производительность. может запускаться на 1, 2, 4, 8...видеокартах. Тут все в видеопамять упирается. llama 70b awq можно запустить на двух картах 3090, но размер контекста будет в районе 8-10к. Параллельно не сможешь большое количество запросов считать.

  • @SmartSmartphone-nx3hp
    @SmartSmartphone-nx3hp 15 дней назад +4

    Круто конечно! Респект! Такое человек соорудил и запустил!
    А в чем смысл,что количество карт должно быть кратко 2.
    У меня материнка тянет или (3шт.pcie x16) или( 2шт.х16 и 2шт.х8).
    Посоветуйте пожалуйста сколько карт 3090тi оптимально вешать? 2,3 или 4карты(2 из которых будут работать на pci8).

    • @DmitriNesterov
      @DmitriNesterov 15 дней назад +1

      Материнку меняй и вешай 4 х16, раз на четыре 3090 деньги есть. Что-то вопрос какой-то риторический, угадал?

    • @SmartSmartphone-nx3hp
      @SmartSmartphone-nx3hp 15 дней назад +1

      @@DmitriNesterov Да, уже есть материнка рабочая и 2 шт.3090ti купил.)
      Вот теперь хочу попробовать Llama 3.2.
      Подскажите пожалуйста,кто знает, может и 2шт. 3090ti хватит для этого? Или можно как то третью 3090ti поставить? Вообще,от куда принцип кратности двум ?

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +2

      vllm может запускать на двух картах llama 70b с ограниченным контекстом. На трех картах он не работает. Изначально у меня была сборка на ам4 и 3 картами. Сейчас переехал на epyc - 4 карты работают, но производительность чем-то ограничена.

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +2

      это ограничение pytorch поверх которого работает vllm. По какой-то причине tensor parallel реализовали таким образом. Количество видеокарт должно быть кратно количеству attention heads у нейронки.

    • @DmitriNesterov
      @DmitriNesterov 14 дней назад +1

      @@SmartSmartphone-nx3hp не знаю. Я подсказывал из соображений экономической целесообразности. Зависит не от версии LLAMA а от числа инструкций модели. Пишут, что 70b model works surprisingly fast on 24gb 3090ti 24GB. Про нечётное число карт ничего плохого не слышал. Для обучения нкжен SLI (но это не точно)

  • @Пользователь-й9л
    @Пользователь-й9л 15 дней назад +2

    Не понимаю, можно ли на домашнем сервере заработать? По вашим рассчётам, когда окупятся вложения в сервер?

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +1

      Мне сервер для работы нужен, для всяких экспериментов.. Он окупается косвенно.

  • @zacharymax8894
    @zacharymax8894 14 дней назад +1

    7:02 получается если есть какой то длинный ввод, то его можно разбить до 5 частей и считать параллельно без существенной потери производительности? (+ как бы ещё экономя контекстное окно)

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад +1

      зависит от данных.

  • @zacharymax8894
    @zacharymax8894 14 дней назад +1

    Недавно нвидиа выпустила новую нейросеть, бенчмарки у неё хорошие. Говорят, что она ещё и самая быстрая из существующих 70b, у вас есть в планах ее попробовать?

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад +1

      Планы есть. У нее пока не вышло подходящих квантизаций для запуска vllm на моем железе.

  • @yatogano
    @yatogano День назад +1

    Ваш домашний сервер уступал, наверное, потому, что в прошлом видео вы сказали о фиксации энергопотребления видеокарт на уровне 350ВТ. Это, конечно же, снижает их эффективность

  • @MrCans94
    @MrCans94 14 дней назад +1

    Привет! Интересуюсь и смотрю твои видео на крайне любительском уровне. По-этому если дочитаешь мой вопрос до конца, то относись ко мне как к любителю пожалуйста :)
    У меня 2060 8gb, калькулятор в мире нейросетей. Однажды, каким-то чудом, удавалось запустить нейросеть, llm, не помню сколько B параметров 3-4-6 на этой видеокарте в рамках SillyTawern с использованием koboldcpp, всё под Виндой.. Но это один раз и чудом, какое-то время это всё работало. Но с тех пор так и не удавалось. Никакая нейросеть не видит кудо-ядра, их не инициализирует. И какие только таблицы совместимости софта не пытался соблюсти, там если копаться.. И VisualStudio должна быть определённая версия под определенную версию Cudo-драйверов и целая куча команд для установки через pip install софта.. Никак не видит. В общем вопрос не про то как мне запустить нейросеть на 2060, хотя правду бы хотелось узнать и где не прав, очень интересно, но вот так в сообщении-удалённо, словно бабушке по телефону, не разобраться и не проконсультируешь.. ) Вопрос про другое. В ближайшие пару месяцев, хочу собрать новый компьютер, бюджет не большой, от 150 до самый край 200 тысяч и что бы не только под игры, но и под игру-знакомство с нейросетями. 16gb видеопамяти мне хватит? А сколько оперативной лучше взять? Можно же пожертвовать скоростью генерации и переложить часть вычислений в оперативную? Могу ли я параллельно на двух компьютерах (новом и старом) запустить одну нейросеть? Где будет 2060 8gb и 4070 Ti SUPER 16gb, например? И, я так понял, что бы без проблем и запар - только линкус?

    • @MrCans94
      @MrCans94 14 дней назад +4

      Каким обывательским языком написал.. Ужас )) Просто поток мыслей!)) В голове каша, по-этому так плохо сформулировал вопрос. Прости :)

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад +1

      Под винду тоже можно нейронки запускать. Для знакомства можешь lmstudio попробовать - там все просто с точки зрения пользователя и поддерживается выгрузка части весов в оперативку.

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад +2

      Для нового компа я бы советовал видюху с большим количеством памяти. Лучше взять 3090/3090ti из прошлого поколения с 24гб, чем более новую с 16гб.

  • @1234mifa
    @1234mifa 14 дней назад +1

    Поповоду скорости раьоты. Считаю что виновата материнка. Вы используете 5 видеокарт с pci x16, получается нужно чтлбы процессор имел 80 линий pci которые бы были разведены напрямую. Так же не забывайте про nvme он тоже хочет линии pci. В общем нужно посмотреть архитеткуру материнской платы

    • @kuliev.vitaly
      @kuliev.vitaly  13 дней назад

      Материнка h12ssl-i supermicro. У процессора 128 линий pcie. Все карты напрямую подключены к процессору по pcie 4.0 x16. Данные через чипсет не передаются

    • @1234mifa
      @1234mifa 13 дней назад +1

      @@kuliev.vitaly хорошо... А как насчёт разрядности шины памяти у видеокарт? Там бывают разные варианты ? Как выглядит видеокарта для серверного решения?

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад +1

      3090/3090ti очень близки по архитектуре. это десктопная видеокарта в обоих случаях.

  • @СергейКуприянов-ь6с
    @СергейКуприянов-ь6с 14 дней назад +1

    1) Хотел бы я сдавать сервер с 4090 (в наличии 3шт) по цене ближе к той что на скрине 1:00
    2) Сейчас сдаю свои карты на CloreAI в разы дешевле! Есть ли возможность использовать данную нейросеть в CloreAI? И/ИЛИ как сдать свои 4090 выгоднее?

    • @kuliev.vitaly
      @kuliev.vitaly  13 дней назад

      CloreAI скорее всего самый прибыльный будет. По цене immerse cloud врятли ты сдашь. У них железо в датацентре, серверные материнки, стабильный интернет и электричество. Они могут гарантировать работу и принимать по безналу оплату. Еще у них большой выбор железа и возможности масштабирования. Предполагаю, что ты не можешь все это обеспечить.

    • @kuliev.vitaly
      @kuliev.vitaly  13 дней назад

      попробуй майнить или сдавать в аренду cloreai или аналоги.

    • @СергейКуприянов-ь6с
      @СергейКуприянов-ь6с 13 дней назад

      @@kuliev.vitaly имеется ли возможности у CloreAI для решения данной задачи что на видео? Это было бы намного дешевле для аренды. Я видел что можно использовать в разных задачах, но не знаю наверняка, т.к. я не арендую, а сдаю

    • @kuliev.vitaly
      @kuliev.vitaly  13 дней назад

      Запускать нейронки на cloreai можно. Это маркетплейс мощностей. Я анализировал их железо - примерно половина это железо из майнинга и оно не оптимально для запуска нейросетей. Будут заметно большие просадки, чем на моем сервере.

  • @Shad0vv
    @Shad0vv 15 дней назад +1

    В части производительности подозреваю, что дело в чиплетной компоновке EPYC. У меня домашний сервер на эпике первого поколения, но карт нет, используется большое количество дисков, включая NVMe с подключением в PCI-e. На тестах обнаружил значительное падение скорости обращения к устройствам из-за распределения pci-e линий по ядрам процессора. (NUMA). Когда процесс крутится на конкретном ядре и обращается к устройству, которое обслуживается другим чиплетом - скорость значительно падает. На Зионах такой особенности нет.

    • @mdevostator-webmaster
      @mdevostator-webmaster 15 дней назад

      Не рекомендуешь epyc?
      Лучше взять 5700х с режимом 2х8 линий? Если у меня две карты 3090.

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      Тоже думаю, что с этим связано. материнки с зионом под рукой нет(

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      Линии pcie через io die соединены с ядрами. Странно, что это влияет на передачу данных.

    • @Shad0vv
      @Shad0vv 15 дней назад

      @@kuliev.vitaly Виталий, пользуясь случаем хочу спросить совета. Занимаюсь генерацией текстов и изображений при помощи нейросетей. Основной инструмент - koboldcpp и nvidia 3070ti на 8Гб. Из-за малого объема памяти использую сети 7B-13B Q4, но хочется улучшить качество генерации. Есть ли смысл собирать дорогой конфиг на одной будущей 5090, или 32Гб VRAM все равно недостаточно для перехода на более высокий уровень? И есть ли разница, какой процессор подбирать: менее частотный, но с большим количеством ядер, или с более быстрыми ядрами?

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад

      Если скорость работы вторична, то лучше взять 2 или 4 3090. Можно запускать большие нейронки на 70 миллиардов. Насчет процессора пока не знаю, буду детельнее изучать.

  • @unknowncitizen7511
    @unknowncitizen7511 12 дней назад +1

    Че то я не понимаю, процессор и оперативная память тут вообще не учитывпются? Нэрйосети только с видеокартами работают?

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад +1

      Основные вычисления идут на видеокартах. На процессоре только данные подготавливаются.

  • @yobatube3718
    @yobatube3718 13 дней назад +1

    а как это монетизировать?

  • @timurotube
    @timurotube 13 дней назад +1

    очень интересно. Но почему, реально, так медленно?

    • @jconnar
      @jconnar 13 дней назад +1

      да может там вазе не 3090 дали в аренду) что было свободное то и дали. а подсунули как 3090.

    • @kuliev.vitaly
      @kuliev.vitaly  12 дней назад +1

      по nvidia-smi 3090 показывало

  • @bigloafef
    @bigloafef 15 дней назад +1

    сколько памяти необходимо для тяжелой модели (бесплатно доступной)?

    • @ysama
      @ysama 15 дней назад

      Для ламы 405b ~ 450 гигабайтов

    • @misha-kun7
      @misha-kun7 15 дней назад

      ​@@ysamaэто видеопамяти, оперативной или постоянной?)

    • @ysama
      @ysama 15 дней назад

      @@misha-kun7 В оперативной даже 70б +3090+64рам, у меня дают 2 токена/сек.
      В 405б, наверное если задать вопрос на ночь, утром ответ будет))) Заодно отопление бесплатное
      Так что постоянной и видео памяти.
      ВОЗМОЖНО, на 512 памяти и его всех картах, можно будет токенов 5-10 выжать

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      модель 70б с квантизацией 4 бита запускается на двух 24гб картах с ограниченным контекстом.

    • @bigloafef
      @bigloafef 15 дней назад

      @@kuliev.vitaly что значит с ограниченным контекстом?

  • @directtrading7302
    @directtrading7302 15 дней назад +4

    Возможно карты перегреваются и не работают на полную мощность, посмотри сколько потребляют

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      перегрева и тротлинга точно нет. вентиляторы крутятся не на полную и температуры адекватные. Загрузка близка к 100%. Мощность в районе 300вт, зависит от нагрузки. Энергопотребление не достигает максимума.