Запуск Llama 405b на своем сервере. vLLM, docker.

Поделиться
HTML-код
  • Опубликовано: 25 ноя 2024

Комментарии • 152

  • @kuliev.vitaly
    @kuliev.vitaly  2 месяца назад +1

    github.com/kulievvitaly/rus_gpt_demo/blob/master/benchmark.py
    Вот ссылка на бенчмарк. Выкладывайте скорость работы на ваших серверах)

    • @jack.jay.
      @jack.jay. Месяц назад

      тВОй видос - есть обоснование для манагеров и руководства. Что - обычные серваки - уже не канают ;) )))

  • @yuliyabuynovsky1124
    @yuliyabuynovsky1124 3 месяца назад +15

    Нереально кайфанул от просмотра, пожалуйста, продолжайте.

    • @usssername5838
      @usssername5838 2 месяца назад +1

      Хочу присоединиться к комментарию! Какая-то часть непонятна из-за того, что не погружен в предметную базу, но общий концепт понятен. Три видео посмотрел на одном дыхании. Даже чувство такое приятное появилось, что ютуб может быть не только свалкой тик-ток видео)))

    • @jack.jay.
      @jack.jay. Месяц назад

      Если Вы при просмотре данного Видео кончили - у Вас профессиональная деформация. Обратитесь к Врачу! ;)

    • @jack.jay.
      @jack.jay. Месяц назад

      ​@@usssername5838 Если охота прям в ИИ ИИ по части теории - тебе к Разинкову (вбивай в поиск YT - точно на его канал попадёшь) - там офигенный цикл лекций с упором именно на теорию и метематику сеток. Сам там понимаю процентов 20-ть до конца. Но - мне достаточно, чтобы понимать, что это за "зверюги" такие - эти ваши "модельки". И почему и как они работают. И выдают то, что выдают. Как вообще такое возможно. Посмотрел - успокоился. Никакой магии. Чистая математика и перемножение матриц ;) )))

  • @Fenixtremo
    @Fenixtremo 2 месяца назад +5

    Топ контент! Нужно больше туториалов по приватным LLM. Это особенно актуально для гос. компаний и компаний с конфиденциальными данными

  • @mySchema
    @mySchema 23 дня назад +3

    Спасибо. Было интересно.

  • @kobalt17
    @kobalt17 3 месяца назад +9

    Давай больше такого! прям класс!

  • @Zeroxzed
    @Zeroxzed 2 месяца назад +2

    Хорошее видео. Ничего не знаю, про эксплуатацию нейросетей, но было интересно посмотреть на технические нюансы.

  • @htonych
    @htonych 2 месяца назад +2

    Как раз то что искал, спасибо

    • @ALMA_MILENA
      @ALMA_MILENA Месяц назад

      нахyй оно надо?

  • @DenShustrik
    @DenShustrik 2 месяца назад +17

    Хотел домой а100 купить 4 шт., глянул на такую смешную цену за одну шт. в 2 299 456 руб., вышел на улицу размышлять о жизни.

    • @inva-life
      @inva-life 2 месяца назад

      а на 4080 не пойдет?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Нет) нужно четыре карты a100 или h100

    • @dolotube
      @dolotube 2 месяца назад +1

      Эти карты еще и на рынке быстро разбирают, поэтому их у перекупов дороже обычного берут.
      Рассмотрите вариант без "соточек", вариант на Ryzen 9 7950X + RTX 3060 + 256 ГБ обойдется примерно в 350 тысяч.

    • @Fenixtremo
      @Fenixtremo 2 месяца назад

      А я думаю о новом Macbook Pro Max M4 с 512 GB RAM+VRAM. Как считаете, вывезет такой большие модели как Llama 405b?

    • @dolotube
      @dolotube 2 месяца назад

      @@Fenixtremo Для запуска 405b нужно 219 ГБ оперативки. Вопрос лишь в быстродействии - для обработки больших моделей становятся критичными мощные процы и видюшки. Если крутить на каком бы то ни было ноутбуке, то наверняка появится желание уйти на модель поменьше.

  • @СтранникАртрит
    @СтранникАртрит Месяц назад +1

    красава!

  • @steamcirl542
    @steamcirl542 2 месяца назад +10

    Виталий, в следующий раз когда захочешь потратить два косаря. Просто сообщи об этом - к тебе набегут в несколько потоков сказки про зеленых крокодилов генерировать. Искренне надеюсь, что твоя идея окупилась

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +2

      Это небольшая цена для теста столь мощного сервера) бенчмарк многопоточный я запускал.

  • @1234mifa
    @1234mifa 2 месяца назад +1

    Запустил на ПК модели 8б и 70б,на видеокарте 3060 12 Гб. Вторая версия разумеется работала со скрипом но не об этом речь) теперь хотелось бы как-то интегрировать работу нейронной сети в свой код, в тот же питон. Спросил об этом саму сеть она предложила вариант через некую библиотеку rasa , но в итоге у меня не получилось. Хотелось бы увидеть пример. К вопросу "а зачем это надо" скажу, что модно было бы накрутить обёртку которая позволила общаться с моделью голосом и а так же предоставить ей возможность запускать что-то на ПК.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      я использую pycharm и плагин codegpt.

    • @1234mifa
      @1234mifa 2 месяца назад

      @@kuliev.vitaly я увидел что вы всё-таки используете сервер и готовый плагин. Я же говорю о более упрощённом варианте, это локальный ПК и запуск желательно из терминала.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      На локальном ПК можно запустить нейросеть в режиме openai совместимого сервера. Плагин настроить на взаимодействие с локальным сервером. Vllm позволяет это сделать

    • @huistpo
      @huistpo Месяц назад

      Ollama есть библиотека на питоне, можно просто отправлять запрос на локальный сервер олламы

    • @1234mifa
      @1234mifa Месяц назад

      @@huistpo да, делал так.

  • @glavtrest
    @glavtrest Месяц назад +1

    Даёшь нейросеть на асиках!

  • @ПавелМинич
    @ПавелМинич 3 месяца назад +3

    Спасибо! Возможно интересный результат был бы с набором гпу-стэка из Тесла А2: модель всего на 16 Гб, но и стоит всего 16р, таким образом на добор того же объема надо 20 таких карт и это будет стоить меньше чем даже одна Н100 (20 карт * 16р = 320р). Проверим?

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      Да интересный вариант. Только количество карт в vllm должно быть кратно 2. Можно собрать сетап из 16 a10 на двух или четырех нодах. Будет чуть дороже, но и мощнее.

    • @inva-life
      @inva-life 2 месяца назад

      ​@@kuliev.vitalyесть 6 шт. gtx4080. мало?

  • @Игорь-ь7ф3ш
    @Игорь-ь7ф3ш 24 дня назад +1

    Спасибо за ролик. Арендовал у них оборудование-всё отлично. Прошу помочь советом. Я запускаю уних в среде Windows CoboldCPP на сборке 4х3090 модель 70B квантованную. Скорость при этом 0.5-0.8 токена/сек. Я всю голову сломал-почему такая низкая скорость? Если запускаю маленькую модель на одной 3090 то всё летает.

    • @kuliev.vitaly
      @kuliev.vitaly  23 дня назад

      С виндой у меня нет опыта. По идее через WSL можно запускать. Видел статьи, где такая схема работает.
      Для запуска рекомендую vllm в докере.

  • @СергейПетров-ц3ъ
    @СергейПетров-ц3ъ Месяц назад +1

    Кто-то может объяснить, что лучше работает - квантизованная 405B или полная 90B? На сколько я понимаю квантищация может привести к непредсказуемым последствиям, но тогда почему её предпочитают более маленькой сети?

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад +1

      Именно про эти размеры не скажу. По другим тестам могу скзать, что квантизованная большая модель обычно показывает лучшие результаты.

  • @ИванЕвдокимов-л6ь
    @ИванЕвдокимов-л6ь 2 месяца назад

    огонь

  • @jack.jay.
    @jack.jay. Месяц назад +1

    тВОй видос - есть обоснование для манагеров и руководства. Что - обычные серваки - уже не канают ;) )))

  • @pixniteofficial5085
    @pixniteofficial5085 2 месяца назад

    запишите видео про runpod как там подрубаться к api

  • @sdpsdp123dfs
    @sdpsdp123dfs 2 месяца назад +2

    Очень интересное видео. Расскажите, пожалуйста, какие данные обычно загружают при использовании такой нейросети? Цена за месяц немаленькая, интересно, что нейросеть должна сделать с данными, чтобы окупить затраты на сервер? Может быть у вас есть реальный пример использования?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      Пара примеров:
      1. разметка большого количества данных, которые ранее размечались в Толоке людьми. Стоимость ниже в разы, а качество ответов сравнимое.
      2. Генерация контента для сайтов - замена рерайтеров.

    • @wirtdonners4212
      @wirtdonners4212 2 месяца назад +2

      ​@@kuliev.vitalyтак себе задачки, если честно. Масштаб мышиной возни при таких мощностях. А сайты со сгенерированным контентом читать противно.

    • @АлексейСвищев-н7к
      @АлексейСвищев-н7к 2 месяца назад

      @@wirtdonners4212 можно базы знаний вести, графы онтологические строить, автоматизировать многие процессы в организации, произвести даджитализацию навыков сотрудников (которую в обычных условиях не произведешь), львиную долю кастуМЕРЗКОГО обслуживания автоматизировать.
      Но как по мне 405В для таких задач - оверкилл. Она слишком дорого обходится и оборудования дорогого требует. Для таких целей модели до 70 млрд параметров подойдут (их можно запускать на оборудовании, которое стоит на порядок дешевле, например квантованная 70b модель залезает на 24 гб 4090, сервера с которой в 10 раз дешевле серверов с а100 аналогичной производительности). Варианты есть опенсорсные.
      Либо слать свои данные на чужие API. Это а разы дешевле. Но не всегда возможно и не всегда приемлемо.
      Хотя запуск "голой" модели - это пол-беды. Вокруг нее нужно много всякой обвязки делать. Это интеллектуальное ядро группы сервисов, а не готовое решение для любых проблем. Построение и поддержка этих сервисов - дороговато будет стоить. Либо самому учиться и повышать стоимость своего дела.

  • @astroiLL2010
    @astroiLL2010 2 месяца назад +2

    Утилиту nvtop не используете? Очень наглядно нагрузку GPU смотреть.

  • @AlexP-fg3ci
    @AlexP-fg3ci 2 месяца назад +3

    Поясните пожалуйста за тарификацию. Например я арендовал и настроил такое чудо для своих личных экспериментов/работы, поигрался пару часов и закончил. Есть ли возможность не платить за простой? Типа потушил машину и пошел спать/гулять не боясь за свой кошелек.
    Это отчасти оффтоп, но всё равно буду благодарен если разъясните

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      Да, основная цена(около 800р в час) списываться не будет. У immerse cloud и других провайдеров останется плата за диск порядка сотни рублей в месяц. В любой момент можно снова запустить машину с этим диском и видеокартами.
      Также можно удалить диск и списания исчезнут. При новом заказе машины она будет пустая и нужно будет с нуля установить библиотеки и скачать веса.

    • @AlexP-fg3ci
      @AlexP-fg3ci 2 месяца назад

      ​​​@@kuliev.vitaly спасибо!
      Продолжая оффтопить хотел бы спросить есть ли у вас в планах рассказать как скармливать нейронке свои данные? Например код проектов
      Файнтюн (например qlora) vs rag. В идеале с примерами как в этом ролике и разъяснением преимуществ/недостатков и попутных затрат на это добро)

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      В планах есть видео про файнтюнинг(не для RAG) и про RAG системы.

    • @AlexP-fg3ci
      @AlexP-fg3ci 2 месяца назад

      @@kuliev.vitaly спасибо! Будем с интересом ждать)
      Коммента нет, потому что Ютуб иногда удаляет их без видимой причины :/

  • @Reklamnij_effekt
    @Reklamnij_effekt 3 месяца назад +13

    800 руб/час, это нужно прям очень серьёзные потребности иметь, чтобы за более худшую модель платить конские деньги🙂

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +4

      Это актуально, если нужна приватность или запуск на своем железе.

    • @mishanya1162
      @mishanya1162 3 месяца назад +2

      Это вроде сейчас лучшая опенсоурс модель
      Явно она не стоит рядом со всякими гпт4 и клодами, но все же
      Ну кстати, по бенчмаркам она довольно близка к закрытым моделям

    • @internetnickname8923
      @internetnickname8923 3 месяца назад +2

      Возьми свои данные, дообучи за 800/руб в час и получи свою лучшую модель за копейки по сравнению с затратами крупных ИИ компаний

    • @podvodnikk4562
      @podvodnikk4562 2 месяца назад

      любая разработка, сколь-либо новая с запросами сразу утекает поставщику услуги. В этой парадигме любые расходы мизерны. Риск менеджмент, однако

    • @АлександрНеважно-ш4г
      @АлександрНеважно-ш4г 2 месяца назад

      ​@@kuliev.vitalyвот вы и в названии и здесь опять вводите в заблуждение, не на своем сервере, а на дядином за 600 к в месяц. Свой это когда под боком стоит.

  • @sainthentai7763
    @sainthentai7763 3 месяца назад +2

    УУ он даже выпустил как такое запустить на своем серваке)

  • @ИгорьИгнатьев-ю6р
    @ИгорьИгнатьев-ю6р 2 месяца назад +2

    А можете команды все выложить по запуску? Заранее благодарю!

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Там просто докер установить нужно. В планах есть видео про vllm - там детальнее могу показать

  • @usssername5838
    @usssername5838 2 месяца назад +1

    Не подскажете, на vscode есть аналог codegpt? Расширение с таким же названием есть, но кажется оно не позволяет кастомную нейросеть прикрутить.

  • @IgorYegorkin
    @IgorYegorkin 16 дней назад +1

    Что лучше - 2 штуки 3070 или просто CPU с 64 ГБ RAM?

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад +1

      видеокарты на порядок быстрее. на процессоре памяти больше. зависит от потребностей

    • @IgorYegorkin
      @IgorYegorkin 15 дней назад +1

      @@kuliev.vitaly llama3.1 405b весит 229 GB, значит можно в домашний комп поставить 256 GB RAM и она пойдёт? Игровая микро-ATX плата MSI B650M уже поддерживает столько оперативы DDR5, это просто чудо. И планки DDR5 по 64 ГБ появились. Для опытов особая скорость не нужна, лишь бы работало.

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      Да это квантизация в 4 бита. Еще нужно место для вычислений. Возможно получится установить на этом железе.
      Рекомендую меньшую модель, например qwen2.5 72b

  • @meroniuss
    @meroniuss 2 месяца назад +2

    Классно! Большое спасибо за обзор. Еще хотел уточнить. А какие минимальные требования должны быть к серверу чтобы запустить на нем llama 405? Так же на 0:20 в списке фигурирует GPT-4o mini. стоимость ее API составляет $0.60 за 1 M токенов. Получается если нужна API, то дешевле будет использовать GPT-4o mini. Так получается?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      Да. Если не требуется огромного количество запросов и нет требований к приватности данных, то дешевле использовать API сервисы.

    • @dolotube
      @dolotube 2 месяца назад

      @@kuliev.vitaly Как сочетаются требования к приватности с арендой чужих серверов?

  • @Nyyuuii
    @Nyyuuii 3 месяца назад +2

    Можно ли запустит версию на 40 гиг на своем компе? Комп: GTX 1070. 2x 8gig озу

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +1

      Нет. Хотя бы в оперативку нейросеть должна поместиться. Используй АПИ для доступа к нейросети.

  • @vandriichuk
    @vandriichuk 3 месяца назад +1

    А можно ли добавлять там защиту эндпоинта, чтобы только я могу туда стучаться? И еще вопрос - а есть у Вас опыт дообучения моделей под свои задачи на своих данных? Если есть, не планируете ли записать видео? )

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +2

      Опыт есть, видео планирую)

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      Возможно защита через ключ есть. Посмотрите Документацию

    • @wirtdonners4212
      @wirtdonners4212 2 месяца назад

      Докиньте на сервер VPN и будет щастя.

  • @Sergey_Bobrov
    @Sergey_Bobrov 2 месяца назад +6

    А какая тут приватность, если все твои данные уходят на чужие сервера, это тоже самое, что использовать API.
    Приватно только на своем железе.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Верно. Этот же самый тест есть возможность запустить на своем железе.

    • @wirtdonners4212
      @wirtdonners4212 2 месяца назад +2

      Ну по крайней мере это ваш арендованный сервер. Вы на него логинитесь и можете использовать VPN. А вообще вы можете зашифровать разделы на сервере. Да, доступ теоретически возможен и в этом случае, но это уже только целенаправленный интерес в вашу сторону.

    • @wirtdonners4212
      @wirtdonners4212 2 месяца назад +1

      В любом случае это лучше црушного гугла

    • @drimscape
      @drimscape Месяц назад

      @@wirtdonners4212 у меня нет проблем с цру. ты бы лучше гэбню боялся. гугл лучше любого российского сервиса. россиянам как раз нужно сидеть на цру сайтах вотсап, ютуб.
      вот телеграму, яндексу и вк доверять нельзя - эти по первому щелчку все сольют плюс нет никакой приватности и шифрования. вотсап в десять раз безопаснее телеграма, end to end шифрование, нет сотрудинчества с гебней

  • @rybiizhir
    @rybiizhir 3 месяца назад

    Неплохо, а можно это использовать для генерации исходного кода?

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      Да. Я использую плагин codegpt для pycharm.

  • @grandlagging0zero175
    @grandlagging0zero175 3 месяца назад +5

    Мне показалось или справа 3:17 стоимость сервера в месяц 600к=?????

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +2

      Верно. 800р в час с посекундной тарификацией столько и будет стоить. Если сразу от месяца снимать, то есть скидки до 50%. Серверные видеокарты дорогие сейчас. Высокий спрос определяет стоимость видеокарт и на фоне этого капитализация nvidia рекордная.

    • @grandlagging0zero175
      @grandlagging0zero175 3 месяца назад +1

      @@kuliev.vitaly разве тогда не выгодней завести свой сервер? возможно стоит рассмотреть вопрос экономики нейросетей в отдельном видео? было бы классно такое узнать!

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +2

      Одна видеокарта nvidia A100 80ГБ стоит 1.5-2.0млн рублей. Серверные видеокарты дорогие и 300к(600к -50%) такой сервер с 4gpu стоит. Есть игровые видеокарты - они дешевле, но у них есть свои огранечения.

    • @grandlagging0zero175
      @grandlagging0zero175 3 месяца назад

      @@kuliev.vitaly вау...вот это они стоят конечно :( теперь мне стало даже интереснее посмотреть видос про экономику с доступом к таблице Excel, где будут все данные :)

    • @sovenok-hacker
      @sovenok-hacker 2 месяца назад

      @@kuliev.vitaly С использованием GGML-квантизации можно на обычных, не серверных запустить думаю

  • @256bobus
    @256bobus Месяц назад

    Привет, сестра пишет книги "женские романы" и как полагается в них есть тексты 16+ и немного 18+. Было бы очень круто если б показал как настроить модель отключив в ней цензуру, а лучше как создать из своих текстов свою модель, без каких либо ограничений и цензуры. (С удовольствием бы зодонатил бы за такое видео)

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      Расцензуривание делается с помощью файнтюнинга. Веса нейросети немного изменяются и она начинает отвечать на запрещенные темы. На huggingface есть варианты таких моделей. Ищи по слову "uncensored". Запуск такой модели ничем не отличается от примера в видео - нужно просто подставить нужное название модели.

  • @vitall789
    @vitall789 3 месяца назад +1

    Что действительно для генерации одного токена, нужно пройти все веса?

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +1

      Да. так устроены llm

  • @createforpeople
    @createforpeople 2 месяца назад +2

    Когда печатаешь x2, потому что 800р/час 😅

  • @ЕвгенийБорзенков-м4и
    @ЕвгенийБорзенков-м4и 3 месяца назад +1

    Познавательно! А как дообучить ИИ на своих данных? Например, есть 10000 документов с разными шаблонами оформления., как сделать, чтобы он оформлял текст исходя из этих шаблонов? Говоришь ему - составь договор по такому то типу номер 25. Не хочется каждый раз прикреплять эти тысячи шаблонов, хочется один раз подгрузить их и чтобы он запомнил это. Такое возможно?

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +3

      Дообучение возможно, но сложно сделать так, чтоб нейросеть отвечала, как тебе нужно. Для твоей задачи есть RAG система. Планирую видео про RAG записать.

    • @ЕвгенийБорзенков-м4и
      @ЕвгенийБорзенков-м4и 3 месяца назад

      @@kuliev.vitaly да было бы интересно посмотреть как это настроить, и сколько своих данных максимаьно можно добавить. Например если документов много - 10гб, это вообще возможно или нет...

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад

      Это только практика покажет.

    • @Parsecter
      @Parsecter 3 месяца назад

      ​​​@@ЕвгенийБорзенков-м4и документы токенизируются и токены добавляются в векторную базу. Потом вместе с запросом к LLM к этой базе делается запрос в векторную базу и ответ примешивается к запросу к LLM. Т.е. да, работать будем, но к качеству тут уже надо пробовать разные токенезатроры, способы делить данные и пр. Как сказано выше, тут уже практика

    • @huistpo
      @huistpo Месяц назад

      На хабре была статья как обучать ламу на своих данных

  • @АлексейСвищев-н7к
    @АлексейСвищев-н7к 2 месяца назад +1

    Athene-70B будет раза в 3 - 4 дешевле за токен, да и вообще, для нее а100 не обязательно, можно и на 4090 запускать. Это в разы дешевле. Можно даже не арендовать, а разориться на свой сервер за 300-400 к (а не 4-5 млн за А100 и иже с ними).
    А по качеству она 405B в большинстве задач не уступает. При этом в диалоге и следовании инструкций даже лучше будет.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Athene-70B это дообученная llama 3 70b. У нее контекст 8к. Llama 405b по качеству явно лучше будет и контекст у нее 128к.
      С другой стороны 70b моделей для многих применений достаточно. Квантизация от 4 бит. Для минимального запуска достаточно 2 карт уровня 3090/4090.

    • @АлексейСвищев-н7к
      @АлексейСвищев-н7к 2 месяца назад

      @@kuliev.vitaly в 4 бита на одну влезает. Там вопрос длины контекста и необходимого количества токенов в секунду.
      Сейчас целый ряд фреймворков разрабатывают, в том числе опенсорсных, для удобного сайзинга LLM на несколько дешевых GPU или TPU.
      Athene дообучена в RLHF и лучше справляется со сложными промптами, лучше следует инструкциям и ведет себя в диалоге.
      Вообще большинство выложенных моделей чудовищно недообучены на инструктивных данных. Добавление синтетических инструкций в обучение - один из основных способов улучшения моделей сейчас.
      Потенциал у 405b выше, но в реальных задачах его будет трудно выжать.
      Лучше приложить несколько десятков человекочасов усилий и настроить работу 70b (включая легкий тюнинг), чем мучиться с более универсальной но по сути неповоротливой 405b.
      Я бы ее только для генерации данных использовал для тюнинга других моделей. В кастумерЗких задачах - это сорить деньгами.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      4 бита 70b модель весит в районе 38-40гбайт. Для игровых карт 3090/4090 видеопамять 24гб. Без выгрузки в оперативку модель на видеокарту никак не влезет.

    • @АлексейСвищев-н7к
      @АлексейСвищев-н7к 2 месяца назад

      ​@@kuliev.vitaly комбинация GPTQ и GGML или GGUF с подгрузкой. Конечно, это замедляет, но жить можно. Примерно 20гб потребляет видеопамяти.
      GPTQ формат в "честном" 4бит GPU инференсе где-то 40гб съест. Ждем карточки кастумерские на 40+ гб. Очень.
      Пока можно на 2ух 4090 крутить или гибридно. Но в гибриде просадка по токенам будет большая, в 2-3 раза.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      по слухам 5090 будет иметь 28гб. нвидии не выгодно делать много оперативки в игровых картах - им выгодно продать эту же самую карту по цене серверной.

  • @Робот-ю1к
    @Робот-ю1к Месяц назад +1

    800 р час не для домашнего использования)

  • @qefyr
    @qefyr 2 месяца назад

    И сколько этот сервер ламакоинов копает?

  • @sdfasdfssdfsdf
    @sdfasdfssdfsdf Месяц назад +2

    Зачем выбираешь видеокарты с 4-я видеокартами 320 Гб видеопамяти 🤯 ? Ты снял видео для больших компаний или для обычных пользователей??? Разве для личного пользования нельзя было выбрать более оптимальный и бюджетный вариант? 😁

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      большие компании используют карты A100 и дороже.

  • @neoppanda
    @neoppanda 2 месяца назад

    ~11 млн машинка будет стоить . Ищу вакансию в той фирме которая купит таких 10 шт. 😊

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Я работаю в Wildberries. У нас значительно больше видеокарт, чем ты назвал. Приходи к нам)

    • @ALMA_MILENA
      @ALMA_MILENA Месяц назад

      @@kuliev.vitaly Wildberries помойка

  • @AdskiyVolk
    @AdskiyVolk 2 месяца назад

    Какой сетап сервера для этой модели оптимален?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      2 ноды по 8X H100 хорошо должны работать

  • @sainthentai7763
    @sainthentai7763 3 месяца назад +3

    хочу быть мидл разработчиком, да блин просто челом с зп в 100-200к для такого веселья)

    • @wirtdonners4212
      @wirtdonners4212 2 месяца назад

      100к не хватает, братан. Я проверял😂😂😂.

  • @donkarleone7336
    @donkarleone7336 2 месяца назад

    Видео годное! Но есть нюансы. Т е. Цукер как обычно нае@ал, чтобы развернуть нейронку, надо баблишко на сервер, но у таких энтузиастов (новичков), как я, запросов данных и обработки, нет таких масштабов и загруженности, т е дешевле заплатить на месяц абонплату и решить свои мелкие задачи. А еще за свои деньги обучать ее, то цукер, тут нагнул всех. Бесплатное улучшение его продукта, чтобы через пару лет сделать его коммерческим и конкурентным. А я тут губу раскатал, что потрачу время и вближайшие годы облегчит жизнь и оптимизируеь мое время, а тут з@лупа.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      бери 70б или 8б нейронку, которую сможешь на своем железе запустить.

  • @holingdev1737
    @holingdev1737 2 месяца назад +2

    За минимальную версию 600к в месяц... Меня жаба душит vps за 400 рублей для vpn покупать в месяц 😅

    • @vadmit2227
      @vadmit2227 2 месяца назад

      если бы ты работал с организациями - другой разговор был бы...

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Если нужен впн, то у меня есть телеграм бот для этого случая.
      t.me/hour_vpn_bot

  • @jack.jay.
    @jack.jay. Месяц назад

    Если охота прям в ИИ ИИ по части теории - Вам к Евгению Разинкову (вбиваете в поиск YT - точно на его канал попадёте) - там офигенный цикл лекций с упором именно на теорию и метематику сеток. Сам там понимаю процентов 20-ть до конца. Но - мне достаточно, чтобы понимать, что это за "зверюги" такие - эти ваши "модельки". И почему и как они работают. И выдают то, что выдают. Как вообще такое возможно. Посмотрел - успокоился. Никакой магии. Чистая математика и перемножение матриц ;) )))

  • @дикий-ь2с
    @дикий-ь2с 3 месяца назад +1

    Здравствуйте. А как вызывать через api, есть какая-то обертка?

  • @nicnicola8816
    @nicnicola8816 Месяц назад +2

    Марк Цукерберг и его компания Meta столкнулись с несколькими значительными скандалами:
    1. Утечка данных Cambridge Analytica: В 2018 году выяснилось, что данные миллионов пользователей Facebook были неправомерно использованы для политической рекламы.
    2. Распространение дезинформации: Meta подвергалась критике за недостаточную борьбу с дезинформацией, особенно во время выборов.
    3. Проблемы с конфиденциальностью: Постоянные вопросы о сборе и использовании пользовательских данных вызывали обеспокоенность у пользователей и регуляторов.

  • @lortta
    @lortta 2 месяца назад

    Какие характеристики нужно для него

  • @ParadiseIn-c6m
    @ParadiseIn-c6m 2 месяца назад

    И зачем это нужно? 200 гб видеопамяти.... Чтобы обмениваться туповатыми фразами с роботом? Совершенно бесплатно использую GPT когда мне это нужно...

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      значит тебе не нужно

    • @ParadiseIn-c6m
      @ParadiseIn-c6m 2 месяца назад

      @@kuliev.vitaly абсолютно...

  • @electricsupercars1978
    @electricsupercars1978 25 дней назад

    Очень интересно
    Зачем чтобы печатать текст
    Нужна видио память
    Хрень какая то
    Короче майнинг
    То есть на вас майнят ( токены)
    А вы еще и платите

  • @phat80
    @phat80 3 месяца назад +2

    Знает, что для РФ недоступно должно быть все это и все равно лезет… не люблю наглых людей.

    • @jijiDwuv
      @jijiDwuv 3 месяца назад +7

      Чё 😂

    • @kuliev.vitaly
      @kuliev.vitaly  3 месяца назад +4

      LLama открыта для всех в том числе для России. Никаких ограничений нет.

    • @phat80
      @phat80 3 месяца назад

      @@kuliev.vitaly Но сам говорит, что если вам недоступно скачивание, скачивайте через VPN.

    • @phat80
      @phat80 3 месяца назад

      @@kuliev.vitaly Перепроверил, скачивание Llama 3 закрыто для РФ и Китая. И не просто так.

    • @wirtdonners4212
      @wirtdonners4212 2 месяца назад

      Ты ещё скажи, что виндой пирацкой пользоваться нельзя?!