Видео 78
Просмотров 354 167

Протестировал видеокарты nvidia 3090, 4090, A100 в задаче инференса нейросети Llama 70b.

8:06

Компьютер для нейросетей. 5x3090ti, 48cpu, 512gb ram.

8:08

Запуск Llama 405b на своем сервере. vLLM, docker.

17:24

Llama 3.1 - лучшая открытая нейросеть. Обзор и сравнение с gpt4o.

9:37

Топ советов по выбору видеокарты для машинного обучения и инференса нейросетей(LLM)?

19:30

Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.

10:55

Нейросеть + 1С. RAG системы для бизнеса

Retrieval augmented generation (RAG) используется для ответа на пользовательские запросы с учётом актуальной информации. RAG-системы позволяют генерировать более точные ответы, комбинируя запросы к большим языковым моделям (например, ChatGPT, Llama) и доступ к актуальным данным, таким как документация, векторные базы и API в проекте. RAG становится неотъемлемой частью поддержки пользователей и может значительно улучшить качество сервиса. Шаги для внедрения rag системы приведены в последней части видео.
Арендую сервера здесь:
immers.cloud/signup/r/20240522-6407208-835/
Мой телеграм канал:
t.me/vitaly_kuliev_it
В rutube дублирую видео. Подписывайтесь на случай закрытия ютуба:
rutube.ru/channel/23...

Видео

8:06

Протестировал видеокарты nvidia 3090, 4090, A100 в задаче инференса нейросети Llama 70b.

Просмотров 3,5 тыс.Месяц назад

Сравнительный тест видеокарт для работы с нейросетями, на примере модели LLaMA 70B awq на 4 бита. Список видеокарт: 3090, 3090ti, 4090, A100 и H100. В тестировании участвуют личный сервер с 3090ti и арендованные серверы с остальными видеокартами. Видео будет полезно тем, кто занимается нейросетями и хочет узнать, какие видеокарты эффективнее использовать для инференса нейронных сетей. Скорость ...

Компьютер для нейросетей. 5x3090ti, 48cpu, 512gb ram.

8:08

Компьютер для нейросетей. 5x3090ti, 48cpu, 512gb ram.

Просмотров 8 тыс.2 месяца назад

Последние нейросети требуют большого количества вычислений и для этой задачи я решил пересобрать свой сервер. Сейчас используется серверная материнская плата, процессор на 48 ядер, 512гб оперативной памяти и 5 видеокарт nvidia rtx 3090 ti. Сервер подходит для запуска нейросетей с количеством параметров около 100 миллиардов(Llama 70b, Mistral Large 2407, NVLM ...) GPU сервера immers.cloud. Испол...

Запуск Llama 405b на своем сервере. vLLM, docker.

17:24

Запуск Llama 405b на своем сервере. vLLM, docker.

Просмотров 15 тыс.3 месяца назад

Детально показываю, как запустить самую мощную открытую нейросеть Llama 405b на своем сервере. Описание модели Llama 405b на сайте Meta* llama.meta.com/ Сервер покупал тут: immers.cloud/signup/r/20240522-6407208-835/ Прикладная конференция по Data Science AI conf 2024: aiconf.ru/2024 Описание модели Llama 3.5 405b instruct AWQ на huggingface: huggingface.co/hugging-quants/Meta-Llama-3.1-405B-In...

Llama 3.1 - лучшая открытая нейросеть. Обзор и сравнение с gpt4o.

9:37

Llama 3.1 - лучшая открытая нейросеть. Обзор и сравнение с gpt4o.

Просмотров 16 тыс.4 месяца назад

Нейросеть Llama 3.1 - лучшая открытая нейросеть на данный момент. В видео рассматривается обновление нейросети, сравнение ее метрик с предыдущей версией и другими популярными нейросетями, такими как gpt4o и claude 3.5 sonnet. Также демонстрируется работа нейросети на практических примерах, включая написание кода и ответы на вопросы. Модели на huggingface: huggingface.co/collections/meta-llama/l...

Топ советов по выбору видеокарты для машинного обучения и инференса нейросетей(LLM)?

19:30

Топ советов по выбору видеокарты для машинного обучения и инференса нейросетей(LLM)?

Просмотров 2,9 тыс.4 месяца назад

Обсуждение основных параметров видеокарт в задачах тренировки и инференса нейросетей. Практические советы по выбору видеокарт и других параметров компьютера. Аренда GPU серверов. В этом выпуске мне поможет Руслан, который расскажет о тренировке нейросетей, а я объясню, какие параметры важны для инференса LLM. Упоминание нейросетей: llama 3 8b/70b, gemma 2... Сравнение видеокарт nvidia: a100, h1...

Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.

10:55

Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.

Просмотров 3 тыс.5 месяцев назад

Делюсь своим опытом построения домашнего компьютера, специально предназначенного для запуска нейросетей. Основная нейросеть для запуска - Lama 3 70b instruct, качество которой сравнимо с ранними версиями GPT-4. В этой сборке используется 3 видеокарты 3090ti. GPU сервера immerse cloud: immers.cloud/signup/r/20240522-6407208-835/ Большой тест видеокарт: ruclips.net/video/UB9KAYsYUQQ/видео.html По...

Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...

20:47

Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...

Просмотров 3,9 тыс.5 месяцев назад

В этом видео массовое тестирование видеокарт для нейросетей. В тесте участвуют две нейросети: Llama 3 8b и Llama 3 70b. Тестируются игровые видеокарты разных поколений: Nvidia RTX 4090, RTX 3090, RTX 3090 ti, RTX 2080 ti. Среди серверных карт тестируются Nvidia A100, Nvidia H100. GPU сервера immerse cloud: immers.cloud/signup/r/20240522-6407208-835/ Бенчмарк из видео для тестирования: github.co...

rus-gpt.com сервис для инференса llama 3. Программируем с CodeGPT плагином в pycharm.

12:04

rus-gpt.com сервис для инференса llama 3. Программируем с CodeGPT плагином в pycharm.

Просмотров 1,6 тыс.6 месяцев назад

rus-gpt.com сервис для инференса llama 3 и доступа по API. В видео даны инструкции как получить доступ к сервису и использовать API для программирования в pycharm. На данный момент сервис бесплатен для пользователей и его функционал расширяется. Пример на гитхаб: github.com/kulievvitaly/rus_gpt_demo Телеграм бот для получения ключей: t.me/rusgptcom_bot Сайт проекта: rus-gpt.com/ Мой телеграм ка...

Llama 3 - лучшая открытая нейросеть. Узнай как использовать эту модель.

13:29

Llama 3 - лучшая открытая нейросеть. Узнай как использовать эту модель.

Просмотров 14 тыс.6 месяцев назад

В этом видео мы рассмотрим новую нейросеть компании META, LLama 3, выпущенную в апреле 2024 года. LLama 3 - это открытая модель, доступная для коммерческого использования, которая показывает высокие результаты. Модель выпущена в двух вариантах с 8 и 70 млрд весов. Мы обсудим преимущества использования инструкт модели, сравним её с конкурентами и рассмотрим её отличительные особенности. Также мы...

3:06

Тестируем 5G интернет. Какая скорость?

Просмотров 1,4 тыс.7 месяцев назад

В этом видео тестируем скорость 5G интернета в Таиланде. Узнайте, насколько быстро работает 5G! Когда появится в России?

Dreame l20 ultra. Распаковка и первое включение.

18:38

Dreame l20 ultra. Распаковка и первое включение.

Просмотров 13 тыс.Год назад

Распаковка и первое включение нового робота пылесоса dreamebot l20 ultra complete. Стоимость в России: около 100к рублей. Описание на сайте производителя: ru.dreametech.com/catalog/robot-pylesos-dreame-l20-ultra-white/ Телеграм бот Hour VPN: t.me/hour_vpn_bot?start=dreamebot Таймкоды: 0:00 Распаковка 2:09 Обход блокировок 3:06 Обзор робота 6:13 Обзор расходников 7:15 Обзор базовой станции 11:41...

9:45

Из голоса банка - в фильмы 18+

Просмотров 1,5 тыс.Год назад

Мое мнение о технологиях синтеза голоса и конфликте между Аленой Андроновой и банком Тиньков. Как устроено копирование голоса? Возможна ли идентификация человека по голосу? Какие профессии будут заменены роботами? Видео Алёны: ruclips.net/video/xfhPMKpPQng/видео.html&ab_channel=HollyForve Таймкоды: 0:00 Алена Андронова 0:13 Обзор технологий 1:47 Юридические вопросы 3:07 Петиция о внесении право...

Регистрируем ChatGPT в России. Краткая инструкция.

4:34

Регистрируем ChatGPT в России. Краткая инструкция.

Просмотров 1,5 тыс.Год назад

Видеоинструкция как зарегистрироваться в сервисе ChatGPT от OpenAI из России. Ссылка для регистрации: chat.openai.com/auth/login Телеграм бот Hour-VPN: t.me/hour_vpn_bot?start=youtube Сервис для аренды виртуального номера: onlinesim.io/?ref=4770052

Обход блокировок VPN в России. Outline в телеграм боте Hour VPN

2:33

Обход блокировок VPN в России. Outline в телеграм боте Hour VPN

Просмотров 11 тыс.Год назад

В этом видео мы рассмотрим блокировку протоколов WireGuard и OpenVPN, которая произошла недавно в России. Разберем, почему эти протоколы были заблокированы и какие VPN-приложения перестали работать из-за этого. Мы также обсудим протоколы Shadowsocks и Outline. Мой телеграм бот(Hour VPN) для настройки VPN: t.me/hour_vpn_bot Инструкция по настройке своего Outline сервера: ruclips.net/video/UgrC20...

Выбор видеокарты для ML: Nvidia compute capability

5:23

Выбор видеокарты для ML: Nvidia compute capability

Просмотров 4 тыс.Год назад

Выбор видеокарты для ML: Nvidia compute capability

Новости ML. Nvidia VSR, генерация видео, языковые модели.

5:52

Новости ML. Nvidia VSR, генерация видео, языковые модели.

Просмотров 862Год назад

Новости ML. Nvidia VSR, генерация видео, языковые модели.

Аналог chatGPT работает на ноутбуке! Выложили нейросети LLaMA и Alpaca. Инструкция по установке.

5:13

Аналог chatGPT работает на ноутбуке! Выложили нейросети LLaMA и Alpaca. Инструкция по установке.

Просмотров 10 тыс.Год назад

Аналог chatGPT работает на ноутбуке! Выложили нейросети LLaMA и Alpaca. Инструкция по установке.

Метод Монте Карло в Data Science. Численно решаем вероятностные задачи.

12:55

Метод Монте Карло в Data Science. Численно решаем вероятностные задачи.

Просмотров 982Год назад

Метод Монте Карло в Data Science. Численно решаем вероятностные задачи.

12:28

Где арендовать VPS сервер в 2023 году?

Просмотров 24 тыс.Год назад

Где арендовать VPS сервер в 2023 году?

18:10

Не используйте асинхронный python!

Просмотров 1,3 тыс.Год назад

Не используйте асинхронный python!

Видеокарты RTX 4090/4080 для тренировки нейросетей. Сравнение с конкурентами.

9:08

Видеокарты RTX 4090/4080 для тренировки нейросетей. Сравнение с конкурентами.

Просмотров 4,8 тыс.2 года назад

Видеокарты RTX 4090/4080 для тренировки нейросетей. Сравнение с конкурентами.

13:46

Тестируем быстродействие python 3.11

Просмотров 1,2 тыс.2 года назад

Тестируем быстродействие python 3.11

Новости ИИ октябрь 2022. Stable diffusion, nvidia RTX 4090, CPU AMD/intel, Ethereum POS.

8:51

Новости ИИ октябрь 2022. Stable diffusion, nvidia RTX 4090, CPU AMD/intel, Ethereum POS.

Просмотров 5522 года назад

Новости ИИ октябрь 2022. Stable diffusion, nvidia RTX 4090, CPU AMD/intel, Ethereum POS.

4:26

Hour VPN публичный запуск

Просмотров 1,6 тыс.2 года назад

Hour VPN публичный запуск

Основы работы с базами данных в python. Postgresql, Sqlalchemy, PgAdmin.

17:57

Основы работы с базами данных в python. Postgresql, Sqlalchemy, PgAdmin.

Просмотров 9 тыс.2 года назад

Основы работы с базами данных в python. Postgresql, Sqlalchemy, PgAdmin.

10:17

Модуль pexpect и pysftp.

Просмотров 3832 года назад

Модуль pexpect и pysftp.

5:02

Мой VPN сервис. Hour vpn.

Просмотров 2,5 тыс.2 года назад

Мой VPN сервис. Hour vpn.

10:26

4 обязательные части любого ИИ проекта

Просмотров 9162 года назад

4 обязательные части любого ИИ проекта

Code Royal 2022 - соревнование по созданию искуственного интеллекта. Russian AI cup 2022.

5:24

Code Royal 2022 - соревнование по созданию искуственного интеллекта. Russian AI cup 2022.

Просмотров 5002 года назад

Code Royal 2022 - соревнование по созданию искуственного интеллекта. Russian AI cup 2022.

@voyauger 3 часа назад
А ви в своїй практиці тренування ai моделей не використовуєте NVIDIA TensorRT?
@bikeonoor4006 14 часов назад
Виталий, тогда еще вопрос. Мы увидели на тестах, что есть серьезная разница в производительности в случае использования нескольких карт на локальном компьютере. Возможно узкое место в скорости обмена данными между ними или алгоритмах распараллеливания. С одной картой всё ясно приоритет 4090 или 3090ti, но возможно для нескольких карт был бы оптимальным вариант с несколькими 4000 с 16 Гб (с учетом цены)? Есть ли у вас возможность взять на время такие карты и провести тесты на вашем 5 карточном серевере? Спс.
@kuliev.vitaly 4 часа назад
В описании к видео есть ссылка на имерс клауд. Там можно взять разные видюхи с посекеундной оплатой и протестировать. 3090 имеет больше памяти - лучше ее взять
@Япохожнакота 2 дня назад
По цене 1 RTX4090 можно взять 4 RTX4060ti с 16 гб это будет 64 гб против 24. В топовых видюхах для нейронок нет смысла.
@kuliev.vitaly 4 часа назад
Оверхед на синхронизацию данных будет между 4 видеокартами. В десктопную материнку не воткнешь 4 видеокарты, нужно на серверную переходить и это дороже. Лучше 2 3090 взять.
@bikeonoor4006 3 дня назад
Приветствую. А есть возможность удешевить сборку, использую китайские Зеоны? Есть ли варианты с Зеонами и серверными МБ с 5+ слотами PCI-Express 3, 4? Спасибо.
@kuliev.vitaly 3 дня назад
Можно, только производительность ниже будет. У меня похоже в скорость процессора упирается - планирую улучшать.
@bikeonoor4006 3 дня назад
Видел несколько тестов, где 3090ti опережала 4090 в задачах ИИ (к сожалению не смог найтииссылки). Что можете сказать о производительности вышеисследованных карт в варианте одной карты в компьютере?
@kuliev.vitaly 3 дня назад
4090 мощнее во всем. Скорее всего различие связано с другими комплектующими или версиями библиотек.
@ДмитрийПервушин-в9ш 3 дня назад
куча P106-100 (10xx серия) не пойдет? У них ФЛОПСЫ только в формате FP32 рабочие, FP16 уже на пару порядков меньше, а тензорных ядер вообще нет. эхх, такой халявный план сорвался) Кстати, виталий, а тензорные участвуют в работе? Как их количество и поколение влияет на обучение, или работе с LLM, и вообще снейронками (просто цифровыми, например)?
@kuliev.vitaly 3 дня назад
тензорные ядра участвуют в работе. старые теслы имеют малую производительность. еще они устаревают и часть софта их не поддерживает. Можете использовать если только нет возможности купить более новое железо. по этим причинам они такие дешевые.
@happyswing 7 дней назад
Что такое vps и зачем он нужен ? Мол vps + vpn wireguard и можно смотреть RUclips без ограничений? А если использовать платный vpn, то могут заблокировать? Короче я вообще нифига не понимаю, помогите.
@kuliev.vitaly 6 дней назад
@hour_vpn_bot вот мой телеграм бот с впн. В нем можно сделать ключи. vps - сервер, который арендуется и на нем можно поднять впн сервер. wireguard протокол часто блокируется, лучше другие протоколы использовать
@СтепанМинаев-е3д 7 дней назад
Super! Nice!
@moHAXmoHAX 7 дней назад
А как устанавливать доп пакеты на удаленный интерпретатор? pip install ___?
@kuliev.vitaly 7 дней назад
да
@moHAXmoHAX 7 дней назад
@@kuliev.vitaly а ели в докере? Не получается =(
@kuliev.vitaly 6 дней назад
нужно докер контейнер пересобрать с нужными бибилиотеками. в докерфайл добавь установку нужных программ и пересобери образ.
@ekertn7 8 дней назад
Подскажите пожалуйста, я запускаю llama 3.1:70b на конфиге 64гб озу + 4070ti super (16гб). Модель занимает 40гб озу и 16 видеопамяти. Работает достаточно медленно. Вопрос - она ведь использует все веса для генерации ответов, или только те, что поместились в видеопамять? Правильно ли я понимаю, что она использует частично видеокарту и частично процессор+озу?
@МимоПроходил-о8г 8 дней назад
А кстати, думаю на что заменить 2060s 8gb, на 3080ti 12gb или 4070tis 16gb? Что думаете?
@kuliev.vitaly 7 дней назад
Лучше ту, где памяти больше. В идеале 3090/3090ти с 24гб
@kuliev.vitaly 7 дней назад
При шаринге весов в оперативную память - будет работать медленно. Узкое место это скорость оперативной памяти.
@SKIF_KA 10 дней назад
Маловероятно, но вдруг. Райзеры бывают pci express 3.0 и 4.0. Убедитесь что ваш поддерживает 4 поколение. Простой способ проверить - скачать gpu-z
@kuliev.vitaly 10 дней назад
4 поколение.
@SuperDarkscorp 11 дней назад
Планирую собрать HPC кластер с 10ю картами Tesla k80, суммарно будет 240гб видео памяти, подскажите , не упускаю ли я что-то?
@kuliev.vitaly 10 дней назад
Карта уже очень старая и относительно слабая. Некоторые новые технологии на ней не поддерживаются. Если хотите LLM запускать через vLLM, то количество карт должно быть степенью 2. Из 10 карт получится только 8 использовать для инференса.
@OliinykO 13 дней назад
День добрый Виталий. Как с вами связаться? Я, к сожалению не программист, но активно использую AI Cloud 3.5 Sonnet для создания скриптов параметрических моделей геометрических объектов. Основная проблема работы с Cloud - я не имею возможность её обучать, у меня очень узкий спектр задач касающийся конкретных SDK и API и Cloud с ними глубоко, как я вижу, не знаком, а загрузить в него все эти знания из свободного доступа я не могу. Я пересмотрел ваши видео с Llama и так понимаю, что эту модель можно установить у себя на сервере и обучить своим конкретным задачам. Но я с этим не справлюсь, у меня совсем другая специальность. Не могли бы вы на коммерческой основе мне в этом помочь? Или может подскажете к кому обратится с подобной просьбой - обучить модель под мои задачи и помочь её правильно разместить. При очень не большом круге задач возможно модель может работать на локальном компьютере?
@kuliev.vitaly 13 дней назад
Попробуйте в промпт добавить нужные инструкции, которые модель плохо понимает. Дообучение нейросети на написание специфического кода - это исследовательская задача на несколько недель без гарантии хорошо работающего результата. Не готов взяться за эту задачу. 3.5 sonnet - одна из лучших платных нейронок для написания кода.
@OliinykO 11 дней назад
Спасибо за ответ Виталий. Да, Cloud 3.5 Sonnet в самом деле лучшая. Но даже имея Групповой аккаунт на 5 человек и создавая общий проект и вкладывая в архив проекта возможный объём документации и инструкцию подробную, я испытываю всё равно трудности. При интенсивной работе с кодом сессия одного акаунта заканчивается не более чем через два часа. Приходится начинать новую, зайдя со второго акаунта и так далее. И все было бы круто, если бы Cloude помнил контекс предидущего обсуждения, а он не помнит. Да, архив с документами помогает, но туда всего не запихнешь. И получается, что если сессия закончилась на горячем обсуждении какой то проблемы - нужно копировать всю эту часть беседы и вставлять это в новую, иначе всё с нуля. По этой причине эффективная работа в течении одной сессии не более полутора часов. Ну и жалко стрелять по воробьям из пушки, если бы можно было создать маленькую обученную локальную модель ИИ, которая была бы обучена работе с Rhino Grasshopper - графика, математика, алгебра, геометрия и код для C# и SDK, API Rhino Grasshopper - это был бы ИДЕАЛЬНЫЙ ассистент, особенно если бы контекстная память управлялась мной. Я слушал интервью Цукерберга, он говорил, что именно за такими небольшими агентами будущее, и я с ним на 1000% согласен, я это уже сейчас вижу. Для поговорить за жизнь можно и с ChatGPT, а как нужна конкретная тема - он даже при том, что сейчас может читать документацию в инете - совершенно не помошник. Если бы я был хоть чуть чуть программист и имел в этой области ваши знания и опыт, я бы ТОЧНО направил их на создание вот таких локальных моделей ИИ под конкретный спектр задач - это точно были бы коммерчески выгодные проекты. Представляете какой кайф я испытываю сейчас? Не написав ни строчки кода создаю сложнейшие параметрические 3D модели для ювелирки.
@iobhv 14 дней назад
Хочу научиться дообучать/тренировать llm. Посоветуйте нормальные ресурсы или курсы для этого всего. Чтобы от начала и до конечной настройки. Есть возможность на старте взять rtx 3090 или rtx 4080 super. Какая лучше подойдет для этих дел? Скажем для llama 3.2 11b или gemma 2 27b. Можно ли дообучать llm после квантизации? Спасибо.
@kuliev.vitaly 13 дней назад
Лучше 3090 из-за памяти. Конкретных курсов не знаю - ищите такую же задачу и пробуйте повторить.
@therealman_tm 16 дней назад
Колобок-каннибал и корзинка пирожков.
@therealman_tm 16 дней назад
Что покупать и сколько стоит - понятно. А где покупать? И что бы с гарантией.
@kuliev.vitaly 15 дней назад
4090 можно взять в магазине с гарантией.
@azankyzan 16 дней назад
Интересен опыт работы в stable diffusion на северных видеокартах, типа теслы. Сейчас их достаточно много в бу продаже. Стоит ли пробовать участвовать в этом, или это будет только потраченные в пустую финансы и время?! 😅
@kuliev.vitaly 15 дней назад
Конкретную модель нужно смотреть. Рекомендую десктопное желео брать
@ptmedved 19 дней назад
Спасибо за обзор! Вчера купил, сегодня достал, ужаснулся от объемов и толщины инструкции и пока отставил в сторону))) Порадовало: сначала сделаем, потом будем инструкцию читать)) наш человек👍👍👍
@IgorYegorkin 20 дней назад
Что лучше - 2 штуки 3070 или просто CPU с 64 ГБ RAM?
@kuliev.vitaly 19 дней назад
видеокарты на порядок быстрее. на процессоре памяти больше. зависит от потребностей
@IgorYegorkin 19 дней назад
@@kuliev.vitaly llama3.1 405b весит 229 GB, значит можно в домашний комп поставить 256 GB RAM и она пойдёт? Игровая микро-ATX плата MSI B650M уже поддерживает столько оперативы DDR5, это просто чудо. И планки DDR5 по 64 ГБ появились. Для опытов особая скорость не нужна, лишь бы работало.
@kuliev.vitaly 19 дней назад
Да это квантизация в 4 бита. Еще нужно место для вычислений. Возможно получится установить на этом железе. Рекомендую меньшую модель, например qwen2.5 72b
@Po4ka-l9u 20 дней назад
threadripper amd по линиям и по пропускной способности хорошо себя показывает и у него хватает линий если ставить 5 карт на одну систему.
@cloud5612 21 день назад
Стоит ли собирать на 3080 ti 12gb? Pci x16 обязательно? Или можно меньше и на что оно повлияет.
@kuliev.vitaly 21 день назад
x16 необязательно. На 3080ti можно собирать, но я бы рекомендовал карты с большей памятью. Есть более дешевые карты на 16гб от нвидии.
@azankyzan 16 дней назад
@@kuliev.vitaly есть 4060ti на 16 гигов. Есть смысл её брать? 😅
@mySchema 27 дней назад
Спасибо. Было интересно.
@Игорь-ь7ф3ш 28 дней назад
Спасибо за ролик. Арендовал у них оборудование-всё отлично. Прошу помочь советом. Я запускаю уних в среде Windows CoboldCPP на сборке 4х3090 модель 70B квантованную. Скорость при этом 0.5-0.8 токена/сек. Я всю голову сломал-почему такая низкая скорость? Если запускаю маленькую модель на одной 3090 то всё летает.
@kuliev.vitaly 27 дней назад
С виндой у меня нет опыта. По идее через WSL можно запускать. Видел статьи, где такая схема работает. Для запуска рекомендую vllm в докере.
@DenisLampusov 28 дней назад
Дружище, только сервер не для искусственного интеллекта, а для нейросетей. Интеллектом там не пахнет пока.
@ИгорьИванов-м3д6к 28 дней назад
Виталий, спасибо! С удовольствием смотрю ваши видео! Нравится что очень качественный контент даете. Можете практический пример с 1с разобрать в видео? Тема очень интересная и думаю будет крайне полезная для огромного числа компаний у которых учет на 1с построен.
@electricsupercars1978 29 дней назад
Оперативку процессора я понимаю Но видио тут причем
@electricsupercars1978 29 дней назад
Объясните мне тупому Почему текстовый чат Использует видио память Что за бред!
@kuliev.vitaly 28 дней назад
нейронки на видеокартах работают быстро.
@electricsupercars1978 29 дней назад
Очень интересно Зачем чтобы печатать текст Нужна видио память Хрень какая то Короче майнинг То есть на вас майнят ( токены) А вы еще и платите
@user-xx6wh5nm4s 29 дней назад
Виталий, спасибо за ролик! Сможете показать пример кода на питоне для описанной в примере задачи? Было бы очень интересно! Кстати, отмечу что, в сравнении с предыдущими роликами, есть субьективное ощущение, что этот ролик вышел чуть затянутым
@kuliev.vitaly 28 дней назад
видео с программированием плохо смотрят. нужно просто сгенерить промпт и отправить его в нейронку.
@vasya11tt 29 дней назад
Сервер ваш, вы его самостоятельно подняли, какова гарантия что не ведутся логи?
@kuliev.vitaly 29 дней назад
Сервер мой. Передаваемые данные у меня не сохраняются, сервис платный я зарабатываю на продаже ключей. Код впн клиентов открыт - можете проанализировать его и при желании собрать клиента самостоятельно.
@vasya11tt 29 дней назад
@kuliev.vitaly убедил, спасибо.
@vasya11tt 29 дней назад
@kuliev.vitaly скорость повышаться будет? Хотя бы до 20 mb/s, сейчас от7ми до10ти, хотелось бы больше.
@kuliev.vitaly 29 дней назад
Напиши мне в телеграм через помощь в телеграм боте. Так быстрее сможем решить проблему.
@kuliev.vitaly 29 дней назад
Скорость порядка 100мбит/с должна без проблем достигаться.
@vasya11tt 29 дней назад
Доброго, что значит раздача торентов, это когда торент скачался, полоса загрузки зелёная и написано раздача, тоесть после закрузки торент надо удалять из торентклиента?
@kuliev.vitaly 29 дней назад
При скачивании торентов отключайте впн.
@yatogano Месяц назад
Ваш домашний сервер уступал, наверное, потому, что в прошлом видео вы сказали о фиксации энергопотребления видеокарт на уровне 350ВТ. Это, конечно же, снижает их эффективность
@amphortas1 Месяц назад
Интерессно! Думал вы про RAG system (Красно-Жёлто-Зелёную систему) RAG stands for Red, Amber, and Green, and is a color-coded system used in project management
@tomskaya-ql7vm Месяц назад
А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают. Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.
@kuliev.vitaly Месяц назад
работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.
@AlexP-fg3ci Месяц назад
Если данных много и они мало изменчивы/статичны, то кажется что переодический файнтюн будет лучше RAG (если не нужна именно справочная система). Например с помощью qlora. Верны ли мои рассуждения на этот счет? В любом случае был бы рад увидеть ролик с примером дообучения на своих данных
@kuliev.vitaly Месяц назад
Файнтюнинг работает, но при этом его тяжело изменять. В РАГ можно добавить новы еданные в векторную БД или изменить промпт. Эти правки сразу можно протестировать на проблемных запросах.
@AlexP-fg3ci Месяц назад
@@kuliev.vitaly потому и сказал что данные по сути статичны и задача не подразумевает частое обновление датасета. Условно прилетает большой пакет документов с проекта раз в квартал, то можно каждый квартал файнтюнить условную llama с нуля на новой версии датасета. Цель в том, чтобы llm зная множество зависимостей этого большого проекта давала лучшие ответы. Если делать чисто через rag то каждый запрос будет тащить тонны документов
@AlexP-fg3ci Месяц назад
Спасибо за ролик! Можете ли вы порекомендовать какие-нибудь готовые RAG системы для домашнего использования? Ну которым можно скормить например свой обсидиан волт либо репозиторий с кодом и она сама по ним сделает эмбеддинги и поможет потом с формированием финального запроса в ллм (либо даже отправит его куда настроишь)?
@kuliev.vitaly Месяц назад
Для написания кода использую codegpt плагин в пайчарме. В контекст можно добавить необходимые файлы. Хорошо помогает в разработке.
@AlexP-fg3ci Месяц назад
@@kuliev.vitaly ну есть ещё cursor для кода - он имхо лучше Однако не все задачи ограничиваются кодом. Иногда надо натравить llm на большой пакет документации. Не хотел писать свою систему для rag, а среди доступных реализаций пока не решил на какой остановиться. Подумал мб вы с чем-то уже сталкивались
@IT_psychopath Месяц назад
в любом случае спасибо от души! было бы шикарно не большой пример создания RAG. прям вот топ топов был бы. по этой теме информации очень мало..
@alexanderacriptis510 Месяц назад
Виталий, расскажите как зафайнтюнить лламу 2b до чатгпт омни на обычном инженерном калькуляторе?
@kuliev.vitaly Месяц назад
)))
@vladimirloginov8567 Месяц назад
Добрый день. В названии видео упоминается 1С. Как это относится к сути содержания вашего видео?
@kuliev.vitaly Месяц назад
Из 1C можно выгружать данные по API. Пример с интернет магазином как раз относится к 1c, как наиболее частый продукт автоматизации.
@sainthentai7763 Месяц назад
Мм а подойдет ли какой нибудь мини пк для сервера ? У меня на примете мнини пк: Ninkear Мини-ПК T9 Plus RU (Intel Processor N100, RAM 16 ГБ, SSD 512 ГБ, Intel UHD Graphics, Windows). На нём выйдет обучить нейросетку в контексте прдеполагаемых задач ? И у вас есть на канале видео где вы показываите как обучать нейросетку ?
@sainthentai7763 Месяц назад
@@СергейМедведев-р7и аа ну да, я не подумал что проблема в том что для нейронок либо нужные мощные прцоессоры и оперативка или мощные видюхи и оперативка. Я просто смотрел на оперативку...
@kuliev.vitaly Месяц назад
маленькие нейросети можно обучить, но очень долго.
@bbbbbb9193 Месяц назад
заказал 3060 на 12 гб. Буду учится)) очень интересно это тема и очень вдохновляет. Спасибо за ваш канал!!! Сил и Энергии и Лайк!!
@НикитаЛазарев-п2п Месяц назад
Виталий, спасибо за вашу работу! Подскажите, пожалуйста, на ваш взгляд, какая опенсорсная модель лучше всего знает русский язык (и LLM, и какую лучше модель использовать для получения эмбедингов)?
@kuliev.vitaly Месяц назад
Qwen2.5-72b-Instruct хорошо работает с русским языком. Эмбединги сильно зависят от доменной области.
@dolotube Месяц назад
Несколько дней назад вышла aya-expanse с весами 8b и 32b - она по мультиязычности выглядит наиболее корректной. То есть по-русски делает мало ошибок.
@НикитаЛазарев-п2п Месяц назад
@@kuliev.vitaly Посоветуйте парочку опенсорсных, если не трудно)
@kuliev.vitaly Месяц назад
Qwen2.5-72b-Instruct, Llama 70b
@АлександрКлимович-з6и Месяц назад
Виталий добрый день! Может вы подскажете можно ли повысить качество Embedding если вместо текстовых документов подавать OWL онтологии? Или всё же RAG технология лучше работает с обычными текстовыми описаниями?
@kuliev.vitaly Месяц назад
Тут только пробовать на ваших данных. Попробуйте сделать саммари из документов и эмбединги считать по ним.
@kalugarussia Месяц назад
Добрый день. Немного не по теме. Виталий, не знаете ли, как можно получить модель LLaMA 3.2 90b?
@kuliev.vitaly Месяц назад
Поищи модели на huggungface. Обычно перевыложены другими пользователями. Еще рекомендую потестить qwen нейронки аналогичного размера - они лучше по метрикам.
@SeregaZinin Месяц назад
Насколько виртуальные сервера медленнее VDS ?
@kuliev.vitaly Месяц назад
Зависит от конкретного сервера и конкретного VDS. Тут только делать тесты под ваши задачи. Самые быстрые процессоры по одноядерной производительности это VDS с последними десктопными процессорами типа 7950x/9950x.
@alexejcrumbambula Месяц назад
Плешивый долбоеб, может ты с нормальной скоростью будешь говорить?! Нифига же не понятно...
@nodes_4729 Месяц назад
так,, а теперь делаешь ролик где рассказываешь сколько ФПС данная штука делает в Киберпанке ... (неважно ничего, главное название ролика.. ) и увидишь сколько хайпа набереш
@nicnicola8816 Месяц назад
Марк Цукерберг и его компания Meta столкнулись с несколькими значительными скандалами: 1. Утечка данных Cambridge Analytica: В 2018 году выяснилось, что данные миллионов пользователей Facebook были неправомерно использованы для политической рекламы. 2. Распространение дезинформации: Meta подвергалась критике за недостаточную борьбу с дезинформацией, особенно во время выборов. 3. Проблемы с конфиденциальностью: Постоянные вопросы о сборе и использовании пользовательских данных вызывали обеспокоенность у пользователей и регуляторов.
@modusx1 Месяц назад
Что скажете о серверной Тесла NVIDIA P40 24G? Я считаю что она будет более эфективна чем карты для гейминга.
@kuliev.vitaly Месяц назад
Карта старая и уже сейчас не поддерживает некоторые программные технологии. Еще она относительно слабая и энергоэффективность плохая. Ее уже распродают по 200 долларов. Можно ее использовать как очень бюджетный вариант с ограничениями.
@ЕвгенийВладимиров-л3к Месяц назад
Наши китайские друзья распаивают на 4090 еще 24гига, шьют какой то своей прошей и получают 4090 на 48гб vram, чип 4090 довольно шустрый, но вот для ллмок памяти ей конечно нахватает (хитрая Nvidia так делает чтоб брали профессиональные карты за многого денег)
@kuliev.vitaly Месяц назад
Да есть такое. Получается отличная видеокарта для ИИ, но в свободной продаже ее не видел.

Виталий Кулиев

Видео

Комментарии