- Видео 78
- Просмотров 354 167
Виталий Кулиев
Россия
Добавлен 25 янв 2012
Канал о машинном обучении, искусственном интеллекте, data science и других информационных технологиях.
Контакты:
ВК: id2024648
Telegram: @kulievvitaly
Другие соцсети:
Дзен: dzen.ru/id/63615bf8c463a162a864bc4d
Телеграм канал: t.me/vitaly_kuliev_it
b9651030-7840-461d-91e3-018c425347f8
Контакты:
ВК: id2024648
Telegram: @kulievvitaly
Другие соцсети:
Дзен: dzen.ru/id/63615bf8c463a162a864bc4d
Телеграм канал: t.me/vitaly_kuliev_it
b9651030-7840-461d-91e3-018c425347f8
Нейросеть + 1С. RAG системы для бизнеса
Retrieval augmented generation (RAG) используется для ответа на пользовательские запросы с учётом актуальной информации. RAG-системы позволяют генерировать более точные ответы, комбинируя запросы к большим языковым моделям (например, ChatGPT, Llama) и доступ к актуальным данным, таким как документация, векторные базы и API в проекте. RAG становится неотъемлемой частью поддержки пользователей и может значительно улучшить качество сервиса. Шаги для внедрения rag системы приведены в последней части видео.
Арендую сервера здесь:
immers.cloud/signup/r/20240522-6407208-835/
Мой телеграм канал:
t.me/vitaly_kuliev_it
В rutube дублирую видео. Подписывайтесь на случай закрытия ютуба:
rutube.ru/channel/23...
Арендую сервера здесь:
immers.cloud/signup/r/20240522-6407208-835/
Мой телеграм канал:
t.me/vitaly_kuliev_it
В rutube дублирую видео. Подписывайтесь на случай закрытия ютуба:
rutube.ru/channel/23...
Просмотров: 3 074
Видео
Протестировал видеокарты nvidia 3090, 4090, A100 в задаче инференса нейросети Llama 70b.
Просмотров 3,5 тыс.Месяц назад
Сравнительный тест видеокарт для работы с нейросетями, на примере модели LLaMA 70B awq на 4 бита. Список видеокарт: 3090, 3090ti, 4090, A100 и H100. В тестировании участвуют личный сервер с 3090ti и арендованные серверы с остальными видеокартами. Видео будет полезно тем, кто занимается нейросетями и хочет узнать, какие видеокарты эффективнее использовать для инференса нейронных сетей. Скорость ...
Компьютер для нейросетей. 5x3090ti, 48cpu, 512gb ram.
Просмотров 8 тыс.2 месяца назад
Последние нейросети требуют большого количества вычислений и для этой задачи я решил пересобрать свой сервер. Сейчас используется серверная материнская плата, процессор на 48 ядер, 512гб оперативной памяти и 5 видеокарт nvidia rtx 3090 ti. Сервер подходит для запуска нейросетей с количеством параметров около 100 миллиардов(Llama 70b, Mistral Large 2407, NVLM ...) GPU сервера immers.cloud. Испол...
Запуск Llama 405b на своем сервере. vLLM, docker.
Просмотров 15 тыс.3 месяца назад
Детально показываю, как запустить самую мощную открытую нейросеть Llama 405b на своем сервере. Описание модели Llama 405b на сайте Meta* llama.meta.com/ Сервер покупал тут: immers.cloud/signup/r/20240522-6407208-835/ Прикладная конференция по Data Science AI conf 2024: aiconf.ru/2024 Описание модели Llama 3.5 405b instruct AWQ на huggingface: huggingface.co/hugging-quants/Meta-Llama-3.1-405B-In...
Llama 3.1 - лучшая открытая нейросеть. Обзор и сравнение с gpt4o.
Просмотров 16 тыс.4 месяца назад
Нейросеть Llama 3.1 - лучшая открытая нейросеть на данный момент. В видео рассматривается обновление нейросети, сравнение ее метрик с предыдущей версией и другими популярными нейросетями, такими как gpt4o и claude 3.5 sonnet. Также демонстрируется работа нейросети на практических примерах, включая написание кода и ответы на вопросы. Модели на huggingface: huggingface.co/collections/meta-llama/l...
Топ советов по выбору видеокарты для машинного обучения и инференса нейросетей(LLM)?
Просмотров 2,9 тыс.4 месяца назад
Обсуждение основных параметров видеокарт в задачах тренировки и инференса нейросетей. Практические советы по выбору видеокарт и других параметров компьютера. Аренда GPU серверов. В этом выпуске мне поможет Руслан, который расскажет о тренировке нейросетей, а я объясню, какие параметры важны для инференса LLM. Упоминание нейросетей: llama 3 8b/70b, gemma 2... Сравнение видеокарт nvidia: a100, h1...
Секреты сборки компьютера для инференса LLM. Нейросети запускаем локально.
Просмотров 3 тыс.5 месяцев назад
Делюсь своим опытом построения домашнего компьютера, специально предназначенного для запуска нейросетей. Основная нейросеть для запуска - Lama 3 70b instruct, качество которой сравнимо с ранними версиями GPT-4. В этой сборке используется 3 видеокарты 3090ti. GPU сервера immerse cloud: immers.cloud/signup/r/20240522-6407208-835/ Большой тест видеокарт: ruclips.net/video/UB9KAYsYUQQ/видео.html По...
Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...
Просмотров 3,9 тыс.5 месяцев назад
В этом видео массовое тестирование видеокарт для нейросетей. В тесте участвуют две нейросети: Llama 3 8b и Llama 3 70b. Тестируются игровые видеокарты разных поколений: Nvidia RTX 4090, RTX 3090, RTX 3090 ti, RTX 2080 ti. Среди серверных карт тестируются Nvidia A100, Nvidia H100. GPU сервера immerse cloud: immers.cloud/signup/r/20240522-6407208-835/ Бенчмарк из видео для тестирования: github.co...
rus-gpt.com сервис для инференса llama 3. Программируем с CodeGPT плагином в pycharm.
Просмотров 1,6 тыс.6 месяцев назад
rus-gpt.com сервис для инференса llama 3 и доступа по API. В видео даны инструкции как получить доступ к сервису и использовать API для программирования в pycharm. На данный момент сервис бесплатен для пользователей и его функционал расширяется. Пример на гитхаб: github.com/kulievvitaly/rus_gpt_demo Телеграм бот для получения ключей: t.me/rusgptcom_bot Сайт проекта: rus-gpt.com/ Мой телеграм ка...
Llama 3 - лучшая открытая нейросеть. Узнай как использовать эту модель.
Просмотров 14 тыс.6 месяцев назад
В этом видео мы рассмотрим новую нейросеть компании META, LLama 3, выпущенную в апреле 2024 года. LLama 3 - это открытая модель, доступная для коммерческого использования, которая показывает высокие результаты. Модель выпущена в двух вариантах с 8 и 70 млрд весов. Мы обсудим преимущества использования инструкт модели, сравним её с конкурентами и рассмотрим её отличительные особенности. Также мы...
Тестируем 5G интернет. Какая скорость?
Просмотров 1,4 тыс.7 месяцев назад
В этом видео тестируем скорость 5G интернета в Таиланде. Узнайте, насколько быстро работает 5G! Когда появится в России?
Dreame l20 ultra. Распаковка и первое включение.
Просмотров 13 тыс.Год назад
Распаковка и первое включение нового робота пылесоса dreamebot l20 ultra complete. Стоимость в России: около 100к рублей. Описание на сайте производителя: ru.dreametech.com/catalog/robot-pylesos-dreame-l20-ultra-white/ Телеграм бот Hour VPN: t.me/hour_vpn_bot?start=dreamebot Таймкоды: 0:00 Распаковка 2:09 Обход блокировок 3:06 Обзор робота 6:13 Обзор расходников 7:15 Обзор базовой станции 11:41...
Из голоса банка - в фильмы 18+
Просмотров 1,5 тыс.Год назад
Мое мнение о технологиях синтеза голоса и конфликте между Аленой Андроновой и банком Тиньков. Как устроено копирование голоса? Возможна ли идентификация человека по голосу? Какие профессии будут заменены роботами? Видео Алёны: ruclips.net/video/xfhPMKpPQng/видео.html&ab_channel=HollyForve Таймкоды: 0:00 Алена Андронова 0:13 Обзор технологий 1:47 Юридические вопросы 3:07 Петиция о внесении право...
Регистрируем ChatGPT в России. Краткая инструкция.
Просмотров 1,5 тыс.Год назад
Видеоинструкция как зарегистрироваться в сервисе ChatGPT от OpenAI из России. Ссылка для регистрации: chat.openai.com/auth/login Телеграм бот Hour-VPN: t.me/hour_vpn_bot?start=youtube Сервис для аренды виртуального номера: onlinesim.io/?ref=4770052
Обход блокировок VPN в России. Outline в телеграм боте Hour VPN
Просмотров 11 тыс.Год назад
В этом видео мы рассмотрим блокировку протоколов WireGuard и OpenVPN, которая произошла недавно в России. Разберем, почему эти протоколы были заблокированы и какие VPN-приложения перестали работать из-за этого. Мы также обсудим протоколы Shadowsocks и Outline. Мой телеграм бот(Hour VPN) для настройки VPN: t.me/hour_vpn_bot Инструкция по настройке своего Outline сервера: ruclips.net/video/UgrC20...
Выбор видеокарты для ML: Nvidia compute capability
Просмотров 4 тыс.Год назад
Выбор видеокарты для ML: Nvidia compute capability
Новости ML. Nvidia VSR, генерация видео, языковые модели.
Просмотров 862Год назад
Новости ML. Nvidia VSR, генерация видео, языковые модели.
Аналог chatGPT работает на ноутбуке! Выложили нейросети LLaMA и Alpaca. Инструкция по установке.
Просмотров 10 тыс.Год назад
Аналог chatGPT работает на ноутбуке! Выложили нейросети LLaMA и Alpaca. Инструкция по установке.
Метод Монте Карло в Data Science. Численно решаем вероятностные задачи.
Просмотров 982Год назад
Метод Монте Карло в Data Science. Численно решаем вероятностные задачи.
Где арендовать VPS сервер в 2023 году?
Просмотров 24 тыс.Год назад
Где арендовать VPS сервер в 2023 году?
Видеокарты RTX 4090/4080 для тренировки нейросетей. Сравнение с конкурентами.
Просмотров 4,8 тыс.2 года назад
Видеокарты RTX 4090/4080 для тренировки нейросетей. Сравнение с конкурентами.
Тестируем быстродействие python 3.11
Просмотров 1,2 тыс.2 года назад
Тестируем быстродействие python 3.11
Новости ИИ октябрь 2022. Stable diffusion, nvidia RTX 4090, CPU AMD/intel, Ethereum POS.
Просмотров 5522 года назад
Новости ИИ октябрь 2022. Stable diffusion, nvidia RTX 4090, CPU AMD/intel, Ethereum POS.
Основы работы с базами данных в python. Postgresql, Sqlalchemy, PgAdmin.
Просмотров 9 тыс.2 года назад
Основы работы с базами данных в python. Postgresql, Sqlalchemy, PgAdmin.
4 обязательные части любого ИИ проекта
Просмотров 9162 года назад
4 обязательные части любого ИИ проекта
Code Royal 2022 - соревнование по созданию искуственного интеллекта. Russian AI cup 2022.
Просмотров 5002 года назад
Code Royal 2022 - соревнование по созданию искуственного интеллекта. Russian AI cup 2022.
А ви в своїй практиці тренування ai моделей не використовуєте NVIDIA TensorRT?
Виталий, тогда еще вопрос. Мы увидели на тестах, что есть серьезная разница в производительности в случае использования нескольких карт на локальном компьютере. Возможно узкое место в скорости обмена данными между ними или алгоритмах распараллеливания. С одной картой всё ясно приоритет 4090 или 3090ti, но возможно для нескольких карт был бы оптимальным вариант с несколькими 4000 с 16 Гб (с учетом цены)? Есть ли у вас возможность взять на время такие карты и провести тесты на вашем 5 карточном серевере? Спс.
В описании к видео есть ссылка на имерс клауд. Там можно взять разные видюхи с посекеундной оплатой и протестировать. 3090 имеет больше памяти - лучше ее взять
По цене 1 RTX4090 можно взять 4 RTX4060ti с 16 гб это будет 64 гб против 24. В топовых видюхах для нейронок нет смысла.
Оверхед на синхронизацию данных будет между 4 видеокартами. В десктопную материнку не воткнешь 4 видеокарты, нужно на серверную переходить и это дороже. Лучше 2 3090 взять.
Приветствую. А есть возможность удешевить сборку, использую китайские Зеоны? Есть ли варианты с Зеонами и серверными МБ с 5+ слотами PCI-Express 3, 4? Спасибо.
Можно, только производительность ниже будет. У меня похоже в скорость процессора упирается - планирую улучшать.
Видел несколько тестов, где 3090ti опережала 4090 в задачах ИИ (к сожалению не смог найтииссылки). Что можете сказать о производительности вышеисследованных карт в варианте одной карты в компьютере?
4090 мощнее во всем. Скорее всего различие связано с другими комплектующими или версиями библиотек.
куча P106-100 (10xx серия) не пойдет? У них ФЛОПСЫ только в формате FP32 рабочие, FP16 уже на пару порядков меньше, а тензорных ядер вообще нет. эхх, такой халявный план сорвался) Кстати, виталий, а тензорные участвуют в работе? Как их количество и поколение влияет на обучение, или работе с LLM, и вообще снейронками (просто цифровыми, например)?
тензорные ядра участвуют в работе. старые теслы имеют малую производительность. еще они устаревают и часть софта их не поддерживает. Можете использовать если только нет возможности купить более новое железо. по этим причинам они такие дешевые.
Что такое vps и зачем он нужен ? Мол vps + vpn wireguard и можно смотреть RUclips без ограничений? А если использовать платный vpn, то могут заблокировать? Короче я вообще нифига не понимаю, помогите.
@hour_vpn_bot вот мой телеграм бот с впн. В нем можно сделать ключи. vps - сервер, который арендуется и на нем можно поднять впн сервер. wireguard протокол часто блокируется, лучше другие протоколы использовать
Super! Nice!
А как устанавливать доп пакеты на удаленный интерпретатор? pip install ___?
да
@@kuliev.vitaly а ели в докере? Не получается =(
нужно докер контейнер пересобрать с нужными бибилиотеками. в докерфайл добавь установку нужных программ и пересобери образ.
Подскажите пожалуйста, я запускаю llama 3.1:70b на конфиге 64гб озу + 4070ti super (16гб). Модель занимает 40гб озу и 16 видеопамяти. Работает достаточно медленно. Вопрос - она ведь использует все веса для генерации ответов, или только те, что поместились в видеопамять? Правильно ли я понимаю, что она использует частично видеокарту и частично процессор+озу?
А кстати, думаю на что заменить 2060s 8gb, на 3080ti 12gb или 4070tis 16gb? Что думаете?
Лучше ту, где памяти больше. В идеале 3090/3090ти с 24гб
При шаринге весов в оперативную память - будет работать медленно. Узкое место это скорость оперативной памяти.
Маловероятно, но вдруг. Райзеры бывают pci express 3.0 и 4.0. Убедитесь что ваш поддерживает 4 поколение. Простой способ проверить - скачать gpu-z
4 поколение.
Планирую собрать HPC кластер с 10ю картами Tesla k80, суммарно будет 240гб видео памяти, подскажите , не упускаю ли я что-то?
Карта уже очень старая и относительно слабая. Некоторые новые технологии на ней не поддерживаются. Если хотите LLM запускать через vLLM, то количество карт должно быть степенью 2. Из 10 карт получится только 8 использовать для инференса.
День добрый Виталий. Как с вами связаться? Я, к сожалению не программист, но активно использую AI Cloud 3.5 Sonnet для создания скриптов параметрических моделей геометрических объектов. Основная проблема работы с Cloud - я не имею возможность её обучать, у меня очень узкий спектр задач касающийся конкретных SDK и API и Cloud с ними глубоко, как я вижу, не знаком, а загрузить в него все эти знания из свободного доступа я не могу. Я пересмотрел ваши видео с Llama и так понимаю, что эту модель можно установить у себя на сервере и обучить своим конкретным задачам. Но я с этим не справлюсь, у меня совсем другая специальность. Не могли бы вы на коммерческой основе мне в этом помочь? Или может подскажете к кому обратится с подобной просьбой - обучить модель под мои задачи и помочь её правильно разместить. При очень не большом круге задач возможно модель может работать на локальном компьютере?
Попробуйте в промпт добавить нужные инструкции, которые модель плохо понимает. Дообучение нейросети на написание специфического кода - это исследовательская задача на несколько недель без гарантии хорошо работающего результата. Не готов взяться за эту задачу. 3.5 sonnet - одна из лучших платных нейронок для написания кода.
Спасибо за ответ Виталий. Да, Cloud 3.5 Sonnet в самом деле лучшая. Но даже имея Групповой аккаунт на 5 человек и создавая общий проект и вкладывая в архив проекта возможный объём документации и инструкцию подробную, я испытываю всё равно трудности. При интенсивной работе с кодом сессия одного акаунта заканчивается не более чем через два часа. Приходится начинать новую, зайдя со второго акаунта и так далее. И все было бы круто, если бы Cloude помнил контекс предидущего обсуждения, а он не помнит. Да, архив с документами помогает, но туда всего не запихнешь. И получается, что если сессия закончилась на горячем обсуждении какой то проблемы - нужно копировать всю эту часть беседы и вставлять это в новую, иначе всё с нуля. По этой причине эффективная работа в течении одной сессии не более полутора часов. Ну и жалко стрелять по воробьям из пушки, если бы можно было создать маленькую обученную локальную модель ИИ, которая была бы обучена работе с Rhino Grasshopper - графика, математика, алгебра, геометрия и код для C# и SDK, API Rhino Grasshopper - это был бы ИДЕАЛЬНЫЙ ассистент, особенно если бы контекстная память управлялась мной. Я слушал интервью Цукерберга, он говорил, что именно за такими небольшими агентами будущее, и я с ним на 1000% согласен, я это уже сейчас вижу. Для поговорить за жизнь можно и с ChatGPT, а как нужна конкретная тема - он даже при том, что сейчас может читать документацию в инете - совершенно не помошник. Если бы я был хоть чуть чуть программист и имел в этой области ваши знания и опыт, я бы ТОЧНО направил их на создание вот таких локальных моделей ИИ под конкретный спектр задач - это точно были бы коммерчески выгодные проекты. Представляете какой кайф я испытываю сейчас? Не написав ни строчки кода создаю сложнейшие параметрические 3D модели для ювелирки.
Хочу научиться дообучать/тренировать llm. Посоветуйте нормальные ресурсы или курсы для этого всего. Чтобы от начала и до конечной настройки. Есть возможность на старте взять rtx 3090 или rtx 4080 super. Какая лучше подойдет для этих дел? Скажем для llama 3.2 11b или gemma 2 27b. Можно ли дообучать llm после квантизации? Спасибо.
Лучше 3090 из-за памяти. Конкретных курсов не знаю - ищите такую же задачу и пробуйте повторить.
Колобок-каннибал и корзинка пирожков.
Что покупать и сколько стоит - понятно. А где покупать? И что бы с гарантией.
4090 можно взять в магазине с гарантией.
Интересен опыт работы в stable diffusion на северных видеокартах, типа теслы. Сейчас их достаточно много в бу продаже. Стоит ли пробовать участвовать в этом, или это будет только потраченные в пустую финансы и время?! 😅
Конкретную модель нужно смотреть. Рекомендую десктопное желео брать
Спасибо за обзор! Вчера купил, сегодня достал, ужаснулся от объемов и толщины инструкции и пока отставил в сторону))) Порадовало: сначала сделаем, потом будем инструкцию читать)) наш человек👍👍👍
Что лучше - 2 штуки 3070 или просто CPU с 64 ГБ RAM?
видеокарты на порядок быстрее. на процессоре памяти больше. зависит от потребностей
@@kuliev.vitaly llama3.1 405b весит 229 GB, значит можно в домашний комп поставить 256 GB RAM и она пойдёт? Игровая микро-ATX плата MSI B650M уже поддерживает столько оперативы DDR5, это просто чудо. И планки DDR5 по 64 ГБ появились. Для опытов особая скорость не нужна, лишь бы работало.
Да это квантизация в 4 бита. Еще нужно место для вычислений. Возможно получится установить на этом железе. Рекомендую меньшую модель, например qwen2.5 72b
threadripper amd по линиям и по пропускной способности хорошо себя показывает и у него хватает линий если ставить 5 карт на одну систему.
Стоит ли собирать на 3080 ti 12gb? Pci x16 обязательно? Или можно меньше и на что оно повлияет.
x16 необязательно. На 3080ti можно собирать, но я бы рекомендовал карты с большей памятью. Есть более дешевые карты на 16гб от нвидии.
@@kuliev.vitaly есть 4060ti на 16 гигов. Есть смысл её брать? 😅
Спасибо. Было интересно.
Спасибо за ролик. Арендовал у них оборудование-всё отлично. Прошу помочь советом. Я запускаю уних в среде Windows CoboldCPP на сборке 4х3090 модель 70B квантованную. Скорость при этом 0.5-0.8 токена/сек. Я всю голову сломал-почему такая низкая скорость? Если запускаю маленькую модель на одной 3090 то всё летает.
С виндой у меня нет опыта. По идее через WSL можно запускать. Видел статьи, где такая схема работает. Для запуска рекомендую vllm в докере.
Дружище, только сервер не для искусственного интеллекта, а для нейросетей. Интеллектом там не пахнет пока.
Виталий, спасибо! С удовольствием смотрю ваши видео! Нравится что очень качественный контент даете. Можете практический пример с 1с разобрать в видео? Тема очень интересная и думаю будет крайне полезная для огромного числа компаний у которых учет на 1с построен.
Оперативку процессора я понимаю Но видио тут причем
Объясните мне тупому Почему текстовый чат Использует видио память Что за бред!
нейронки на видеокартах работают быстро.
Очень интересно Зачем чтобы печатать текст Нужна видио память Хрень какая то Короче майнинг То есть на вас майнят ( токены) А вы еще и платите
Виталий, спасибо за ролик! Сможете показать пример кода на питоне для описанной в примере задачи? Было бы очень интересно! Кстати, отмечу что, в сравнении с предыдущими роликами, есть субьективное ощущение, что этот ролик вышел чуть затянутым
видео с программированием плохо смотрят. нужно просто сгенерить промпт и отправить его в нейронку.
Сервер ваш, вы его самостоятельно подняли, какова гарантия что не ведутся логи?
Сервер мой. Передаваемые данные у меня не сохраняются, сервис платный я зарабатываю на продаже ключей. Код впн клиентов открыт - можете проанализировать его и при желании собрать клиента самостоятельно.
@kuliev.vitaly убедил, спасибо.
@kuliev.vitaly скорость повышаться будет? Хотя бы до 20 mb/s, сейчас от7ми до10ти, хотелось бы больше.
Напиши мне в телеграм через помощь в телеграм боте. Так быстрее сможем решить проблему.
Скорость порядка 100мбит/с должна без проблем достигаться.
Доброго, что значит раздача торентов, это когда торент скачался, полоса загрузки зелёная и написано раздача, тоесть после закрузки торент надо удалять из торентклиента?
При скачивании торентов отключайте впн.
Ваш домашний сервер уступал, наверное, потому, что в прошлом видео вы сказали о фиксации энергопотребления видеокарт на уровне 350ВТ. Это, конечно же, снижает их эффективность
Интерессно! Думал вы про RAG system (Красно-Жёлто-Зелёную систему) RAG stands for Red, Amber, and Green, and is a color-coded system used in project management
А подскажите, есть ли смысл собрать двухпроцессорную систему на зионах совсем без видеокарты, зато ОЗУ напихать от души, скажем 256 гб? Понимаю, что генерация токенов на цпу довольно медленная, но зато в 256гб озу влезут даже очень жирные модельки, а не только 3 Лама. Или там эту память запараллелить, типа 256 по планкам, в системе 64 гб, зато быстро. По моему еще не родили видеокарту на такое количество ОЗУ, а если и будет, то стоить будет как Боинг. Китайские матеря с зионами на кучу ядер неплохо себя показывают. Не у всех есть бюджет на видеокарты, а подобная система может не только Llm запускать, но и банально работать с видео и данными. У меня есть два 3060, на маленьких модельках они хороши, но лама 3 уже нет. По меньшей мере без квантизации, а с квантизацией она гонит пургу.
работать будет, но медленно. Все упрется в пропускную способность памяти. Рекомендую посмотреть в сторону платных сервисов по апи, если нет требований к конфиденциальности данных.
Если данных много и они мало изменчивы/статичны, то кажется что переодический файнтюн будет лучше RAG (если не нужна именно справочная система). Например с помощью qlora. Верны ли мои рассуждения на этот счет? В любом случае был бы рад увидеть ролик с примером дообучения на своих данных
Файнтюнинг работает, но при этом его тяжело изменять. В РАГ можно добавить новы еданные в векторную БД или изменить промпт. Эти правки сразу можно протестировать на проблемных запросах.
@@kuliev.vitaly потому и сказал что данные по сути статичны и задача не подразумевает частое обновление датасета. Условно прилетает большой пакет документов с проекта раз в квартал, то можно каждый квартал файнтюнить условную llama с нуля на новой версии датасета. Цель в том, чтобы llm зная множество зависимостей этого большого проекта давала лучшие ответы. Если делать чисто через rag то каждый запрос будет тащить тонны документов
Спасибо за ролик! Можете ли вы порекомендовать какие-нибудь готовые RAG системы для домашнего использования? Ну которым можно скормить например свой обсидиан волт либо репозиторий с кодом и она сама по ним сделает эмбеддинги и поможет потом с формированием финального запроса в ллм (либо даже отправит его куда настроишь)?
Для написания кода использую codegpt плагин в пайчарме. В контекст можно добавить необходимые файлы. Хорошо помогает в разработке.
@@kuliev.vitaly ну есть ещё cursor для кода - он имхо лучше Однако не все задачи ограничиваются кодом. Иногда надо натравить llm на большой пакет документации. Не хотел писать свою систему для rag, а среди доступных реализаций пока не решил на какой остановиться. Подумал мб вы с чем-то уже сталкивались
в любом случае спасибо от души! было бы шикарно не большой пример создания RAG. прям вот топ топов был бы. по этой теме информации очень мало..
Виталий, расскажите как зафайнтюнить лламу 2b до чатгпт омни на обычном инженерном калькуляторе?
)))
Добрый день. В названии видео упоминается 1С. Как это относится к сути содержания вашего видео?
Из 1C можно выгружать данные по API. Пример с интернет магазином как раз относится к 1c, как наиболее частый продукт автоматизации.
Мм а подойдет ли какой нибудь мини пк для сервера ? У меня на примете мнини пк: Ninkear Мини-ПК T9 Plus RU (Intel Processor N100, RAM 16 ГБ, SSD 512 ГБ, Intel UHD Graphics, Windows). На нём выйдет обучить нейросетку в контексте прдеполагаемых задач ? И у вас есть на канале видео где вы показываите как обучать нейросетку ?
@@СергейМедведев-р7и аа ну да, я не подумал что проблема в том что для нейронок либо нужные мощные прцоессоры и оперативка или мощные видюхи и оперативка. Я просто смотрел на оперативку...
маленькие нейросети можно обучить, но очень долго.
заказал 3060 на 12 гб. Буду учится)) очень интересно это тема и очень вдохновляет. Спасибо за ваш канал!!! Сил и Энергии и Лайк!!
Виталий, спасибо за вашу работу! Подскажите, пожалуйста, на ваш взгляд, какая опенсорсная модель лучше всего знает русский язык (и LLM, и какую лучше модель использовать для получения эмбедингов)?
Qwen2.5-72b-Instruct хорошо работает с русским языком. Эмбединги сильно зависят от доменной области.
Несколько дней назад вышла aya-expanse с весами 8b и 32b - она по мультиязычности выглядит наиболее корректной. То есть по-русски делает мало ошибок.
@@kuliev.vitaly Посоветуйте парочку опенсорсных, если не трудно)
Qwen2.5-72b-Instruct, Llama 70b
Виталий добрый день! Может вы подскажете можно ли повысить качество Embedding если вместо текстовых документов подавать OWL онтологии? Или всё же RAG технология лучше работает с обычными текстовыми описаниями?
Тут только пробовать на ваших данных. Попробуйте сделать саммари из документов и эмбединги считать по ним.
Добрый день. Немного не по теме. Виталий, не знаете ли, как можно получить модель LLaMA 3.2 90b?
Поищи модели на huggungface. Обычно перевыложены другими пользователями. Еще рекомендую потестить qwen нейронки аналогичного размера - они лучше по метрикам.
Насколько виртуальные сервера медленнее VDS ?
Зависит от конкретного сервера и конкретного VDS. Тут только делать тесты под ваши задачи. Самые быстрые процессоры по одноядерной производительности это VDS с последними десктопными процессорами типа 7950x/9950x.
Плешивый долбоеб, может ты с нормальной скоростью будешь говорить?! Нифига же не понятно...
так,, а теперь делаешь ролик где рассказываешь сколько ФПС данная штука делает в Киберпанке ... (неважно ничего, главное название ролика.. ) и увидишь сколько хайпа набереш
Марк Цукерберг и его компания Meta столкнулись с несколькими значительными скандалами: 1. Утечка данных Cambridge Analytica: В 2018 году выяснилось, что данные миллионов пользователей Facebook были неправомерно использованы для политической рекламы. 2. Распространение дезинформации: Meta подвергалась критике за недостаточную борьбу с дезинформацией, особенно во время выборов. 3. Проблемы с конфиденциальностью: Постоянные вопросы о сборе и использовании пользовательских данных вызывали обеспокоенность у пользователей и регуляторов.
Что скажете о серверной Тесла NVIDIA P40 24G? Я считаю что она будет более эфективна чем карты для гейминга.
Карта старая и уже сейчас не поддерживает некоторые программные технологии. Еще она относительно слабая и энергоэффективность плохая. Ее уже распродают по 200 долларов. Можно ее использовать как очень бюджетный вариант с ограничениями.
Наши китайские друзья распаивают на 4090 еще 24гига, шьют какой то своей прошей и получают 4090 на 48гб vram, чип 4090 довольно шустрый, но вот для ллмок памяти ей конечно нахватает (хитрая Nvidia так делает чтоб брали профессиональные карты за многого денег)
Да есть такое. Получается отличная видеокарта для ИИ, но в свободной продаже ее не видел.