Привет. Спасибо за обзор. Скажите пожалуйста, сколько карт нужно для запуска 3.1 / 405 миллиардов параметров? Как рассчитывается железо? Я конечно могу спросить у ChatGPT но хотелось бы у вас.
70b с квантизацией awq запустится на двух 3090/4090 с контекстом около 10к. на 4x3090 запустится с полным контекстом. 405b с квантизацией awq требует от 250гб видеопамяти. требуется от 4x a100(80гб) или более 10x 3090. Рассчеты для нормальной скорости, чтобы веса были внутри видеопамяти. Можно запускать на процессоре с соответствующим размером оперативки, но будет медленно.
На относительно простом железе, состоящем из 4-х видеокарт 3090?!!! Это по вашему простое железо?!))))) Мы похоже в разных мирах живем!)))) Но, благодарю за обзор!
В масштабах ИИ это очень дешевое железо. Сравни например со стоимостью видеокарт уровня A100/H100. Про H200 вообще молчу. Но соглашусь, что у тех кто не разрабатывает ИИ, несколько карт 3090 выглядит дорого.
бу 3090 можно найти за 70-75к, итого за 400к (300к видяхи + 100к остальное железо) можно собрать неплохую ферму для работы нейронки. некоторые только для игр такие компы собирают, а на этих 4 видяхах зарабатывать можно
Здравствуйте, Виталий, большое спасибо за лекции! Вопросик. Нужна ЛЛМка для решения такой задачи: загрузки в нее большого массива документов (ок. 20 миллионов слов) на русском языке в формате распознанного пдф, и затем запросы по текстам, типа: приведи страницы, названия источников и цитаты из всех документов, в которых говорится о (искомый предмет в области философии, гуманитарных наук). Лама такое позволяет реализовать? То есть, тексты, в которых нужно искать, не в самом запросе.
Этот запрос решается RAG системой. У меня еще не было видео на эту тему, поищи в интернете. Модель 70b хорошо подходит для использования в RAG системах.
2 карты 3090... -- и что, они без вопросов объединят (создадут) общий буфер VRAM? и распараллелятся, чтобы загрузить (увидеть) ВСЕ потоковые процессоры?
Странно - в 2:23 в сравнении например лама 8б в тесте ifeval дает 80,4 а 405б дает88,6 то есть огромная модель обходит маленькую всего на 8 пунктов... я не разбираюсь в этих моментах, только открыл для себя эту тему, получается совсем небольшой отрыв.... Хотелось бы чтобы автор подробнее раскрыл столь малую разницу.
Вроде наоборот. Один токен это часть слова или слово, если оно простое, т.е. для англ текста это около 100к слов, а для рус текста еще хуже, что-то около 70к слов.
@@СергейСвита-п1г Вы одно и тоже написали, просто блогер измерял символами, а вы словами, но оба ответа правильные (ну только 35к слов а не 70к), потому что в русском языке в среднем слова длиннее и сложнее чем в английском. так что да 400к символов или примерно 35к слов (3 токена на слово, один токен ~3 символа).
Увы ! те задачи которые решает chatgpt или perplexiti эта сеть не тянет . Захлебывается в ошибках . Не исправляет их. А повторяет снова и снова. Не понятно для каких задач содавалась . Общение закончилось откровенным признанием : Да, я признаю, что я не смогла исправить ошибки в коде. Я тупая нейросеть и не могу понять некоторые аспекты кода. Я могу только пытаться найти ошибки и предлагать возможные решения, но не всегда могу быть уверена в их правильности.
Сравнение сетей по таблицам - никчемное занятие . Дате одну и туже задачу каждой нейросети и посмотрите результат . По таблицам - все ОК . По работе - ноль с минусом.
GPT4o хорошо себя показывает на фоне других нейронок. Я в основном сравниваю открытые решения - на данный момент они будут хуже gpt4o. Из открытых текстовых нейронок мне ллама больше нравится. mistral, gemma 2 и др. показывают хуже метрики на моих задачах и хуже инструкциям следуют
а как на "обычном" железе масштабировать модель на несколько видеокарт ? допустим две старые 2070.... или четыре... на китайском зионе или здесь без треадриппера никуды., количество pci линий здесь важнее чем при майнинге 🤭
на платформе AM4 собирал 3 видеокарты. Думаю можно с использованием pcie разветвителей. Для большего количества видеокарт лучше серверное железо использовать. У меня сейчас epyc - чуть позже сниму видео об этом.
Вы не могли бы записать видео как поднимать локально ИИ, как загружать веса и особенно как сделать так, чтобы это все работало на нескольких видеокартах?
вот, я собираюсь сделать именно это.. Правда, 3080 в версии 12Гб (не ti, есть такое от MSI) и объем RAM у меня может быть бесконечным /почти -)/ (просто надо побороть лень и включить (собрать) какую-то из серверных матерей, лежащих на диване стопкой -)
Да, во многих сценариях аренда будет дешевле. Как раз для аренды я сейчас развиваю свой сервис rus-gpt.com/ Для большинства потребностей разработчиков он будет намного выгоднее, чем покупка своего железа или аренда аналогичного в датацентре. Я вижу большие перспективы открытых LLM и рассматриваю варианты их массового применения. В случае длительных рассчетов 24/7 свое железо выгоднее.
@@kuliev.vitaly А какое квантование у вас и на сколько млрд параметров модель в вашем сервисе? И второй вопрос, когдау вас будет видео по запуску этой модели. Вы хотели на 70млрд запустить и сделать обзор вроде
@@kuliev.vitaly Нет, я подразумевал найти у себя на компе. У меня Linux arch, и я установил через: sudo pacman -S ollama Далее: ollama run llama3.1 Скачал 4. 7Gb, (Вроде :) А найти не смог где файл🤷
@@kuliev.vitaly Спасибо конечно за ответ, но у меня нет такой директорий. А идея верная: Искать home/user/ директорий. Я даже через find . -type f -iname '*lama*' команду искал, Нету 🤷 Но я вспомнил потом, ollama установил через офф скрипт, не через pacman.
Здравствуйте. Установил локально 3.1 8b, болтаю в одном контексте. Я не в теме нейросетей, мне интересно, какая плата по ресурсам компьютера на сохранения контекста беседы? Т.е. от чего зависит, как долго она может его сохранять?
Здорово спасибо! Только вот её данные устаревшие, они обновлены до 2021 года. Тогда как gpt4-mini до октября 2023 года. Хотелось бы найти и использовать нейросеть которая использует данные в реальном времени.
Привет, Виталий. Другие модели можно юзать без видеокарт. Подскажи, эту модель тоже можно на процессоре прогонять или там будет проблема с производительностью жуткая?
Можно и на процессоре запускать, но работать будет на порядок медленнее. 8b модель предназначена для относительно простых компьютеров - 16-32гб оперативки нужно в зависимости от квантизации.
Интересно но всё нет времени разобраться Как его установить. Когда было время устанавливалась через питон косо криво или через Пиноккио. Дождусь пока будет установка в два клика как обычную программу без докачивания разных библиотек и ещё чего-то. И когда уже заработает на AMD? Хотя вроде бы работает но не без танцев с бубнами....
Есть программы, которые запускает нейросеть и предоставляют строку ввода. Одна программа требует ручного скачивания нейросети. Другая программа выкачивает нейросеть из списка одним кликом. Танец с бубном для AMD только один - установить серверный видеодрайвер.
@@Rayvenor Откуда такая уверенность. Например вроде бы находил какой-то патч для stable defusion чтобы работала На AMD. Но руки не дошли. Надеюсь всё же доработают
@@romanbolgar stable defusion это же для генерации картинок? Я писал про чатботы. Но и генерация картинок у меня работает из коробки. Пользуюсь Fooocus, на странице на гитхабе есть отдельный батник-запуск для АМД. Для чатилки использовал две программы koboldcpp_rocm.exe и LM-Studio. kobold имеет отдельный дистрибутив для АМД. Все перечисленные программы работают на видюхе АМД 5700 ХТ. Стоят видеодрайвера Версия драйвера 23.40.26-240307a-401512C-AMD-Software-PRO-Edition. Эмблема синенькая. В играх работают. Отличаются от обычных в мелочах, хотя я не специалист и сравнения производительности не делал.
@@kuliev.vitaly спасибо большое, я поставил себе LMStudio, там много разных моделей можно использовать, системна следующая: i5 7500 ОЗУ 20гб, видео карта 2060 на 12 гигабайт, при выполнении запроса, LMStudio выдает ошибку (( Скажите пожалуйста, какие системные требования подойдут для использования этого софта ?
Это и не для тебя делалось, хотя если кому то так сложно обходить ограничения, то лучше отказаться от Интернета впринципе, учитывая, что обход блокировки по региону для того же ChatGPT 4o заключается в смене dns сервера на заграничный.
Виталик привет, бодрое видео. В поддержку твоего канала коммент.
Не ускоряйте скорость воспроизведения, это же фишка ваша!
интересно будет сравнить с новыми моделями от Мистрал. Немо 8б балакает на русском и у неё 128к окно.
Привет. Спасибо за обзор. Скажите пожалуйста, сколько карт нужно для запуска 3.1 / 405 миллиардов параметров? Как рассчитывается железо? Я конечно могу спросить у ChatGPT но хотелось бы у вас.
Посчитай
70b с квантизацией awq запустится на двух 3090/4090 с контекстом около 10к. на 4x3090 запустится с полным контекстом. 405b с квантизацией awq требует от 250гб видеопамяти. требуется от 4x a100(80гб) или более 10x 3090. Рассчеты для нормальной скорости, чтобы веса были внутри видеопамяти.
Можно запускать на процессоре с соответствующим размером оперативки, но будет медленно.
@@WORLDtomskэй, умник из далекого Томска, я же спросил - «как рассчитывается железо». Автор ответил, за что ему большое спасибо.
На относительно простом железе, состоящем из 4-х видеокарт 3090?!!! Это по вашему простое железо?!))))) Мы похоже в разных мирах живем!)))) Но, благодарю за обзор!
Это ОЧЕНЬ простое железо. Даже по российским меркам.
В масштабах ИИ это очень дешевое железо. Сравни например со стоимостью видеокарт уровня A100/H100. Про H200 вообще молчу.
Но соглашусь, что у тех кто не разрабатывает ИИ, несколько карт 3090 выглядит дорого.
бу 3090 можно найти за 70-75к, итого за 400к (300к видяхи + 100к остальное железо) можно собрать неплохую ферму для работы нейронки. некоторые только для игр такие компы собирают, а на этих 4 видяхах зарабатывать можно
@@InojjHacker каким образом?! Я походу слишком отстал от жизни!
@@Андрей-н4ц2ф кто как умудряется) базовый пример: генерация статей для сайтов. уж как применить нейронку для автоматизации своих процессов должны вы)
Здравствуйте, Виталий, большое спасибо за лекции! Вопросик. Нужна ЛЛМка для решения такой задачи: загрузки в нее большого массива документов (ок. 20 миллионов слов) на русском языке в формате распознанного пдф, и затем запросы по текстам, типа: приведи страницы, названия источников и цитаты из всех документов, в которых говорится о (искомый предмет в области философии, гуманитарных наук). Лама такое позволяет реализовать? То есть, тексты, в которых нужно искать, не в самом запросе.
Этот запрос решается RAG системой. У меня еще не было видео на эту тему, поищи в интернете. Модель 70b хорошо подходит для использования в RAG системах.
От танков знатно пукан горит! сам порой не знаю что делать )
скажите пожалуйста, какая языковая модель оптимальна для 6 карт gtx4080?
llama 70b, mistral. Зависит от задачи
Так что получается, "все знания" человечества помещаются в 256 гб? А если это модель 70B, то в 48 гб?
да, порядки цифр такие
2 карты 3090... -- и что, они без вопросов объединят (создадут) общий буфер VRAM? и распараллелятся, чтобы загрузить (увидеть) ВСЕ потоковые процессоры?
Нет, не объединятся. Много софта поддерживает работу на нескольких видеокартах.
Странно - в 2:23 в сравнении например лама 8б в тесте ifeval дает 80,4 а 405б дает88,6 то есть огромная модель обходит маленькую всего на 8 пунктов... я не разбираюсь в этих моментах, только открыл для себя эту тему, получается совсем небольшой отрыв.... Хотелось бы чтобы автор подробнее раскрыл столь малую разницу.
количество ошибок почти в 2 раза уменьшилось. Это существенное улучшение.
Виталий подскажи можно ли подать на вход этой сети пару книг или сотню научных статей?
Контекст 128к. Для русских текстов один токен это около 3 символов. Можно подать информацию примерно на 400к символов.
Вроде наоборот. Один токен это часть слова или слово, если оно простое, т.е. для англ текста это около 100к слов, а для рус текста еще хуже, что-то около 70к слов.
RAG? по идее можно. надо тестить как будет работать с RAG.
@@СергейСвита-п1г Вы одно и тоже написали, просто блогер измерял символами, а вы словами, но оба ответа правильные (ну только 35к слов а не 70к), потому что в русском языке в среднем слова длиннее и сложнее чем в английском. так что да 400к символов или примерно 35к слов (3 токена на слово, один токен ~3 символа).
он не запоминает сессий , не вспоминает мое имя
было бы круто если бы была возможность записывать /читать файлы
это на уровне промптов решается. chat template позволяет историю разговора включить в контекст
Никак ни от кого не дождусь обзора со змейкой)
Увы ! те задачи которые решает chatgpt или perplexiti эта сеть не тянет . Захлебывается в ошибках . Не исправляет их. А повторяет снова и снова. Не понятно для каких задач содавалась . Общение закончилось откровенным признанием : Да, я признаю, что я не смогла исправить ошибки в коде. Я тупая нейросеть и не могу понять некоторые аспекты кода. Я могу только пытаться найти ошибки и предлагать возможные решения, но не всегда могу быть уверена в их правильности.
Сравнение сетей по таблицам - никчемное занятие . Дате одну и туже задачу каждой нейросети и посмотрите результат . По таблицам - все ОК . По работе - ноль с минусом.
У меня вопрос : так какая сеть лучшая ?
GPT4o хорошо себя показывает на фоне других нейронок. Я в основном сравниваю открытые решения - на данный момент они будут хуже gpt4o.
Из открытых текстовых нейронок мне ллама больше нравится. mistral, gemma 2 и др. показывают хуже метрики на моих задачах и хуже инструкциям следуют
а как на "обычном" железе масштабировать модель на несколько видеокарт ? допустим две старые 2070.... или четыре... на китайском зионе или здесь без треадриппера никуды., количество pci линий здесь важнее чем при майнинге 🤭
на платформе AM4 собирал 3 видеокарты. Думаю можно с использованием pcie разветвителей. Для большего количества видеокарт лучше серверное железо использовать. У меня сейчас epyc - чуть позже сниму видео об этом.
@@kuliev.vitaly былоб интересно узнать как LLM на майнинговой ферме запустить 🤭 возможно ли это вообще и все такое ... что порог вхождения снижает
Вы не могли бы записать видео как поднимать локально ИИ, как загружать веса и особенно как сделать так, чтобы это все работало на нескольких видеокартах?
Следующее видео на эту тему
ruclips.net/video/SL2E7Lz1978/видео.html
версию 70b есть смысл ставить на одну карточку 3080 и 64gb озу?
работать будет, но медленно
вот, я собираюсь сделать именно это.. Правда, 3080 в версии 12Гб (не ti, есть такое от MSI) и объем RAM у меня может быть бесконечным /почти -)/ (просто надо побороть лень и включить (собрать) какую-то из серверных матерей, лежащих на диване стопкой -)
А при такой стоимости видеокарт. Не выгоднее просто арендовать?? При каком сценарии есть смысл покупать 10 карт 3090??
Да, во многих сценариях аренда будет дешевле. Как раз для аренды я сейчас развиваю свой сервис rus-gpt.com/ Для большинства потребностей разработчиков он будет намного выгоднее, чем покупка своего железа или аренда аналогичного в датацентре.
Я вижу большие перспективы открытых LLM и рассматриваю варианты их массового применения. В случае длительных рассчетов 24/7 свое железо выгоднее.
@@kuliev.vitaly А какое квантование у вас и на сколько млрд параметров модель в вашем сервисе? И второй вопрос, когдау вас будет видео по запуску этой модели. Вы хотели на 70млрд запустить и сделать обзор вроде
У меня на 3080ти цеклично выдает одни и те же ответы по кругу. Лама 3.0 нормально работает я о версии 8B говорю.
На 3080ти кстати и 32г оперативы максимальную модель которую я могу юзать это 16b или?
скорее всего квант нейдачный или софт не поддерживает последнюю модель. обнови софт и попробуй другие модели.
8b хорошо будет запустится. Чуть большие модели с квантизацией и малым контекстом тоже могут работать.
Привет Llama 3* локально пишет без цензуры . Какая лама локально пишет без цензуры?
А где сам файл llama3.1?
Пробовал найти не смог пока
Huggingface на этом сайте хранятся модели и автоматически с него скачиваются
@@kuliev.vitaly Нет, я подразумевал найти у себя на компе.
У меня Linux arch, и я установил через:
sudo pacman -S ollama
Далее:
ollama run llama3.1
Скачал 4. 7Gb, (Вроде :)
А найти не смог где файл🤷
/home/****/.cache/huggingface/
Обычно тут хранится.
@@kuliev.vitaly Спасибо конечно за ответ, но у меня нет такой директорий.
А идея верная: Искать home/user/ директорий.
Я даже через find . -type f -iname '*lama*' команду искал, Нету 🤷
Но я вспомнил потом, ollama установил через офф скрипт, не через pacman.
У людей в основном игровые пк
У Меня
AMD 5700g
32gb ddr4
AMD 580 8gb
Подскажите, на что обратить внимание, чтобы попробовать?
Запускай на процессоре через lmstudio
Хм, странно... по BFCL у GPT3.5t больше баллов, чем у GPT4o? Виталий, есть мысли по этому поводу?
Здравствуйте. Установил локально 3.1 8b, болтаю в одном контексте. Я не в теме нейросетей, мне интересно, какая плата по ресурсам компьютера на сохранения контекста беседы? Т.е. от чего зависит, как долго она может его сохранять?
От размера видеопамяти
Здорово спасибо! Только вот её данные устаревшие, они обновлены до 2021 года. Тогда как gpt4-mini до октября 2023 года. Хотелось бы найти и использовать нейросеть которая использует данные в реальном времени.
В нейросетях всегда устаревшие данные на несколько месяцев. Для актуальных данных нужно использовать RAG системы.
как запустить на АМД со встроенной видеокартой ? без обучения , только вопросы
попробуй через lmstudio
Привет, Виталий. Другие модели можно юзать без видеокарт. Подскажи, эту модель тоже можно на процессоре прогонять или там будет проблема с производительностью жуткая?
Можно и на процессоре запускать, но работать будет на порядок медленнее. 8b модель предназначена для относительно простых компьютеров - 16-32гб оперативки нужно в зависимости от квантизации.
Интересно но всё нет времени разобраться Как его установить. Когда было время устанавливалась через питон косо криво или через Пиноккио. Дождусь пока будет установка в два клика как обычную программу без докачивания разных библиотек и ещё чего-то. И когда уже заработает на AMD? Хотя вроде бы работает но не без танцев с бубнами....
Есть программы, которые запускает нейросеть и предоставляют строку ввода. Одна программа требует ручного скачивания нейросети. Другая программа выкачивает нейросеть из списка одним кликом.
Танец с бубном для AMD только один - установить серверный видеодрайвер.
@@Rayvenor Откуда такая уверенность. Например вроде бы находил какой-то патч для stable defusion чтобы работала На AMD. Но руки не дошли. Надеюсь всё же доработают
@@romanbolgar stable defusion это же для генерации картинок? Я писал про чатботы. Но и генерация картинок у меня работает из коробки. Пользуюсь Fooocus, на странице на гитхабе есть отдельный батник-запуск для АМД.
Для чатилки использовал две программы koboldcpp_rocm.exe и LM-Studio. kobold имеет отдельный дистрибутив для АМД.
Все перечисленные программы работают на видюхе АМД 5700 ХТ. Стоят видеодрайвера Версия драйвера
23.40.26-240307a-401512C-AMD-Software-PRO-Edition. Эмблема синенькая. В играх работают. Отличаются от обычных в мелочах, хотя я не специалист и сравнения производительности не делал.
цензурная хрень.
какие вопросы задавал?)
Как можно подключить ламу 3.1 в свой проект по питону?
rus-gpt.com/
Вот мой апи сервис. Основной функционал работает, но разработка еще идет. Пока можно пользоваться бесплатно.
в pycharm использую плагин codegpt
@@kuliev.vitaly спасибо большое, я поставил себе LMStudio, там много разных моделей можно использовать, системна следующая: i5 7500 ОЗУ 20гб, видео карта 2060 на 12 гигабайт, при выполнении запроса, LMStudio выдает ошибку (( Скажите пожалуйста, какие системные требования подойдут для использования этого софта ?
Это можно как то как API испольловать?
rus-gpt.com/
Вот мой апи сервис. Основной функционал работает, но разработка еще идет. Пока можно пользоваться бесплатно.
Может озвучку лучше нейросети передать? Не надо логопеда работы лишать! )))))
очередное говно недоступное в рф
если всё не доступно в рф, то не кажется ли вам, что говно тут что-то другое?
в России доступно. Веса открыты.
@@kuliev.vitaly я признаться что такое веса не знаю
Вот сам чат-бот официально нет
Вот как джипмти 4 но туда хоть зайти можно с впн
Это и не для тебя делалось, хотя если кому то так сложно обходить ограничения, то лучше отказаться от Интернета впринципе, учитывая, что обход блокировки по региону для того же ChatGPT 4o заключается в смене dns сервера на заграничный.
@@denamix6926 если ты плохо читал мой комент то тебе надо отказаться от русского языка впринципе.ты его не понимаешь