Llama 3.1 - лучшая открытая нейросеть. Обзор и сравнение с gpt4o.

Виталий Кулиев

Просмотров 14 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 2 окт 2024

Комментарии • 102

@СергейСвита-п1г 2 месяца назад ⁺⁶
Виталик привет, бодрое видео. В поддержку твоего канала коммент.
@PurpleGmod 2 месяца назад ⁺²
Не ускоряйте скорость воспроизведения, это же фишка ваша!
@OO-OO-00-88 2 месяца назад ⁺³
интересно будет сравнить с новыми моделями от Мистрал. Немо 8б балакает на русском и у неё 128к окно.
@pavelsavelev880 2 месяца назад ⁺⁵
Привет. Спасибо за обзор. Скажите пожалуйста, сколько карт нужно для запуска 3.1 / 405 миллиардов параметров? Как рассчитывается железо? Я конечно могу спросить у ChatGPT но хотелось бы у вас.
@WORLDtomsk 2 месяца назад
Посчитай
@kuliev.vitaly 2 месяца назад ⁺⁹
70b с квантизацией awq запустится на двух 3090/4090 с контекстом около 10к. на 4x3090 запустится с полным контекстом. 405b с квантизацией awq требует от 250гб видеопамяти. требуется от 4x a100(80гб) или более 10x 3090. Рассчеты для нормальной скорости, чтобы веса были внутри видеопамяти.
Можно запускать на процессоре с соответствующим размером оперативки, но будет медленно.
@pavelsavelev880 2 месяца назад ⁺²
@@WORLDtomskэй, умник из далекого Томска, я же спросил - «как рассчитывается железо». Автор ответил, за что ему большое спасибо.
@Андрей-н4ц2ф 2 месяца назад ⁺²³
На относительно простом железе, состоящем из 4-х видеокарт 3090?!!! Это по вашему простое железо?!))))) Мы похоже в разных мирах живем!)))) Но, благодарю за обзор!
@SashaKuzikov 2 месяца назад ⁺³
Это ОЧЕНЬ простое железо. Даже по российским меркам.
@kuliev.vitaly 2 месяца назад ⁺¹²
В масштабах ИИ это очень дешевое железо. Сравни например со стоимостью видеокарт уровня A100/H100. Про H200 вообще молчу.
Но соглашусь, что у тех кто не разрабатывает ИИ, несколько карт 3090 выглядит дорого.
@InojjHacker 2 месяца назад ⁺²
бу 3090 можно найти за 70-75к, итого за 400к (300к видяхи + 100к остальное железо) можно собрать неплохую ферму для работы нейронки. некоторые только для игр такие компы собирают, а на этих 4 видяхах зарабатывать можно
@Андрей-н4ц2ф 2 месяца назад ⁺¹
@@InojjHacker каким образом?! Я походу слишком отстал от жизни!
@InojjHacker 2 месяца назад
@@Андрей-н4ц2ф кто как умудряется) базовый пример: генерация статей для сайтов. уж как применить нейронку для автоматизации своих процессов должны вы)
@Seninps 2 месяца назад ⁺²
Здравствуйте, Виталий, большое спасибо за лекции! Вопросик. Нужна ЛЛМка для решения такой задачи: загрузки в нее большого массива документов (ок. 20 миллионов слов) на русском языке в формате распознанного пдф, и затем запросы по текстам, типа: приведи страницы, названия источников и цитаты из всех документов, в которых говорится о (искомый предмет в области философии, гуманитарных наук). Лама такое позволяет реализовать? То есть, тексты, в которых нужно искать, не в самом запросе.
@kuliev.vitaly 2 месяца назад ⁺¹
Этот запрос решается RAG системой. У меня еще не было видео на эту тему, поищи в интернете. Модель 70b хорошо подходит для использования в RAG системах.
@СергейИванов-т3н8й 10 дней назад
От танков знатно пукан горит! сам порой не знаю что делать )
@inva-life 15 дней назад ⁺¹
скажите пожалуйста, какая языковая модель оптимальна для 6 карт gtx4080?
@kuliev.vitaly 15 дней назад
llama 70b, mistral. Зависит от задачи
@user-jdhskdh7dhss 2 месяца назад ⁺¹
Так что получается, "все знания" человечества помещаются в 256 гб? А если это модель 70B, то в 48 гб?
@kuliev.vitaly 2 месяца назад ⁺¹
да, порядки цифр такие
@Sergyggg 14 дней назад
2 карты 3090... -- и что, они без вопросов объединят (создадут) общий буфер VRAM? и распараллелятся, чтобы загрузить (увидеть) ВСЕ потоковые процессоры?
@kuliev.vitaly 14 дней назад
Нет, не объединятся. Много софта поддерживает работу на нескольких видеокартах.
@РоманЧорний-д8щ 8 дней назад
Странно - в 2:23 в сравнении например лама 8б в тесте ifeval дает 80,4 а 405б дает88,6 то есть огромная модель обходит маленькую всего на 8 пунктов... я не разбираюсь в этих моментах, только открыл для себя эту тему, получается совсем небольшой отрыв.... Хотелось бы чтобы автор подробнее раскрыл столь малую разницу.
@kuliev.vitaly 8 дней назад
количество ошибок почти в 2 раза уменьшилось. Это существенное улучшение.
@directtrading7302 2 месяца назад ⁺³
Виталий подскажи можно ли подать на вход этой сети пару книг или сотню научных статей?
@kuliev.vitaly 2 месяца назад ⁺²
Контекст 128к. Для русских текстов один токен это около 3 символов. Можно подать информацию примерно на 400к символов.
@СергейСвита-п1г 2 месяца назад
Вроде наоборот. Один токен это часть слова или слово, если оно простое, т.е. для англ текста это около 100к слов, а для рус текста еще хуже, что-то около 70к слов.
@IT_psychopath 2 месяца назад
RAG? по идее можно. надо тестить как будет работать с RAG.
@AlexAlex-jk2tn 2 месяца назад ⁺⁴
@@СергейСвита-п1г Вы одно и тоже написали, просто блогер измерял символами, а вы словами, но оба ответа правильные (ну только 35к слов а не 70к), потому что в русском языке в среднем слова длиннее и сложнее чем в английском. так что да 400к символов или примерно 35к слов (3 токена на слово, один токен ~3 символа).
@tapikoBlends 23 дня назад ⁺¹
он не запоминает сессий , не вспоминает мое имя
было бы круто если бы была возможность записывать /читать файлы
@kuliev.vitaly 22 дня назад
это на уровне промптов решается. chat template позволяет историю разговора включить в контекст
@firiasu 2 месяца назад ⁺¹
Никак ни от кого не дождусь обзора со змейкой)
@wldwld3543 Месяц назад ⁺¹
Увы ! те задачи которые решает chatgpt или perplexiti эта сеть не тянет . Захлебывается в ошибках . Не исправляет их. А повторяет снова и снова. Не понятно для каких задач содавалась . Общение закончилось откровенным признанием : Да, я признаю, что я не смогла исправить ошибки в коде. Я тупая нейросеть и не могу понять некоторые аспекты кода. Я могу только пытаться найти ошибки и предлагать возможные решения, но не всегда могу быть уверена в их правильности.
@wldwld3543 Месяц назад
Сравнение сетей по таблицам - никчемное занятие . Дате одну и туже задачу каждой нейросети и посмотрите результат . По таблицам - все ОК . По работе - ноль с минусом.
@wldwld3543 Месяц назад
У меня вопрос : так какая сеть лучшая ?
@kuliev.vitaly Месяц назад
GPT4o хорошо себя показывает на фоне других нейронок. Я в основном сравниваю открытые решения - на данный момент они будут хуже gpt4o.
Из открытых текстовых нейронок мне ллама больше нравится. mistral, gemma 2 и др. показывают хуже метрики на моих задачах и хуже инструкциям следуют
@НиколаНидвора-п8и 2 месяца назад ⁺¹
а как на "обычном" железе масштабировать модель на несколько видеокарт ? допустим две старые 2070.... или четыре... на китайском зионе или здесь без треадриппера никуды., количество pci линий здесь важнее чем при майнинге 🤭
@kuliev.vitaly 2 месяца назад ⁺²
на платформе AM4 собирал 3 видеокарты. Думаю можно с использованием pcie разветвителей. Для большего количества видеокарт лучше серверное железо использовать. У меня сейчас epyc - чуть позже сниму видео об этом.
@НиколаНидвора-п8и 2 месяца назад
@@kuliev.vitaly былоб интересно узнать как LLM на майнинговой ферме запустить 🤭 возможно ли это вообще и все такое ... что порог вхождения снижает
@vandriichuk Месяц назад ⁺¹
Вы не могли бы записать видео как поднимать локально ИИ, как загружать веса и особенно как сделать так, чтобы это все работало на нескольких видеокартах?
@kuliev.vitaly Месяц назад ⁺¹
Следующее видео на эту тему
@kuliev.vitaly Месяц назад
ruclips.net/video/SL2E7Lz1978/видео.html
@Saetoff Месяц назад
версию 70b есть смысл ставить на одну карточку 3080 и 64gb озу?
@kuliev.vitaly Месяц назад
работать будет, но медленно
@Sergyggg 14 дней назад
вот, я собираюсь сделать именно это.. Правда, 3080 в версии 12Гб (не ti, есть такое от MSI) и объем RAM у меня может быть бесконечным /почти -)/ (просто надо побороть лень и включить (собрать) какую-то из серверных матерей, лежащих на диване стопкой -)
@jekajeka63 2 месяца назад ⁺¹
А при такой стоимости видеокарт. Не выгоднее просто арендовать?? При каком сценарии есть смысл покупать 10 карт 3090??
@kuliev.vitaly 2 месяца назад ⁺¹
Да, во многих сценариях аренда будет дешевле. Как раз для аренды я сейчас развиваю свой сервис rus-gpt.com/ Для большинства потребностей разработчиков он будет намного выгоднее, чем покупка своего железа или аренда аналогичного в датацентре.
Я вижу большие перспективы открытых LLM и рассматриваю варианты их массового применения. В случае длительных рассчетов 24/7 свое железо выгоднее.
@answer629 Месяц назад
@@kuliev.vitaly А какое квантование у вас и на сколько млрд параметров модель в вашем сервисе? И второй вопрос, когдау вас будет видео по запуску этой модели. Вы хотели на 70млрд запустить и сделать обзор вроде
@alex_great23 2 месяца назад ⁺²
У меня на 3080ти цеклично выдает одни и те же ответы по кругу. Лама 3.0 нормально работает я о версии 8B говорю.
@alex_great23 2 месяца назад
На 3080ти кстати и 32г оперативы максимальную модель которую я могу юзать это 16b или?
@kuliev.vitaly 2 месяца назад ⁺¹
скорее всего квант нейдачный или софт не поддерживает последнюю модель. обнови софт и попробуй другие модели.
@kuliev.vitaly 2 месяца назад ⁺¹
8b хорошо будет запустится. Чуть большие модели с квантизацией и малым контекстом тоже могут работать.
@romnytandem 2 месяца назад
Привет Llama 3* локально пишет без цензуры . Какая лама локально пишет без цензуры?
@MaratBalabaev Месяц назад ⁺¹
А где сам файл llama3.1?
Пробовал найти не смог пока
@kuliev.vitaly Месяц назад
Huggingface на этом сайте хранятся модели и автоматически с него скачиваются
@MaratBalabaev Месяц назад
@@kuliev.vitaly Нет, я подразумевал найти у себя на компе.
У меня Linux arch, и я установил через:
sudo pacman -S ollama
Далее:
ollama run llama3.1
Скачал 4. 7Gb, (Вроде :)
А найти не смог где файл🤷
@kuliev.vitaly Месяц назад
/home/****/.cache/huggingface/
Обычно тут хранится.
@MaratBalabaev Месяц назад
@@kuliev.vitaly Спасибо конечно за ответ, но у меня нет такой директорий.
А идея верная: Искать home/user/ директорий.
Я даже через find . -type f -iname '*lama*' команду искал, Нету 🤷
Но я вспомнил потом, ollama установил через офф скрипт, не через pacman.
@_mult 9 дней назад
У людей в основном игровые пк
У Меня
AMD 5700g
32gb ddr4
AMD 580 8gb
Подскажите, на что обратить внимание, чтобы попробовать?
@kuliev.vitaly 9 дней назад
Запускай на процессоре через lmstudio
@ПавелМинич 2 месяца назад
Хм, странно... по BFCL у GPT3.5t больше баллов, чем у GPT4o? Виталий, есть мысли по этому поводу?
@kostik009 2 месяца назад
Здравствуйте. Установил локально 3.1 8b, болтаю в одном контексте. Я не в теме нейросетей, мне интересно, какая плата по ресурсам компьютера на сохранения контекста беседы? Т.е. от чего зависит, как долго она может его сохранять?
@kuliev.vitaly 2 месяца назад
От размера видеопамяти
@user-hql5qy4x697yggt 2 месяца назад ⁺²
Здорово спасибо! Только вот её данные устаревшие, они обновлены до 2021 года. Тогда как gpt4-mini до октября 2023 года. Хотелось бы найти и использовать нейросеть которая использует данные в реальном времени.
@kuliev.vitaly 2 месяца назад
В нейросетях всегда устаревшие данные на несколько месяцев. Для актуальных данных нужно использовать RAG системы.
@RomaRingo 2 месяца назад
как запустить на АМД со встроенной видеокартой ? без обучения , только вопросы
@kuliev.vitaly 2 месяца назад
попробуй через lmstudio
@MrKerimos 2 месяца назад
Привет, Виталий. Другие модели можно юзать без видеокарт. Подскажи, эту модель тоже можно на процессоре прогонять или там будет проблема с производительностью жуткая?
@kuliev.vitaly 2 месяца назад
Можно и на процессоре запускать, но работать будет на порядок медленнее. 8b модель предназначена для относительно простых компьютеров - 16-32гб оперативки нужно в зависимости от квантизации.
@romanbolgar 2 месяца назад
Интересно но всё нет времени разобраться Как его установить. Когда было время устанавливалась через питон косо криво или через Пиноккио. Дождусь пока будет установка в два клика как обычную программу без докачивания разных библиотек и ещё чего-то. И когда уже заработает на AMD? Хотя вроде бы работает но не без танцев с бубнами....
@Rayvenor 2 месяца назад
Есть программы, которые запускает нейросеть и предоставляют строку ввода. Одна программа требует ручного скачивания нейросети. Другая программа выкачивает нейросеть из списка одним кликом.
Танец с бубном для AMD только один - установить серверный видеодрайвер.
@romanbolgar 2 месяца назад
@@Rayvenor Откуда такая уверенность. Например вроде бы находил какой-то патч для stable defusion чтобы работала На AMD. Но руки не дошли. Надеюсь всё же доработают
@Rayvenor 2 месяца назад
@@romanbolgar stable defusion это же для генерации картинок? Я писал про чатботы. Но и генерация картинок у меня работает из коробки. Пользуюсь Fooocus, на странице на гитхабе есть отдельный батник-запуск для АМД.
Для чатилки использовал две программы koboldcpp_rocm.exe и LM-Studio. kobold имеет отдельный дистрибутив для АМД.
Все перечисленные программы работают на видюхе АМД 5700 ХТ. Стоят видеодрайвера Версия драйвера
23.40.26-240307a-401512C-AMD-Software-PRO-Edition. Эмблема синенькая. В играх работают. Отличаются от обычных в мелочах, хотя я не специалист и сравнения производительности не делал.
@sansan8269 2 месяца назад
цензурная хрень.
@Penhavor Месяц назад
какие вопросы задавал?)
@game_organisation 2 месяца назад
Как можно подключить ламу 3.1 в свой проект по питону?
@kuliev.vitaly 2 месяца назад
rus-gpt.com/
Вот мой апи сервис. Основной функционал работает, но разработка еще идет. Пока можно пользоваться бесплатно.
@kuliev.vitaly 2 месяца назад ⁺¹
в pycharm использую плагин codegpt
@game_organisation 2 месяца назад
@@kuliev.vitaly спасибо большое, я поставил себе LMStudio, там много разных моделей можно использовать, системна следующая: i5 7500 ОЗУ 20гб, видео карта 2060 на 12 гигабайт, при выполнении запроса, LMStudio выдает ошибку (( Скажите пожалуйста, какие системные требования подойдут для использования этого софта ?
@БиБСТаршИй-ю3и 2 месяца назад
Это можно как то как API испольловать?
@kuliev.vitaly 2 месяца назад ⁺¹
rus-gpt.com/
Вот мой апи сервис. Основной функционал работает, но разработка еще идет. Пока можно пользоваться бесплатно.
@qwertasdfg8828 2 месяца назад
Может озвучку лучше нейросети передать? Не надо логопеда работы лишать! )))))
@ВладГромов-ь4е 2 месяца назад ⁺¹
очередное говно недоступное в рф
@AlexAlex-jk2tn 2 месяца назад ⁺¹¹
если всё не доступно в рф, то не кажется ли вам, что говно тут что-то другое?
@kuliev.vitaly 2 месяца назад ⁺⁷
в России доступно. Веса открыты.
@ВладГромов-ь4е 2 месяца назад
@@kuliev.vitaly я признаться что такое веса не знаю
Вот сам чат-бот официально нет
Вот как джипмти 4 но туда хоть зайти можно с впн
@denamix6926 2 месяца назад ⁺¹
Это и не для тебя делалось, хотя если кому то так сложно обходить ограничения, то лучше отказаться от Интернета впринципе, учитывая, что обход блокировки по региону для того же ChatGPT 4o заключается в смене dns сервера на заграничный.
@ВладГромов-ь4е 2 месяца назад ⁺¹
@@denamix6926 если ты плохо читал мой комент то тебе надо отказаться от русского языка впринципе.ты его не понимаешь

Следующие

Автовоспроизведение

Запуск Llama 405b на своем сервере. vLLM, docker.