Llama 3.1 - лучшая открытая нейросеть. Обзор и сравнение с gpt4o.

Поделиться
HTML-код
  • Опубликовано: 2 окт 2024

Комментарии • 102

  • @СергейСвита-п1г
    @СергейСвита-п1г 2 месяца назад +6

    Виталик привет, бодрое видео. В поддержку твоего канала коммент.

  • @PurpleGmod
    @PurpleGmod 2 месяца назад +2

    Не ускоряйте скорость воспроизведения, это же фишка ваша!

  • @OO-OO-00-88
    @OO-OO-00-88 2 месяца назад +3

    интересно будет сравнить с новыми моделями от Мистрал. Немо 8б балакает на русском и у неё 128к окно.

  • @pavelsavelev880
    @pavelsavelev880 2 месяца назад +5

    Привет. Спасибо за обзор. Скажите пожалуйста, сколько карт нужно для запуска 3.1 / 405 миллиардов параметров? Как рассчитывается железо? Я конечно могу спросить у ChatGPT но хотелось бы у вас.

    • @WORLDtomsk
      @WORLDtomsk 2 месяца назад

      Посчитай

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +9

      70b с квантизацией awq запустится на двух 3090/4090 с контекстом около 10к. на 4x3090 запустится с полным контекстом. 405b с квантизацией awq требует от 250гб видеопамяти. требуется от 4x a100(80гб) или более 10x 3090. Рассчеты для нормальной скорости, чтобы веса были внутри видеопамяти.
      Можно запускать на процессоре с соответствующим размером оперативки, но будет медленно.

    • @pavelsavelev880
      @pavelsavelev880 2 месяца назад +2

      @@WORLDtomskэй, умник из далекого Томска, я же спросил - «как рассчитывается железо». Автор ответил, за что ему большое спасибо.

  • @Андрей-н4ц2ф
    @Андрей-н4ц2ф 2 месяца назад +23

    На относительно простом железе, состоящем из 4-х видеокарт 3090?!!! Это по вашему простое железо?!))))) Мы похоже в разных мирах живем!)))) Но, благодарю за обзор!

    • @SashaKuzikov
      @SashaKuzikov 2 месяца назад +3

      Это ОЧЕНЬ простое железо. Даже по российским меркам.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +12

      В масштабах ИИ это очень дешевое железо. Сравни например со стоимостью видеокарт уровня A100/H100. Про H200 вообще молчу.
      Но соглашусь, что у тех кто не разрабатывает ИИ, несколько карт 3090 выглядит дорого.

    • @InojjHacker
      @InojjHacker 2 месяца назад +2

      бу 3090 можно найти за 70-75к, итого за 400к (300к видяхи + 100к остальное железо) можно собрать неплохую ферму для работы нейронки. некоторые только для игр такие компы собирают, а на этих 4 видяхах зарабатывать можно

    • @Андрей-н4ц2ф
      @Андрей-н4ц2ф 2 месяца назад +1

      @@InojjHacker каким образом?! Я походу слишком отстал от жизни!

    • @InojjHacker
      @InojjHacker 2 месяца назад

      @@Андрей-н4ц2ф кто как умудряется) базовый пример: генерация статей для сайтов. уж как применить нейронку для автоматизации своих процессов должны вы)

  • @Seninps
    @Seninps 2 месяца назад +2

    Здравствуйте, Виталий, большое спасибо за лекции! Вопросик. Нужна ЛЛМка для решения такой задачи: загрузки в нее большого массива документов (ок. 20 миллионов слов) на русском языке в формате распознанного пдф, и затем запросы по текстам, типа: приведи страницы, названия источников и цитаты из всех документов, в которых говорится о (искомый предмет в области философии, гуманитарных наук). Лама такое позволяет реализовать? То есть, тексты, в которых нужно искать, не в самом запросе.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      Этот запрос решается RAG системой. У меня еще не было видео на эту тему, поищи в интернете. Модель 70b хорошо подходит для использования в RAG системах.

  • @СергейИванов-т3н8й
    @СергейИванов-т3н8й 10 дней назад

    От танков знатно пукан горит! сам порой не знаю что делать )

  • @inva-life
    @inva-life 15 дней назад +1

    скажите пожалуйста, какая языковая модель оптимальна для 6 карт gtx4080?

    • @kuliev.vitaly
      @kuliev.vitaly  15 дней назад

      llama 70b, mistral. Зависит от задачи

  • @user-jdhskdh7dhss
    @user-jdhskdh7dhss 2 месяца назад +1

    Так что получается, "все знания" человечества помещаются в 256 гб? А если это модель 70B, то в 48 гб?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      да, порядки цифр такие

  • @Sergyggg
    @Sergyggg 14 дней назад

    2 карты 3090... -- и что, они без вопросов объединят (создадут) общий буфер VRAM? и распараллелятся, чтобы загрузить (увидеть) ВСЕ потоковые процессоры?

    • @kuliev.vitaly
      @kuliev.vitaly  14 дней назад

      Нет, не объединятся. Много софта поддерживает работу на нескольких видеокартах.

  • @РоманЧорний-д8щ
    @РоманЧорний-д8щ 8 дней назад

    Странно - в 2:23 в сравнении например лама 8б в тесте ifeval дает 80,4 а 405б дает88,6 то есть огромная модель обходит маленькую всего на 8 пунктов... я не разбираюсь в этих моментах, только открыл для себя эту тему, получается совсем небольшой отрыв.... Хотелось бы чтобы автор подробнее раскрыл столь малую разницу.

    • @kuliev.vitaly
      @kuliev.vitaly  8 дней назад

      количество ошибок почти в 2 раза уменьшилось. Это существенное улучшение.

  • @directtrading7302
    @directtrading7302 2 месяца назад +3

    Виталий подскажи можно ли подать на вход этой сети пару книг или сотню научных статей?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +2

      Контекст 128к. Для русских текстов один токен это около 3 символов. Можно подать информацию примерно на 400к символов.

    • @СергейСвита-п1г
      @СергейСвита-п1г 2 месяца назад

      Вроде наоборот. Один токен это часть слова или слово, если оно простое, т.е. для англ текста это около 100к слов, а для рус текста еще хуже, что-то около 70к слов.

    • @IT_psychopath
      @IT_psychopath 2 месяца назад

      RAG? по идее можно. надо тестить как будет работать с RAG.

    • @AlexAlex-jk2tn
      @AlexAlex-jk2tn 2 месяца назад +4

      @@СергейСвита-п1г Вы одно и тоже написали, просто блогер измерял символами, а вы словами, но оба ответа правильные (ну только 35к слов а не 70к), потому что в русском языке в среднем слова длиннее и сложнее чем в английском. так что да 400к символов или примерно 35к слов (3 токена на слово, один токен ~3 символа).

  • @tapikoBlends
    @tapikoBlends 23 дня назад +1

    он не запоминает сессий , не вспоминает мое имя
    было бы круто если бы была возможность записывать /читать файлы

    • @kuliev.vitaly
      @kuliev.vitaly  22 дня назад

      это на уровне промптов решается. chat template позволяет историю разговора включить в контекст

  • @firiasu
    @firiasu 2 месяца назад +1

    Никак ни от кого не дождусь обзора со змейкой)

  • @wldwld3543
    @wldwld3543 Месяц назад +1

    Увы ! те задачи которые решает chatgpt или perplexiti эта сеть не тянет . Захлебывается в ошибках . Не исправляет их. А повторяет снова и снова. Не понятно для каких задач содавалась . Общение закончилось откровенным признанием : Да, я признаю, что я не смогла исправить ошибки в коде. Я тупая нейросеть и не могу понять некоторые аспекты кода. Я могу только пытаться найти ошибки и предлагать возможные решения, но не всегда могу быть уверена в их правильности.

    • @wldwld3543
      @wldwld3543 Месяц назад

      Сравнение сетей по таблицам - никчемное занятие . Дате одну и туже задачу каждой нейросети и посмотрите результат . По таблицам - все ОК . По работе - ноль с минусом.

    • @wldwld3543
      @wldwld3543 Месяц назад

      У меня вопрос : так какая сеть лучшая ?

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      GPT4o хорошо себя показывает на фоне других нейронок. Я в основном сравниваю открытые решения - на данный момент они будут хуже gpt4o.
      Из открытых текстовых нейронок мне ллама больше нравится. mistral, gemma 2 и др. показывают хуже метрики на моих задачах и хуже инструкциям следуют

  • @НиколаНидвора-п8и
    @НиколаНидвора-п8и 2 месяца назад +1

    а как на "обычном" железе масштабировать модель на несколько видеокарт ? допустим две старые 2070.... или четыре... на китайском зионе или здесь без треадриппера никуды., количество pci линий здесь важнее чем при майнинге 🤭

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +2

      на платформе AM4 собирал 3 видеокарты. Думаю можно с использованием pcie разветвителей. Для большего количества видеокарт лучше серверное железо использовать. У меня сейчас epyc - чуть позже сниму видео об этом.

    • @НиколаНидвора-п8и
      @НиколаНидвора-п8и 2 месяца назад

      @@kuliev.vitaly былоб интересно узнать как LLM на майнинговой ферме запустить 🤭 возможно ли это вообще и все такое ... что порог вхождения снижает

  • @vandriichuk
    @vandriichuk Месяц назад +1

    Вы не могли бы записать видео как поднимать локально ИИ, как загружать веса и особенно как сделать так, чтобы это все работало на нескольких видеокартах?

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад +1

      Следующее видео на эту тему

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      ruclips.net/video/SL2E7Lz1978/видео.html

  • @Saetoff
    @Saetoff Месяц назад

    версию 70b есть смысл ставить на одну карточку 3080 и 64gb озу?

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      работать будет, но медленно

    • @Sergyggg
      @Sergyggg 14 дней назад

      вот, я собираюсь сделать именно это.. Правда, 3080 в версии 12Гб (не ti, есть такое от MSI) и объем RAM у меня может быть бесконечным /почти -)/ (просто надо побороть лень и включить (собрать) какую-то из серверных матерей, лежащих на диване стопкой -)

  • @jekajeka63
    @jekajeka63 2 месяца назад +1

    А при такой стоимости видеокарт. Не выгоднее просто арендовать?? При каком сценарии есть смысл покупать 10 карт 3090??

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      Да, во многих сценариях аренда будет дешевле. Как раз для аренды я сейчас развиваю свой сервис rus-gpt.com/ Для большинства потребностей разработчиков он будет намного выгоднее, чем покупка своего железа или аренда аналогичного в датацентре.
      Я вижу большие перспективы открытых LLM и рассматриваю варианты их массового применения. В случае длительных рассчетов 24/7 свое железо выгоднее.

    • @answer629
      @answer629 Месяц назад

      @@kuliev.vitaly А какое квантование у вас и на сколько млрд параметров модель в вашем сервисе? И второй вопрос, когдау вас будет видео по запуску этой модели. Вы хотели на 70млрд запустить и сделать обзор вроде

  • @alex_great23
    @alex_great23 2 месяца назад +2

    У меня на 3080ти цеклично выдает одни и те же ответы по кругу. Лама 3.0 нормально работает я о версии 8B говорю.

    • @alex_great23
      @alex_great23 2 месяца назад

      На 3080ти кстати и 32г оперативы максимальную модель которую я могу юзать это 16b или?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      скорее всего квант нейдачный или софт не поддерживает последнюю модель. обнови софт и попробуй другие модели.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      8b хорошо будет запустится. Чуть большие модели с квантизацией и малым контекстом тоже могут работать.

  • @romnytandem
    @romnytandem 2 месяца назад

    Привет Llama 3* локально пишет без цензуры . Какая лама локально пишет без цензуры?

  • @MaratBalabaev
    @MaratBalabaev Месяц назад +1

    А где сам файл llama3.1?
    Пробовал найти не смог пока

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      Huggingface на этом сайте хранятся модели и автоматически с него скачиваются

    • @MaratBalabaev
      @MaratBalabaev Месяц назад

      @@kuliev.vitaly Нет, я подразумевал найти у себя на компе.
      У меня Linux arch, и я установил через:
      sudo pacman -S ollama
      Далее:
      ollama run llama3.1
      Скачал 4. 7Gb, (Вроде :)
      А найти не смог где файл🤷

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      /home/****/.cache/huggingface/
      Обычно тут хранится.

    • @MaratBalabaev
      @MaratBalabaev Месяц назад

      @@kuliev.vitaly Спасибо конечно за ответ, но у меня нет такой директорий.
      А идея верная: Искать home/user/ директорий.
      Я даже через find . -type f -iname '*lama*' команду искал, Нету 🤷
      Но я вспомнил потом, ollama установил через офф скрипт, не через pacman.

  • @_mult
    @_mult 9 дней назад

    У людей в основном игровые пк
    У Меня
    AMD 5700g
    32gb ddr4
    AMD 580 8gb
    Подскажите, на что обратить внимание, чтобы попробовать?

    • @kuliev.vitaly
      @kuliev.vitaly  9 дней назад

      Запускай на процессоре через lmstudio

  • @ПавелМинич
    @ПавелМинич 2 месяца назад

    Хм, странно... по BFCL у GPT3.5t больше баллов, чем у GPT4o? Виталий, есть мысли по этому поводу?

  • @kostik009
    @kostik009 2 месяца назад

    Здравствуйте. Установил локально 3.1 8b, болтаю в одном контексте. Я не в теме нейросетей, мне интересно, какая плата по ресурсам компьютера на сохранения контекста беседы? Т.е. от чего зависит, как долго она может его сохранять?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      От размера видеопамяти

  • @user-hql5qy4x697yggt
    @user-hql5qy4x697yggt 2 месяца назад +2

    Здорово спасибо! Только вот её данные устаревшие, они обновлены до 2021 года. Тогда как gpt4-mini до октября 2023 года. Хотелось бы найти и использовать нейросеть которая использует данные в реальном времени.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      В нейросетях всегда устаревшие данные на несколько месяцев. Для актуальных данных нужно использовать RAG системы.

  • @RomaRingo
    @RomaRingo 2 месяца назад

    как запустить на АМД со встроенной видеокартой ? без обучения , только вопросы

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      попробуй через lmstudio

  • @MrKerimos
    @MrKerimos 2 месяца назад

    Привет, Виталий. Другие модели можно юзать без видеокарт. Подскажи, эту модель тоже можно на процессоре прогонять или там будет проблема с производительностью жуткая?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Можно и на процессоре запускать, но работать будет на порядок медленнее. 8b модель предназначена для относительно простых компьютеров - 16-32гб оперативки нужно в зависимости от квантизации.

  • @romanbolgar
    @romanbolgar 2 месяца назад

    Интересно но всё нет времени разобраться Как его установить. Когда было время устанавливалась через питон косо криво или через Пиноккио. Дождусь пока будет установка в два клика как обычную программу без докачивания разных библиотек и ещё чего-то. И когда уже заработает на AMD? Хотя вроде бы работает но не без танцев с бубнами....

    • @Rayvenor
      @Rayvenor 2 месяца назад

      Есть программы, которые запускает нейросеть и предоставляют строку ввода. Одна программа требует ручного скачивания нейросети. Другая программа выкачивает нейросеть из списка одним кликом.
      Танец с бубном для AMD только один - установить серверный видеодрайвер.

    • @romanbolgar
      @romanbolgar 2 месяца назад

      @@Rayvenor Откуда такая уверенность. Например вроде бы находил какой-то патч для stable defusion чтобы работала На AMD. Но руки не дошли. Надеюсь всё же доработают

    • @Rayvenor
      @Rayvenor 2 месяца назад

      @@romanbolgar stable defusion это же для генерации картинок? Я писал про чатботы. Но и генерация картинок у меня работает из коробки. Пользуюсь Fooocus, на странице на гитхабе есть отдельный батник-запуск для АМД.
      Для чатилки использовал две программы koboldcpp_rocm.exe и LM-Studio. kobold имеет отдельный дистрибутив для АМД.
      Все перечисленные программы работают на видюхе АМД 5700 ХТ. Стоят видеодрайвера Версия драйвера
      23.40.26-240307a-401512C-AMD-Software-PRO-Edition. Эмблема синенькая. В играх работают. Отличаются от обычных в мелочах, хотя я не специалист и сравнения производительности не делал.

  • @sansan8269
    @sansan8269 2 месяца назад

    цензурная хрень.

    • @Penhavor
      @Penhavor Месяц назад

      какие вопросы задавал?)

  • @game_organisation
    @game_organisation 2 месяца назад

    Как можно подключить ламу 3.1 в свой проект по питону?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      rus-gpt.com/
      Вот мой апи сервис. Основной функционал работает, но разработка еще идет. Пока можно пользоваться бесплатно.

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      в pycharm использую плагин codegpt

    • @game_organisation
      @game_organisation 2 месяца назад

      @@kuliev.vitaly спасибо большое, я поставил себе LMStudio, там много разных моделей можно использовать, системна следующая: i5 7500 ОЗУ 20гб, видео карта 2060 на 12 гигабайт, при выполнении запроса, LMStudio выдает ошибку (( Скажите пожалуйста, какие системные требования подойдут для использования этого софта ?

  • @БиБСТаршИй-ю3и
    @БиБСТаршИй-ю3и 2 месяца назад

    Это можно как то как API испольловать?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +1

      rus-gpt.com/
      Вот мой апи сервис. Основной функционал работает, но разработка еще идет. Пока можно пользоваться бесплатно.

  • @qwertasdfg8828
    @qwertasdfg8828 2 месяца назад

    Может озвучку лучше нейросети передать? Не надо логопеда работы лишать! )))))

  • @ВладГромов-ь4е
    @ВладГромов-ь4е 2 месяца назад +1

    очередное говно недоступное в рф

    • @AlexAlex-jk2tn
      @AlexAlex-jk2tn 2 месяца назад +11

      если всё не доступно в рф, то не кажется ли вам, что говно тут что-то другое?

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад +7

      в России доступно. Веса открыты.

    • @ВладГромов-ь4е
      @ВладГромов-ь4е 2 месяца назад

      @@kuliev.vitaly я признаться что такое веса не знаю
      Вот сам чат-бот официально нет
      Вот как джипмти 4 но туда хоть зайти можно с впн

    • @denamix6926
      @denamix6926 2 месяца назад +1

      Это и не для тебя делалось, хотя если кому то так сложно обходить ограничения, то лучше отказаться от Интернета впринципе, учитывая, что обход блокировки по региону для того же ChatGPT 4o заключается в смене dns сервера на заграничный.

    • @ВладГромов-ь4е
      @ВладГромов-ь4е 2 месяца назад +1

      @@denamix6926 если ты плохо читал мой комент то тебе надо отказаться от русского языка впринципе.ты его не понимаешь