Llama 3 - лучшая открытая нейросеть. Узнай как использовать эту модель.

Поделиться
HTML-код
  • Опубликовано: 25 ноя 2024

Комментарии • 129

  • @D00m666
    @D00m666 6 месяцев назад +8

    Рад новому видео. 8B меня конечно удивила, даже на моем процессоре нормальная скорость работы, и главное качество кодинга приемлимое

    • @Musicnotforf.nrelaxsleep-ih6iv
      @Musicnotforf.nrelaxsleep-ih6iv 6 месяцев назад +2

      Подскажите пожалуйста, какой у вас процессор и сколько токенов в сек генерит на нем 8B сетка?

    • @D00m666
      @D00m666 6 месяцев назад +3

      @@Musicnotforf.nrelaxsleep-ih6iv райзен 3600. Скорость генерации как у гпт4 примерно, чуть медленнее может

  • @skyk2079
    @skyk2079 6 месяцев назад +5

    Спасибо, Отличное видео!

  • @Роберт628
    @Роберт628 3 месяца назад +2

    Для меня llama самая любимая модель. В третьей версии русский понимает прям отлично как родной. Смысл запросов тоже очень хорошо понимает. Вообщем супер помощник.

    • @danil907
      @danil907 5 дней назад

      Однако пишет, так как никто: например, мне очень радовательно, путает ты и я . Так-себе впечатление.

  • @DmitryPonomareF
    @DmitryPonomareF 6 месяцев назад +4

    надо будет попробовать, интересное видео, спасибо

  • @loogle00
    @loogle00 Месяц назад +1

    Добрый день. Можете посоветовать какой-либо источник, так сказать, ликбез по базовым понятиям по работе с моделями нейросетей? Т.е. ищу грамотный гайд где даются определения терминам веса, токены, слои, квантинизация и т.д., и как они влияют на работу модели, и описываются сценарии использования. Можно и на инглише, если знаете

    • @kuliev.vitaly
      @kuliev.vitaly  Месяц назад

      Рекомендую на практике изучать. Бери конкретные нейросети и работай с ними. На lmarena можно потестировать чаты с разными нейросетями.

  • @meroniuss
    @meroniuss 6 месяцев назад +1

    Спасибо большое за столь подробное видео. Пойду ковырять!)

  • @irmscher9
    @irmscher9 5 месяцев назад

    Очень информативно и душевно, спасибо! 😌

  • @vrabosh
    @vrabosh 6 месяцев назад +2

    Нейросети сильно греют видюхи? Думаю что взять gfx1650 4gb с 2 кулерами или gtx1660s 6gb с одним кулером, на больше пока бюджета нет.
    Цель, потестить различные модельки и начать самому обучать модели, т.е. изучать эту тему.
    Как думаешь, лучше взять надежней карту но послабей? Или нейронки не сильно греют?

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +1

      Памяти слишком мало. Для начала можно взять 3060 с 12гб памяти. Если этого нет, то запускай нейронки на процессоре - этого достаточно для обучения.

    • @vrabosh
      @vrabosh 6 месяцев назад +1

      @@kuliev.vitaly я так подумал, куплю подешевле, пока обучусь основам год пройдет, а там может и новый комп соберу с 4060

    • @SILOD
      @SILOD 4 месяца назад

      @@kuliev.vitalyi5 12500H норм для простеньких ИИ? Моя цель сделать простенький ИИ, который будет эмулировать персонажа. Думаю взять llama 3 8b. Просто видеокарта слабенькая, rtx 3050 4gb 95w laptop. Есть возможность так же запустить ИИ на ноуте с i5 12450h и rtx 4050 6gb

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      Нормально. Имей в виду, что если делаешь игру, то процессор будет занят расчетом нейронки. Можешь ещё мой сервис rus-gpt.com по апи использовать.

    • @SILOD
      @SILOD 4 месяца назад

      @@kuliev.vitaly не, я думаю обрабатывать ИИ на ноуте и отправлять обработку на мой ИИ кубик, будет типо Алисы, но с моим персом. А на твоего сервиса, на досуге гляну

  • @voron27
    @voron27 6 месяцев назад +3

    реально хороша. на 8В на моей машине просто летает

  • @agwerh---
    @agwerh--- 4 месяца назад +1

    круто. а есть ли какие хорошие нейросети для анализа допустим 2 документов? допустим в одном заявка, а в другом договор поставки. анализ на соответвсие? это Bert модели?

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +1

      Llama 3 подойдет для этого. Просто в запрос подавайте оба документа в текстовом виде.

  • @vrabosh
    @vrabosh 6 месяцев назад +2

    Интересно былоб увидеть, какая из моделей в it мануэлах лучше. И кто код более качественный пишет.

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +2

      arena.lmsys.org/
      там можно рейтинг по интересующим темам выбрать. выбери код.

  • @MrKydaib
    @MrKydaib 2 месяца назад +3

    По приколу решил закинуть в ламу книгу и ни разу он мне правильно не ответил...
    Тормоз ещё тот...

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Есть опыт построения RAG системы на основе 5 книг и llama 70b. Работает очень хорошо.

    • @MrKydaib
      @MrKydaib 2 месяца назад

      @@kuliev.vitaly ну может быть к сожалению у меня нет сервера...
      Можете для меня испытать его
      Пример.
      1) что испытал герой...
      2) где герой потерял...
      3) почему злодей поступает так и никак иначе....
      Версия на 8В и 12В отвечают от балды....

    • @kuliev.vitaly
      @kuliev.vitaly  2 месяца назад

      Там по психологии тема.
      Соглашусь, что 8B версия достаточно тупа. Более менее качественно нейронки начинают отвечать с размера 70b

    • @MrKydaib
      @MrKydaib 2 месяца назад

      @@kuliev.vitaly опять же нужен сверхмощное оборудование...

  • @dyukel
    @dyukel 5 месяцев назад +1

    Виталий, а позволяет ли LLM Studio работать с изображениями? В частности, интересует работа со спутниковыми снимками.
    Или может быть встречал готовые сервисы по обработке и разметке спутниковых снимков?

    • @kuliev.vitaly
      @kuliev.vitaly  5 месяцев назад

      Да может. Для большинства vision нейросетей есть image адаптеры. Можно закинуть картину и спросить вопрос.

    • @dyukel
      @dyukel 5 месяцев назад +2

      @@kuliev.vitaly спасибо, попробую потестить
      Но было бы интересно и твой обзор посмотреть на этот тул

  • @staskss4727
    @staskss4727 4 месяца назад +1

    Очень показательная задача для нейросети 123+5=128.
    С такой задачей успешно справлялся в 1985 году калькулятор Электроника-Б3.

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад +1

      Prompt: 'Calculate the expression: "123+5". answer in json format: {"answer": your_int_answer_here}. do not write anything else.'
      Answer: '{"answer": 128}'

    • @kuliev.vitaly
      @kuliev.vitaly  4 месяца назад

      rus-gpt.com/
      Запрос делал через свое апи

  • @Musicnotforf.nrelaxsleep-ih6iv
    @Musicnotforf.nrelaxsleep-ih6iv 6 месяцев назад +3

    Есть смысл 8B ставить на компе с i5-12400 со встройкой и 32Гб оперативки?

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +2

      На процессоре сможешь ее запустить. Попробуй, например через lm studio

    • @Musicnotforf.nrelaxsleep-ih6iv
      @Musicnotforf.nrelaxsleep-ih6iv 6 месяцев назад +1

      @@kuliev.vitaly вопрос не в этом ))
      если она мне будет выдавать один токен в секунду, зачем мне такое?

    • @EvgenMo1111
      @EvgenMo1111 5 месяцев назад

      @@Musicnotforf.nrelaxsleep-ih6iv ну как, попробовал?

    • @dugl
      @dugl 4 месяца назад

      I5-4570, GTX 760 (2ГБ видеопамяти). 10ГБ оперативки, через GPT4ALL скорость ну где-то генерит полный ответ от 10 секунд до 1,5 минуты в зависимости от размера конечно

    • @EvgenMo1111
      @EvgenMo1111 4 месяца назад

      @@dugl это на цпу?

  • @sergeykarpov4683
    @sergeykarpov4683 6 месяцев назад +3

    Возможно в lm studio использовать для модели несколько одинаковых видеокарт? Т.е. запустить таким образом модель на 70b

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +3

      Да, должно работать. У меня пока не было возможности протестировать.

    • @konstantinsamodurov436
      @konstantinsamodurov436 6 месяцев назад +3

      - "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?"
      Вопрос о возможностях lm studio 10-й, если не 150-й...))
      1. Видео-карта должна иметь канал соединения - nvlink у видеокарт NVidia (4090 не имеет, разве что 3090(
      2. Для связи двух 3090 нужен nvlink bridge - не путать с nvlink bridge 3 slot - это "мост" для связи двух 3090, расположенных друг от друга на расстоянии 3-х слотов
      3. Двух 3090 не достаточно для полного помещения в видеопамять модели 70b - хорошо если влезет в 2х80 ГБ - две А100 80ГБ...
      и т.д.
      - "Т.е. запустить таким образом модель на 70b"
      С помощью lm studio + видео-карта с 80 ГБ + 128 ГБ на материнке... может быть...

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +2

      70b есть квантизованные - их можно запускать на железе меньшими требованиями.

    • @konstantinsamodurov436
      @konstantinsamodurov436 6 месяцев назад

      @@kuliev.vitaly - "70b есть квантизованные - их можно запускать на железе меньшими требованиями."
      Безусловно... ))
      ВОПРОС был о том, что "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?"
      Согласны?
      я бы трансформировал бы вопрос так: можно ли две, а лучше четыре 4090 объединить в один сервер с помощью lm studio БЕЗ nvlink??
      Могу напомнить, что это - не Проф и даже не Полу-проф Решение - там применяется NVSwitch решение... Согласны?

    • @sergeykarpov4683
      @sergeykarpov4683 6 месяцев назад +2

      @@kuliev.vitaly квантизование даёт в итоге меньшее качество или низкую скорость ответа?

  • @felix_co
    @felix_co 6 месяцев назад +1

    У меня вопрос:
    А эта ллама она может выводить какой-то формат данных, например указать ей, чтобы json был, чтобы затем его положить куда-то/сделать что-то или надо делать прослойку которая отформатирует ответ?

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад

      Да. Можно в инструкции указать, чтобы ответ был в json формате и задать структуру. 70b почти всегда отвечает корректно. 8b отвечает примерно в 85% случаев коректно и в 15% добавляет еще коментарии вне структуры.

    • @felix_co
      @felix_co 6 месяцев назад

      @@kuliev.vitaly спасибо!

    • @niter43
      @niter43 5 месяцев назад +2

      ​@@felix_co если нужно гарантированно валидный json, то погугли про возможность установки formal grammar в используемом interference engine. Это позволяет описать правила синтаксиса и движок будет выбирать только из тех токенов, что не нарушают корректность синтаксиса.
      Например у llama.cpp есть GGNF (GGML BNF), для json в исходниках уже есть готовые правила в grammars/json.gbnf

  • @romanbolgar
    @romanbolgar 6 месяцев назад +1

    Я тоже хотел сделать свой серве с ssh туннелем Но в этом не сильно разбираюсь промучился ничего не получилось

  • @bulgakovafashionbrand4797
    @bulgakovafashionbrand4797 6 месяцев назад +1

    Добрый день. Подскажите пожалуйста Llama работает с анализом таблиц, сводными таблицами , с анализом большого массива цифр загруженных из разных таблиц?

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад

      Привет. Такого опыта у меня нет. По идее должна работать. Нужно учитывать, что оригинальная llama 3 имеет контекст в 8к токенов - этим ограничивается размер запроса.

    • @bulgakovafashionbrand4797
      @bulgakovafashionbrand4797 6 месяцев назад

      @@kuliev.vitaly Благодарю за ответ.

  • @ТихоеМесто-ц1ж
    @ТихоеМесто-ц1ж 6 месяцев назад +2

    Здравствуйте. На сегодняшний день есть смысл покупать 3080 для изучения интеллекта. Или лучше 4070. Серия 4070 сейчас поддерживается софтом?

    • @ТихоеМесто-ц1ж
      @ТихоеМесто-ц1ж 6 месяцев назад +2

      Очень нужен ваш совет

    • @vitalyl1327
      @vitalyl1327 6 месяцев назад +2

      Лучше 4090, у всех прочих памяти маловато.

    • @АминаМагомедова-с6о
      @АминаМагомедова-с6о 6 месяцев назад +2

      Тоже интересно

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +2

      Бери с 24гб памяти, если бюджет позволяет. ruclips.net/video/0iA1-X-TR7s/видео.html

    • @ТихоеМесто-ц1ж
      @ТихоеМесто-ц1ж 6 месяцев назад +2

      @@kuliev.vitaly 24 гб дорогие.
      Денег хватает только на 3080 либо 4070. У 3080 тензорных ядер на 274 а у 4070 на 187 эта имеет значение?

  • @user-kdhc5g4gks
    @user-kdhc5g4gks 6 месяцев назад +1

    Спасибо!

  • @Metalbender777
    @Metalbender777 6 месяцев назад +1

    при оплате услуг, прошу учитывать возможность оплаты в криптовалюте. Так как есть интересанты (Я) без возможности оплаты в рублях.)

  • @erofeev_aleksandr
    @erofeev_aleksandr 2 месяца назад +1

    Привет! А что у тебя за операционка стоит?

  • @yuduz367
    @yuduz367 6 месяцев назад +2

    Когда-то там метавцы заикались что третья итерация будет на уровне GPT4. Видимо, имели ввиду 400B. 70B, вполне себе, тягается с Qwen 1.5 110B и GPT 3.5 неплохо обгоняет. Я очень разочарован что не будет промежуточных между 70 и 400. Очень ждал, опираясь на слухи, что будут 100 - 120 - 140.

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +1

      70b на десктопном железе можно запустить. 400b уже очень проблематично. Наверняка выйдут квантизованные запруненные версии 400b

    • @yuduz367
      @yuduz367 6 месяцев назад +2

      @@kuliev.vitaly Опираясь на то, что самые уквантованные в хламину Grok 1 (Это q1) еле еле запускаются на 64 гигах озу, думаю что у таких крупных кабанов аудитория будет очень узкая.

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +3

      128гб уже норма для десктопных решений, у меня в системнике на ам4 около трех лет такой объем оперативки. Уже ноуты есть с поддержкой 128гб.
      В общем согласен - большинству пользователей проблемно будет запускать такие модели локально. Это одна из причин, почему сейчас делаю свой сервис с апи для лламы. Для начала модель 8b, затем 70b.

  • @IT_psychopath
    @IT_psychopath 6 месяцев назад +1

    а в какую цену влетит развертывание в облаке такой махины, я про 70B? может считали. спасибо! чисто спортивный интерес. я хочу себе развернуть 34B, но не знаю как просчитать стоимость... Вообще есть доступ к ним без VPN и много. я с РБ, нас тоже блочат, тоже с VPN живу.))

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +1

      clore.ai - тут дешево можно арендовать комп с видеокартами. 50-100к рублей в месяц начальная цена для запуска квантизованной llama 70b.

    • @IT_psychopath
      @IT_psychopath 6 месяцев назад

      @@kuliev.vitaly спасибо большое за ответ.

    • @АлексейДолженко-п2щ
      @АлексейДолженко-п2щ 2 месяца назад

      Я себе купил свой сервер hp priliant dl380 и 512 гиг оперативки, два камня по 12 ядер. Все стоило меньше 100 тысяч рублей, вот и подумай, имеет ли смысл гонять нейронку по удалёнке!

  • @psiterror999
    @psiterror999 6 месяцев назад +2

    К сожалению у третьей ламы пока нету нормальной расцензуренной версии. Поэтому приходиться пользоваться моделями на основе второй ламы.

    • @diore
      @diore 5 месяцев назад

      dolphin 🐬

  • @sebariart
    @sebariart 6 месяцев назад

    Запустил llama 3 7b 8Q. На видеокарте 3070. 5-7 токенов/сек, при этом не 100% загрузка видеокарты.
    Как я понял нельзя что бы llama начала кушать сверх 8 гб видеопамяти но как это сделать я не понял. Экспериментировал со слоями - не помогло.
    Вырубал доп мониторы, снижал разрешение до 640х. Разгонял видеокарту..

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад

      8гб требует нейросеть c квантизацией 8q. Еще нужна память для хранения контекста и операционную систему. С такой точностью не получится полностью загрузить видеокарту. Выгрузи часть слоев на процессор или попробуй q6 квант.

  • @alex_great23
    @alex_great23 6 месяцев назад +1

    Я не пойму почему эта модель меньшего размера у меня быстрее генерируется? 5700x + 3080ti и 32г оперативки.

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +1

      Скорее всего ты запускаешь квантизованную версию. Она меньшего размера и заметно хуже качество ответов. У меня запущена llama-3-8b-instruct fp16. Файл модели должен занимать около 16гб.

  • @electricsupercars1978
    @electricsupercars1978 25 дней назад +1

    Оперативку процессора я понимаю
    Но видио тут причем

  • @florizelus
    @florizelus 6 месяцев назад +2

    Есть вопрос по локализации и поиску данных в своей библиотеке с помощью ии. Как пошагово сделать и что для этого надо с демонстрацией результата. Управлять конечно лучше голосом на русском.

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад

      Это уже не первый запрос. Почитай про RAG. Llama 3 должна хорошо работать на этой задаче.

    • @florizelus
      @florizelus 6 месяцев назад

      @@kuliev.vitaly Спасибо. В сети есть авторы на тему. Смотрел канал "Выпусит джуна из лампы" выпуск"100% локальный и приватный gpt", и Serge_AI "Обучение личного AI на книгах". Спрашиваю для того, что мне, как пользователю , сложновато и надо понять какое оптим.оборудование понадобится и каков результат в конечном итоге. Стоит ли игра свечь - над этим тоже думаю.

    • @antongonov1811
      @antongonov1811 6 месяцев назад +1

      @@kuliev.vitaly с удовольствием посмотрел бы ваше видео на эту тему)

  • @proceccopoBc
    @proceccopoBc 6 месяцев назад +2

    , вторая видеокарта ускорит работу?

  • @YbivanKenoby
    @YbivanKenoby 6 месяцев назад +2

    Для андроид есть?

  • @puhkasika
    @puhkasika 6 месяцев назад

    Чтото оно не особо соображает когда 0 на О подменяешь сразу теряется

  • @ИнтернетДжи
    @ИнтернетДжи 3 месяца назад

    тема не раскрыта ) как бы ее запустить скачав на комп через скрипт пайтона, у словно в пайчарме

  • @КириллКіс
    @КириллКіс 6 месяцев назад

    Аналог на телефон есть?

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +3

      в браузере можно открыть. локально на телефоне что-то наверное можно запустить с низким качеством и медленно.

  • @nikolaydd6219
    @nikolaydd6219 6 месяцев назад +2

    1:15 Ты хотел сказать 15 триллионов токенов

  • @electricsupercars1978
    @electricsupercars1978 25 дней назад +1

    Объясните мне тупому
    Почему текстовый чат
    Использует видио память
    Что за бред!

    • @kuliev.vitaly
      @kuliev.vitaly  25 дней назад

      нейронки на видеокартах работают быстро.

  • @therealman_tm
    @therealman_tm 12 дней назад

    Колобок-каннибал и корзинка пирожков.

  • @whoareyouqqq
    @whoareyouqqq 5 месяцев назад

    Лучшая локальная это Phi3-medium. А llama3 делает отвратительные ошибки при работе на русском.

    • @kuliev.vitaly
      @kuliev.vitaly  5 месяцев назад

      llama 8b да. Llama 70b корректно отвечает на русском. Phi3-medium имеет в 2 раза большще весов, чем llama 8b.

  • @adoloro
    @adoloro 5 месяцев назад

    Ну и речь, противно слушать. Косноязыкий русский с таким же корявым английским.

    • @kuliev.vitaly
      @kuliev.vitaly  5 месяцев назад

      ok

    • @adoloro
      @adoloro 5 месяцев назад

      @@kuliev.vitaly Простите за такой едкий комментарий, видео очень полезное и голос приятный. Меня просто бесит, если встречаются английские слова в русском.

    • @kuliev.vitaly
      @kuliev.vitaly  5 месяцев назад

      Исходный английский термин лучше передает смысл, чем его перевод.

  • @KonstantinG_65
    @KonstantinG_65 6 месяцев назад

    Ни о чем... Возможно для узкого круга лиц, нг не для обычных людей

    • @yuduz367
      @yuduz367 6 месяцев назад +3

      Запускаю на локальном устройстве 70B со скоростью в 1.2 токена. Я обычный человек.

    • @Penhavor
      @Penhavor 5 месяцев назад

      ​@@yuduz367какое железо у тебя?

  • @payrgames
    @payrgames 6 месяцев назад

    Господи, да она отвратительно работает. Есть ли нейронки по быстрее и по оптимизированнее?

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +2

      вопрос не раскрыт. в чем именно проблема?

    • @payrgames
      @payrgames 6 месяцев назад

      @@kuliev.vitaly скорость генерации текста очень низкая, мне это не нравится

    • @vitalyl1327
      @vitalyl1327 6 месяцев назад +1

      Phi-3 ещк быстрее, а по многим бенчмаркам лучше чем Llama.

    • @kuliev.vitaly
      @kuliev.vitaly  6 месяцев назад +1

      phi-3 в 2 раза меньше и работает только с английским текстом.

    • @vitalyl1327
      @vitalyl1327 6 месяцев назад

      @@kuliev.vitaly меньше., потому inference и быстрее. Зато бенчмарки лучше чем у в два раза более крупных моделей. А с русским у всех открытых моделей так плохо, что лучше даже не пробовать.