Llama 3 - лучшая открытая нейросеть. Узнай как использовать эту модель.

Виталий Кулиев

Просмотров 14 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 25 ноя 2024

Комментарии • 129

@D00m666 6 месяцев назад ⁺⁸
Рад новому видео. 8B меня конечно удивила, даже на моем процессоре нормальная скорость работы, и главное качество кодинга приемлимое
@Musicnotforf.nrelaxsleep-ih6iv 6 месяцев назад ⁺²
Подскажите пожалуйста, какой у вас процессор и сколько токенов в сек генерит на нем 8B сетка?
@D00m666 6 месяцев назад ⁺³
@@Musicnotforf.nrelaxsleep-ih6iv райзен 3600. Скорость генерации как у гпт4 примерно, чуть медленнее может
@skyk2079 6 месяцев назад ⁺⁵
Спасибо, Отличное видео!
@Роберт628 3 месяца назад ⁺²
Для меня llama самая любимая модель. В третьей версии русский понимает прям отлично как родной. Смысл запросов тоже очень хорошо понимает. Вообщем супер помощник.
@danil907 5 дней назад
Однако пишет, так как никто: например, мне очень радовательно, путает ты и я . Так-себе впечатление.
@DmitryPonomareF 6 месяцев назад ⁺⁴
надо будет попробовать, интересное видео, спасибо
@loogle00 Месяц назад ⁺¹
Добрый день. Можете посоветовать какой-либо источник, так сказать, ликбез по базовым понятиям по работе с моделями нейросетей? Т.е. ищу грамотный гайд где даются определения терминам веса, токены, слои, квантинизация и т.д., и как они влияют на работу модели, и описываются сценарии использования. Можно и на инглише, если знаете
@kuliev.vitaly Месяц назад
Рекомендую на практике изучать. Бери конкретные нейросети и работай с ними. На lmarena можно потестировать чаты с разными нейросетями.
@meroniuss 6 месяцев назад ⁺¹
Спасибо большое за столь подробное видео. Пойду ковырять!)
@irmscher9 5 месяцев назад
Очень информативно и душевно, спасибо! 😌
@vrabosh 6 месяцев назад ⁺²
Нейросети сильно греют видюхи? Думаю что взять gfx1650 4gb с 2 кулерами или gtx1660s 6gb с одним кулером, на больше пока бюджета нет.
Цель, потестить различные модельки и начать самому обучать модели, т.е. изучать эту тему.
Как думаешь, лучше взять надежней карту но послабей? Или нейронки не сильно греют?
@kuliev.vitaly 6 месяцев назад ⁺¹
Памяти слишком мало. Для начала можно взять 3060 с 12гб памяти. Если этого нет, то запускай нейронки на процессоре - этого достаточно для обучения.
@vrabosh 6 месяцев назад ⁺¹
@@kuliev.vitaly я так подумал, куплю подешевле, пока обучусь основам год пройдет, а там может и новый комп соберу с 4060
@SILOD 4 месяца назад
@@kuliev.vitalyi5 12500H норм для простеньких ИИ? Моя цель сделать простенький ИИ, который будет эмулировать персонажа. Думаю взять llama 3 8b. Просто видеокарта слабенькая, rtx 3050 4gb 95w laptop. Есть возможность так же запустить ИИ на ноуте с i5 12450h и rtx 4050 6gb
@kuliev.vitaly 4 месяца назад
Нормально. Имей в виду, что если делаешь игру, то процессор будет занят расчетом нейронки. Можешь ещё мой сервис rus-gpt.com по апи использовать.
@SILOD 4 месяца назад
@@kuliev.vitaly не, я думаю обрабатывать ИИ на ноуте и отправлять обработку на мой ИИ кубик, будет типо Алисы, но с моим персом. А на твоего сервиса, на досуге гляну
@voron27 6 месяцев назад ⁺³
реально хороша. на 8В на моей машине просто летает
@agwerh--- 4 месяца назад ⁺¹
круто. а есть ли какие хорошие нейросети для анализа допустим 2 документов? допустим в одном заявка, а в другом договор поставки. анализ на соответвсие? это Bert модели?
@kuliev.vitaly 4 месяца назад ⁺¹
Llama 3 подойдет для этого. Просто в запрос подавайте оба документа в текстовом виде.
@vrabosh 6 месяцев назад ⁺²
Интересно былоб увидеть, какая из моделей в it мануэлах лучше. И кто код более качественный пишет.
@kuliev.vitaly 6 месяцев назад ⁺²
arena.lmsys.org/
там можно рейтинг по интересующим темам выбрать. выбери код.
@MrKydaib 2 месяца назад ⁺³
По приколу решил закинуть в ламу книгу и ни разу он мне правильно не ответил...
Тормоз ещё тот...
@kuliev.vitaly 2 месяца назад
Есть опыт построения RAG системы на основе 5 книг и llama 70b. Работает очень хорошо.
@MrKydaib 2 месяца назад
@@kuliev.vitaly ну может быть к сожалению у меня нет сервера...
Можете для меня испытать его
Пример.
1) что испытал герой...
2) где герой потерял...
3) почему злодей поступает так и никак иначе....
Версия на 8В и 12В отвечают от балды....
@kuliev.vitaly 2 месяца назад
Там по психологии тема.
Соглашусь, что 8B версия достаточно тупа. Более менее качественно нейронки начинают отвечать с размера 70b
@MrKydaib 2 месяца назад
@@kuliev.vitaly опять же нужен сверхмощное оборудование...
@dyukel 5 месяцев назад ⁺¹
Виталий, а позволяет ли LLM Studio работать с изображениями? В частности, интересует работа со спутниковыми снимками.
Или может быть встречал готовые сервисы по обработке и разметке спутниковых снимков?
@kuliev.vitaly 5 месяцев назад
Да может. Для большинства vision нейросетей есть image адаптеры. Можно закинуть картину и спросить вопрос.
@dyukel 5 месяцев назад ⁺²
@@kuliev.vitaly спасибо, попробую потестить
Но было бы интересно и твой обзор посмотреть на этот тул
@staskss4727 4 месяца назад ⁺¹
Очень показательная задача для нейросети 123+5=128.
С такой задачей успешно справлялся в 1985 году калькулятор Электроника-Б3.
@kuliev.vitaly 4 месяца назад ⁺¹
Prompt: 'Calculate the expression: "123+5". answer in json format: {"answer": your_int_answer_here}. do not write anything else.'
Answer: '{"answer": 128}'
@kuliev.vitaly 4 месяца назад
rus-gpt.com/
Запрос делал через свое апи
@Musicnotforf.nrelaxsleep-ih6iv 6 месяцев назад ⁺³
Есть смысл 8B ставить на компе с i5-12400 со встройкой и 32Гб оперативки?
@kuliev.vitaly 6 месяцев назад ⁺²
На процессоре сможешь ее запустить. Попробуй, например через lm studio
@Musicnotforf.nrelaxsleep-ih6iv 6 месяцев назад ⁺¹
@@kuliev.vitaly вопрос не в этом ))
если она мне будет выдавать один токен в секунду, зачем мне такое?
@EvgenMo1111 5 месяцев назад
@@Musicnotforf.nrelaxsleep-ih6iv ну как, попробовал?
@dugl 4 месяца назад
I5-4570, GTX 760 (2ГБ видеопамяти). 10ГБ оперативки, через GPT4ALL скорость ну где-то генерит полный ответ от 10 секунд до 1,5 минуты в зависимости от размера конечно
@EvgenMo1111 4 месяца назад
@@dugl это на цпу?
@sergeykarpov4683 6 месяцев назад ⁺³
Возможно в lm studio использовать для модели несколько одинаковых видеокарт? Т.е. запустить таким образом модель на 70b
@kuliev.vitaly 6 месяцев назад ⁺³
Да, должно работать. У меня пока не было возможности протестировать.
@konstantinsamodurov436 6 месяцев назад ⁺³
- "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?"
Вопрос о возможностях lm studio 10-й, если не 150-й...))
1. Видео-карта должна иметь канал соединения - nvlink у видеокарт NVidia (4090 не имеет, разве что 3090(
2. Для связи двух 3090 нужен nvlink bridge - не путать с nvlink bridge 3 slot - это "мост" для связи двух 3090, расположенных друг от друга на расстоянии 3-х слотов
3. Двух 3090 не достаточно для полного помещения в видеопамять модели 70b - хорошо если влезет в 2х80 ГБ - две А100 80ГБ...
и т.д.
- "Т.е. запустить таким образом модель на 70b"
С помощью lm studio + видео-карта с 80 ГБ + 128 ГБ на материнке... может быть...
@kuliev.vitaly 6 месяцев назад ⁺²
70b есть квантизованные - их можно запускать на железе меньшими требованиями.
@konstantinsamodurov436 6 месяцев назад
@@kuliev.vitaly - "70b есть квантизованные - их можно запускать на железе меньшими требованиями."
Безусловно... ))
ВОПРОС был о том, что "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?"
Согласны?
я бы трансформировал бы вопрос так: можно ли две, а лучше четыре 4090 объединить в один сервер с помощью lm studio БЕЗ nvlink??
Могу напомнить, что это - не Проф и даже не Полу-проф Решение - там применяется NVSwitch решение... Согласны?
@sergeykarpov4683 6 месяцев назад ⁺²
@@kuliev.vitaly квантизование даёт в итоге меньшее качество или низкую скорость ответа?
@felix_co 6 месяцев назад ⁺¹
У меня вопрос:
А эта ллама она может выводить какой-то формат данных, например указать ей, чтобы json был, чтобы затем его положить куда-то/сделать что-то или надо делать прослойку которая отформатирует ответ?
@kuliev.vitaly 6 месяцев назад
Да. Можно в инструкции указать, чтобы ответ был в json формате и задать структуру. 70b почти всегда отвечает корректно. 8b отвечает примерно в 85% случаев коректно и в 15% добавляет еще коментарии вне структуры.
@felix_co 6 месяцев назад
@@kuliev.vitaly спасибо!
@niter43 5 месяцев назад ⁺²
@@felix_co если нужно гарантированно валидный json, то погугли про возможность установки formal grammar в используемом interference engine. Это позволяет описать правила синтаксиса и движок будет выбирать только из тех токенов, что не нарушают корректность синтаксиса.
Например у llama.cpp есть GGNF (GGML BNF), для json в исходниках уже есть готовые правила в grammars/json.gbnf
@romanbolgar 6 месяцев назад ⁺¹
Я тоже хотел сделать свой серве с ssh туннелем Но в этом не сильно разбираюсь промучился ничего не получилось
@bulgakovafashionbrand4797 6 месяцев назад ⁺¹
Добрый день. Подскажите пожалуйста Llama работает с анализом таблиц, сводными таблицами , с анализом большого массива цифр загруженных из разных таблиц?
@kuliev.vitaly 6 месяцев назад
Привет. Такого опыта у меня нет. По идее должна работать. Нужно учитывать, что оригинальная llama 3 имеет контекст в 8к токенов - этим ограничивается размер запроса.
@bulgakovafashionbrand4797 6 месяцев назад
@@kuliev.vitaly Благодарю за ответ.
@ТихоеМесто-ц1ж 6 месяцев назад ⁺²
Здравствуйте. На сегодняшний день есть смысл покупать 3080 для изучения интеллекта. Или лучше 4070. Серия 4070 сейчас поддерживается софтом?
@ТихоеМесто-ц1ж 6 месяцев назад ⁺²
Очень нужен ваш совет
@vitalyl1327 6 месяцев назад ⁺²
Лучше 4090, у всех прочих памяти маловато.
@АминаМагомедова-с6о 6 месяцев назад ⁺²
Тоже интересно
@kuliev.vitaly 6 месяцев назад ⁺²
Бери с 24гб памяти, если бюджет позволяет. ruclips.net/video/0iA1-X-TR7s/видео.html
@ТихоеМесто-ц1ж 6 месяцев назад ⁺²
@@kuliev.vitaly 24 гб дорогие.
Денег хватает только на 3080 либо 4070. У 3080 тензорных ядер на 274 а у 4070 на 187 эта имеет значение?
@user-kdhc5g4gks 6 месяцев назад ⁺¹
Спасибо!
@Metalbender777 6 месяцев назад ⁺¹
при оплате услуг, прошу учитывать возможность оплаты в криптовалюте. Так как есть интересанты (Я) без возможности оплаты в рублях.)
@erofeev_aleksandr 2 месяца назад ⁺¹
Привет! А что у тебя за операционка стоит?
@kuliev.vitaly 2 месяца назад ⁺¹
kubuntu 22.04
@АлексейДолженко-п2щ 2 месяца назад
Сколько не гонял разные дистрибутивы, вернулся к Debian.
@yuduz367 6 месяцев назад ⁺²
Когда-то там метавцы заикались что третья итерация будет на уровне GPT4. Видимо, имели ввиду 400B. 70B, вполне себе, тягается с Qwen 1.5 110B и GPT 3.5 неплохо обгоняет. Я очень разочарован что не будет промежуточных между 70 и 400. Очень ждал, опираясь на слухи, что будут 100 - 120 - 140.
@kuliev.vitaly 6 месяцев назад ⁺¹
70b на десктопном железе можно запустить. 400b уже очень проблематично. Наверняка выйдут квантизованные запруненные версии 400b
@yuduz367 6 месяцев назад ⁺²
@@kuliev.vitaly Опираясь на то, что самые уквантованные в хламину Grok 1 (Это q1) еле еле запускаются на 64 гигах озу, думаю что у таких крупных кабанов аудитория будет очень узкая.
@kuliev.vitaly 6 месяцев назад ⁺³
128гб уже норма для десктопных решений, у меня в системнике на ам4 около трех лет такой объем оперативки. Уже ноуты есть с поддержкой 128гб.
В общем согласен - большинству пользователей проблемно будет запускать такие модели локально. Это одна из причин, почему сейчас делаю свой сервис с апи для лламы. Для начала модель 8b, затем 70b.
@IT_psychopath 6 месяцев назад ⁺¹
а в какую цену влетит развертывание в облаке такой махины, я про 70B? может считали. спасибо! чисто спортивный интерес. я хочу себе развернуть 34B, но не знаю как просчитать стоимость... Вообще есть доступ к ним без VPN и много. я с РБ, нас тоже блочат, тоже с VPN живу.))
@kuliev.vitaly 6 месяцев назад ⁺¹
clore.ai - тут дешево можно арендовать комп с видеокартами. 50-100к рублей в месяц начальная цена для запуска квантизованной llama 70b.
@IT_psychopath 6 месяцев назад
@@kuliev.vitaly спасибо большое за ответ.
@АлексейДолженко-п2щ 2 месяца назад
Я себе купил свой сервер hp priliant dl380 и 512 гиг оперативки, два камня по 12 ядер. Все стоило меньше 100 тысяч рублей, вот и подумай, имеет ли смысл гонять нейронку по удалёнке!
@psiterror999 6 месяцев назад ⁺²
К сожалению у третьей ламы пока нету нормальной расцензуренной версии. Поэтому приходиться пользоваться моделями на основе второй ламы.
@diore 5 месяцев назад
dolphin 🐬
@sebariart 6 месяцев назад
Запустил llama 3 7b 8Q. На видеокарте 3070. 5-7 токенов/сек, при этом не 100% загрузка видеокарты.
Как я понял нельзя что бы llama начала кушать сверх 8 гб видеопамяти но как это сделать я не понял. Экспериментировал со слоями - не помогло.
Вырубал доп мониторы, снижал разрешение до 640х. Разгонял видеокарту..
@kuliev.vitaly 6 месяцев назад
8гб требует нейросеть c квантизацией 8q. Еще нужна память для хранения контекста и операционную систему. С такой точностью не получится полностью загрузить видеокарту. Выгрузи часть слоев на процессор или попробуй q6 квант.
@alex_great23 6 месяцев назад ⁺¹
Я не пойму почему эта модель меньшего размера у меня быстрее генерируется? 5700x + 3080ti и 32г оперативки.
@kuliev.vitaly 6 месяцев назад ⁺¹
Скорее всего ты запускаешь квантизованную версию. Она меньшего размера и заметно хуже качество ответов. У меня запущена llama-3-8b-instruct fp16. Файл модели должен занимать около 16гб.
@electricsupercars1978 25 дней назад ⁺¹
Оперативку процессора я понимаю
Но видио тут причем
@florizelus 6 месяцев назад ⁺²
Есть вопрос по локализации и поиску данных в своей библиотеке с помощью ии. Как пошагово сделать и что для этого надо с демонстрацией результата. Управлять конечно лучше голосом на русском.
@kuliev.vitaly 6 месяцев назад
Это уже не первый запрос. Почитай про RAG. Llama 3 должна хорошо работать на этой задаче.
@florizelus 6 месяцев назад
@@kuliev.vitaly Спасибо. В сети есть авторы на тему. Смотрел канал "Выпусит джуна из лампы" выпуск"100% локальный и приватный gpt", и Serge_AI "Обучение личного AI на книгах". Спрашиваю для того, что мне, как пользователю , сложновато и надо понять какое оптим.оборудование понадобится и каков результат в конечном итоге. Стоит ли игра свечь - над этим тоже думаю.
@antongonov1811 6 месяцев назад ⁺¹
@@kuliev.vitaly с удовольствием посмотрел бы ваше видео на эту тему)
@proceccopoBc 6 месяцев назад ⁺²
, вторая видеокарта ускорит работу?
@kuliev.vitaly 6 месяцев назад ⁺¹
да
@vfhfnvecnfaby5362 6 месяцев назад ⁺¹
da!!!!!!!!!!!!!!!!!!!!!!!!!!!! )))))
@EvgenMo1111 5 месяцев назад
@@vfhfnvecnfaby5362 ты пробовал?
@YbivanKenoby 6 месяцев назад ⁺²
Для андроид есть?
@kuliev.vitaly 6 месяцев назад ⁺¹
в браузере
@puhkasika 6 месяцев назад
Чтото оно не особо соображает когда 0 на О подменяешь сразу теряется
@ИнтернетДжи 3 месяца назад
тема не раскрыта ) как бы ее запустить скачав на комп через скрипт пайтона, у словно в пайчарме
@КириллКіс 6 месяцев назад
Аналог на телефон есть?
@kuliev.vitaly 6 месяцев назад ⁺³
в браузере можно открыть. локально на телефоне что-то наверное можно запустить с низким качеством и медленно.
@nikolaydd6219 6 месяцев назад ⁺²
1:15 Ты хотел сказать 15 триллионов токенов
@kuliev.vitaly 6 месяцев назад ⁺¹
да)
@electricsupercars1978 25 дней назад ⁺¹
Объясните мне тупому
Почему текстовый чат
Использует видио память
Что за бред!
@kuliev.vitaly 25 дней назад
нейронки на видеокартах работают быстро.
@therealman_tm 12 дней назад
Колобок-каннибал и корзинка пирожков.
@whoareyouqqq 5 месяцев назад
Лучшая локальная это Phi3-medium. А llama3 делает отвратительные ошибки при работе на русском.
@kuliev.vitaly 5 месяцев назад
llama 8b да. Llama 70b корректно отвечает на русском. Phi3-medium имеет в 2 раза большще весов, чем llama 8b.
@adoloro 5 месяцев назад
Ну и речь, противно слушать. Косноязыкий русский с таким же корявым английским.
@kuliev.vitaly 5 месяцев назад
ok
@adoloro 5 месяцев назад
@@kuliev.vitaly Простите за такой едкий комментарий, видео очень полезное и голос приятный. Меня просто бесит, если встречаются английские слова в русском.
@kuliev.vitaly 5 месяцев назад
Исходный английский термин лучше передает смысл, чем его перевод.
@KonstantinG_65 6 месяцев назад
Ни о чем... Возможно для узкого круга лиц, нг не для обычных людей
@yuduz367 6 месяцев назад ⁺³
Запускаю на локальном устройстве 70B со скоростью в 1.2 токена. Я обычный человек.
@Penhavor 5 месяцев назад
@@yuduz367какое железо у тебя?
@payrgames 6 месяцев назад
Господи, да она отвратительно работает. Есть ли нейронки по быстрее и по оптимизированнее?
@kuliev.vitaly 6 месяцев назад ⁺²
вопрос не раскрыт. в чем именно проблема?
@payrgames 6 месяцев назад
@@kuliev.vitaly скорость генерации текста очень низкая, мне это не нравится
@vitalyl1327 6 месяцев назад ⁺¹
Phi-3 ещк быстрее, а по многим бенчмаркам лучше чем Llama.
@kuliev.vitaly 6 месяцев назад ⁺¹
phi-3 в 2 раза меньше и работает только с английским текстом.
@vitalyl1327 6 месяцев назад
@@kuliev.vitaly меньше., потому inference и быстрее. Зато бенчмарки лучше чем у в два раза более крупных моделей. А с русским у всех открытых моделей так плохо, что лучше даже не пробовать.

Следующие

Автовоспроизведение

Большой тест видеокарт для инференса Llama 3 70b 8b. RTX 4090 3090 A100 H100...