Для меня llama самая любимая модель. В третьей версии русский понимает прям отлично как родной. Смысл запросов тоже очень хорошо понимает. Вообщем супер помощник.
Добрый день. Можете посоветовать какой-либо источник, так сказать, ликбез по базовым понятиям по работе с моделями нейросетей? Т.е. ищу грамотный гайд где даются определения терминам веса, токены, слои, квантинизация и т.д., и как они влияют на работу модели, и описываются сценарии использования. Можно и на инглише, если знаете
Нейросети сильно греют видюхи? Думаю что взять gfx1650 4gb с 2 кулерами или gtx1660s 6gb с одним кулером, на больше пока бюджета нет. Цель, потестить различные модельки и начать самому обучать модели, т.е. изучать эту тему. Как думаешь, лучше взять надежней карту но послабей? Или нейронки не сильно греют?
@@kuliev.vitalyi5 12500H норм для простеньких ИИ? Моя цель сделать простенький ИИ, который будет эмулировать персонажа. Думаю взять llama 3 8b. Просто видеокарта слабенькая, rtx 3050 4gb 95w laptop. Есть возможность так же запустить ИИ на ноуте с i5 12450h и rtx 4050 6gb
@@kuliev.vitaly не, я думаю обрабатывать ИИ на ноуте и отправлять обработку на мой ИИ кубик, будет типо Алисы, но с моим персом. А на твоего сервиса, на досуге гляну
круто. а есть ли какие хорошие нейросети для анализа допустим 2 документов? допустим в одном заявка, а в другом договор поставки. анализ на соответвсие? это Bert модели?
@@kuliev.vitaly ну может быть к сожалению у меня нет сервера... Можете для меня испытать его Пример. 1) что испытал герой... 2) где герой потерял... 3) почему злодей поступает так и никак иначе.... Версия на 8В и 12В отвечают от балды....
Виталий, а позволяет ли LLM Studio работать с изображениями? В частности, интересует работа со спутниковыми снимками. Или может быть встречал готовые сервисы по обработке и разметке спутниковых снимков?
Prompt: 'Calculate the expression: "123+5". answer in json format: {"answer": your_int_answer_here}. do not write anything else.' Answer: '{"answer": 128}'
I5-4570, GTX 760 (2ГБ видеопамяти). 10ГБ оперативки, через GPT4ALL скорость ну где-то генерит полный ответ от 10 секунд до 1,5 минуты в зависимости от размера конечно
- "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?" Вопрос о возможностях lm studio 10-й, если не 150-й...)) 1. Видео-карта должна иметь канал соединения - nvlink у видеокарт NVidia (4090 не имеет, разве что 3090( 2. Для связи двух 3090 нужен nvlink bridge - не путать с nvlink bridge 3 slot - это "мост" для связи двух 3090, расположенных друг от друга на расстоянии 3-х слотов 3. Двух 3090 не достаточно для полного помещения в видеопамять модели 70b - хорошо если влезет в 2х80 ГБ - две А100 80ГБ... и т.д. - "Т.е. запустить таким образом модель на 70b" С помощью lm studio + видео-карта с 80 ГБ + 128 ГБ на материнке... может быть...
@@kuliev.vitaly - "70b есть квантизованные - их можно запускать на железе меньшими требованиями." Безусловно... )) ВОПРОС был о том, что "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?" Согласны? я бы трансформировал бы вопрос так: можно ли две, а лучше четыре 4090 объединить в один сервер с помощью lm studio БЕЗ nvlink?? Могу напомнить, что это - не Проф и даже не Полу-проф Решение - там применяется NVSwitch решение... Согласны?
У меня вопрос: А эта ллама она может выводить какой-то формат данных, например указать ей, чтобы json был, чтобы затем его положить куда-то/сделать что-то или надо делать прослойку которая отформатирует ответ?
Да. Можно в инструкции указать, чтобы ответ был в json формате и задать структуру. 70b почти всегда отвечает корректно. 8b отвечает примерно в 85% случаев коректно и в 15% добавляет еще коментарии вне структуры.
@@felix_co если нужно гарантированно валидный json, то погугли про возможность установки formal grammar в используемом interference engine. Это позволяет описать правила синтаксиса и движок будет выбирать только из тех токенов, что не нарушают корректность синтаксиса. Например у llama.cpp есть GGNF (GGML BNF), для json в исходниках уже есть готовые правила в grammars/json.gbnf
Добрый день. Подскажите пожалуйста Llama работает с анализом таблиц, сводными таблицами , с анализом большого массива цифр загруженных из разных таблиц?
Привет. Такого опыта у меня нет. По идее должна работать. Нужно учитывать, что оригинальная llama 3 имеет контекст в 8к токенов - этим ограничивается размер запроса.
Когда-то там метавцы заикались что третья итерация будет на уровне GPT4. Видимо, имели ввиду 400B. 70B, вполне себе, тягается с Qwen 1.5 110B и GPT 3.5 неплохо обгоняет. Я очень разочарован что не будет промежуточных между 70 и 400. Очень ждал, опираясь на слухи, что будут 100 - 120 - 140.
@@kuliev.vitaly Опираясь на то, что самые уквантованные в хламину Grok 1 (Это q1) еле еле запускаются на 64 гигах озу, думаю что у таких крупных кабанов аудитория будет очень узкая.
128гб уже норма для десктопных решений, у меня в системнике на ам4 около трех лет такой объем оперативки. Уже ноуты есть с поддержкой 128гб. В общем согласен - большинству пользователей проблемно будет запускать такие модели локально. Это одна из причин, почему сейчас делаю свой сервис с апи для лламы. Для начала модель 8b, затем 70b.
а в какую цену влетит развертывание в облаке такой махины, я про 70B? может считали. спасибо! чисто спортивный интерес. я хочу себе развернуть 34B, но не знаю как просчитать стоимость... Вообще есть доступ к ним без VPN и много. я с РБ, нас тоже блочат, тоже с VPN живу.))
Я себе купил свой сервер hp priliant dl380 и 512 гиг оперативки, два камня по 12 ядер. Все стоило меньше 100 тысяч рублей, вот и подумай, имеет ли смысл гонять нейронку по удалёнке!
Запустил llama 3 7b 8Q. На видеокарте 3070. 5-7 токенов/сек, при этом не 100% загрузка видеокарты. Как я понял нельзя что бы llama начала кушать сверх 8 гб видеопамяти но как это сделать я не понял. Экспериментировал со слоями - не помогло. Вырубал доп мониторы, снижал разрешение до 640х. Разгонял видеокарту..
8гб требует нейросеть c квантизацией 8q. Еще нужна память для хранения контекста и операционную систему. С такой точностью не получится полностью загрузить видеокарту. Выгрузи часть слоев на процессор или попробуй q6 квант.
Скорее всего ты запускаешь квантизованную версию. Она меньшего размера и заметно хуже качество ответов. У меня запущена llama-3-8b-instruct fp16. Файл модели должен занимать около 16гб.
Есть вопрос по локализации и поиску данных в своей библиотеке с помощью ии. Как пошагово сделать и что для этого надо с демонстрацией результата. Управлять конечно лучше голосом на русском.
@@kuliev.vitaly Спасибо. В сети есть авторы на тему. Смотрел канал "Выпусит джуна из лампы" выпуск"100% локальный и приватный gpt", и Serge_AI "Обучение личного AI на книгах". Спрашиваю для того, что мне, как пользователю , сложновато и надо понять какое оптим.оборудование понадобится и каков результат в конечном итоге. Стоит ли игра свечь - над этим тоже думаю.
@@kuliev.vitaly Простите за такой едкий комментарий, видео очень полезное и голос приятный. Меня просто бесит, если встречаются английские слова в русском.
@@kuliev.vitaly меньше., потому inference и быстрее. Зато бенчмарки лучше чем у в два раза более крупных моделей. А с русским у всех открытых моделей так плохо, что лучше даже не пробовать.
Рад новому видео. 8B меня конечно удивила, даже на моем процессоре нормальная скорость работы, и главное качество кодинга приемлимое
Подскажите пожалуйста, какой у вас процессор и сколько токенов в сек генерит на нем 8B сетка?
@@Musicnotforf.nrelaxsleep-ih6iv райзен 3600. Скорость генерации как у гпт4 примерно, чуть медленнее может
Спасибо, Отличное видео!
Для меня llama самая любимая модель. В третьей версии русский понимает прям отлично как родной. Смысл запросов тоже очень хорошо понимает. Вообщем супер помощник.
Однако пишет, так как никто: например, мне очень радовательно, путает ты и я . Так-себе впечатление.
надо будет попробовать, интересное видео, спасибо
Добрый день. Можете посоветовать какой-либо источник, так сказать, ликбез по базовым понятиям по работе с моделями нейросетей? Т.е. ищу грамотный гайд где даются определения терминам веса, токены, слои, квантинизация и т.д., и как они влияют на работу модели, и описываются сценарии использования. Можно и на инглише, если знаете
Рекомендую на практике изучать. Бери конкретные нейросети и работай с ними. На lmarena можно потестировать чаты с разными нейросетями.
Спасибо большое за столь подробное видео. Пойду ковырять!)
Очень информативно и душевно, спасибо! 😌
Нейросети сильно греют видюхи? Думаю что взять gfx1650 4gb с 2 кулерами или gtx1660s 6gb с одним кулером, на больше пока бюджета нет.
Цель, потестить различные модельки и начать самому обучать модели, т.е. изучать эту тему.
Как думаешь, лучше взять надежней карту но послабей? Или нейронки не сильно греют?
Памяти слишком мало. Для начала можно взять 3060 с 12гб памяти. Если этого нет, то запускай нейронки на процессоре - этого достаточно для обучения.
@@kuliev.vitaly я так подумал, куплю подешевле, пока обучусь основам год пройдет, а там может и новый комп соберу с 4060
@@kuliev.vitalyi5 12500H норм для простеньких ИИ? Моя цель сделать простенький ИИ, который будет эмулировать персонажа. Думаю взять llama 3 8b. Просто видеокарта слабенькая, rtx 3050 4gb 95w laptop. Есть возможность так же запустить ИИ на ноуте с i5 12450h и rtx 4050 6gb
Нормально. Имей в виду, что если делаешь игру, то процессор будет занят расчетом нейронки. Можешь ещё мой сервис rus-gpt.com по апи использовать.
@@kuliev.vitaly не, я думаю обрабатывать ИИ на ноуте и отправлять обработку на мой ИИ кубик, будет типо Алисы, но с моим персом. А на твоего сервиса, на досуге гляну
реально хороша. на 8В на моей машине просто летает
круто. а есть ли какие хорошие нейросети для анализа допустим 2 документов? допустим в одном заявка, а в другом договор поставки. анализ на соответвсие? это Bert модели?
Llama 3 подойдет для этого. Просто в запрос подавайте оба документа в текстовом виде.
Интересно былоб увидеть, какая из моделей в it мануэлах лучше. И кто код более качественный пишет.
arena.lmsys.org/
там можно рейтинг по интересующим темам выбрать. выбери код.
По приколу решил закинуть в ламу книгу и ни разу он мне правильно не ответил...
Тормоз ещё тот...
Есть опыт построения RAG системы на основе 5 книг и llama 70b. Работает очень хорошо.
@@kuliev.vitaly ну может быть к сожалению у меня нет сервера...
Можете для меня испытать его
Пример.
1) что испытал герой...
2) где герой потерял...
3) почему злодей поступает так и никак иначе....
Версия на 8В и 12В отвечают от балды....
Там по психологии тема.
Соглашусь, что 8B версия достаточно тупа. Более менее качественно нейронки начинают отвечать с размера 70b
@@kuliev.vitaly опять же нужен сверхмощное оборудование...
Виталий, а позволяет ли LLM Studio работать с изображениями? В частности, интересует работа со спутниковыми снимками.
Или может быть встречал готовые сервисы по обработке и разметке спутниковых снимков?
Да может. Для большинства vision нейросетей есть image адаптеры. Можно закинуть картину и спросить вопрос.
@@kuliev.vitaly спасибо, попробую потестить
Но было бы интересно и твой обзор посмотреть на этот тул
Очень показательная задача для нейросети 123+5=128.
С такой задачей успешно справлялся в 1985 году калькулятор Электроника-Б3.
Prompt: 'Calculate the expression: "123+5". answer in json format: {"answer": your_int_answer_here}. do not write anything else.'
Answer: '{"answer": 128}'
rus-gpt.com/
Запрос делал через свое апи
Есть смысл 8B ставить на компе с i5-12400 со встройкой и 32Гб оперативки?
На процессоре сможешь ее запустить. Попробуй, например через lm studio
@@kuliev.vitaly вопрос не в этом ))
если она мне будет выдавать один токен в секунду, зачем мне такое?
@@Musicnotforf.nrelaxsleep-ih6iv ну как, попробовал?
I5-4570, GTX 760 (2ГБ видеопамяти). 10ГБ оперативки, через GPT4ALL скорость ну где-то генерит полный ответ от 10 секунд до 1,5 минуты в зависимости от размера конечно
@@dugl это на цпу?
Возможно в lm studio использовать для модели несколько одинаковых видеокарт? Т.е. запустить таким образом модель на 70b
Да, должно работать. У меня пока не было возможности протестировать.
- "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?"
Вопрос о возможностях lm studio 10-й, если не 150-й...))
1. Видео-карта должна иметь канал соединения - nvlink у видеокарт NVidia (4090 не имеет, разве что 3090(
2. Для связи двух 3090 нужен nvlink bridge - не путать с nvlink bridge 3 slot - это "мост" для связи двух 3090, расположенных друг от друга на расстоянии 3-х слотов
3. Двух 3090 не достаточно для полного помещения в видеопамять модели 70b - хорошо если влезет в 2х80 ГБ - две А100 80ГБ...
и т.д.
- "Т.е. запустить таким образом модель на 70b"
С помощью lm studio + видео-карта с 80 ГБ + 128 ГБ на материнке... может быть...
70b есть квантизованные - их можно запускать на железе меньшими требованиями.
@@kuliev.vitaly - "70b есть квантизованные - их можно запускать на железе меньшими требованиями."
Безусловно... ))
ВОПРОС был о том, что "Возможно в lm studio использовать для модели несколько одинаковых видеокарт?"
Согласны?
я бы трансформировал бы вопрос так: можно ли две, а лучше четыре 4090 объединить в один сервер с помощью lm studio БЕЗ nvlink??
Могу напомнить, что это - не Проф и даже не Полу-проф Решение - там применяется NVSwitch решение... Согласны?
@@kuliev.vitaly квантизование даёт в итоге меньшее качество или низкую скорость ответа?
У меня вопрос:
А эта ллама она может выводить какой-то формат данных, например указать ей, чтобы json был, чтобы затем его положить куда-то/сделать что-то или надо делать прослойку которая отформатирует ответ?
Да. Можно в инструкции указать, чтобы ответ был в json формате и задать структуру. 70b почти всегда отвечает корректно. 8b отвечает примерно в 85% случаев коректно и в 15% добавляет еще коментарии вне структуры.
@@kuliev.vitaly спасибо!
@@felix_co если нужно гарантированно валидный json, то погугли про возможность установки formal grammar в используемом interference engine. Это позволяет описать правила синтаксиса и движок будет выбирать только из тех токенов, что не нарушают корректность синтаксиса.
Например у llama.cpp есть GGNF (GGML BNF), для json в исходниках уже есть готовые правила в grammars/json.gbnf
Я тоже хотел сделать свой серве с ssh туннелем Но в этом не сильно разбираюсь промучился ничего не получилось
Добрый день. Подскажите пожалуйста Llama работает с анализом таблиц, сводными таблицами , с анализом большого массива цифр загруженных из разных таблиц?
Привет. Такого опыта у меня нет. По идее должна работать. Нужно учитывать, что оригинальная llama 3 имеет контекст в 8к токенов - этим ограничивается размер запроса.
@@kuliev.vitaly Благодарю за ответ.
Здравствуйте. На сегодняшний день есть смысл покупать 3080 для изучения интеллекта. Или лучше 4070. Серия 4070 сейчас поддерживается софтом?
Очень нужен ваш совет
Лучше 4090, у всех прочих памяти маловато.
Тоже интересно
Бери с 24гб памяти, если бюджет позволяет. ruclips.net/video/0iA1-X-TR7s/видео.html
@@kuliev.vitaly 24 гб дорогие.
Денег хватает только на 3080 либо 4070. У 3080 тензорных ядер на 274 а у 4070 на 187 эта имеет значение?
Спасибо!
при оплате услуг, прошу учитывать возможность оплаты в криптовалюте. Так как есть интересанты (Я) без возможности оплаты в рублях.)
Привет! А что у тебя за операционка стоит?
kubuntu 22.04
Сколько не гонял разные дистрибутивы, вернулся к Debian.
Когда-то там метавцы заикались что третья итерация будет на уровне GPT4. Видимо, имели ввиду 400B. 70B, вполне себе, тягается с Qwen 1.5 110B и GPT 3.5 неплохо обгоняет. Я очень разочарован что не будет промежуточных между 70 и 400. Очень ждал, опираясь на слухи, что будут 100 - 120 - 140.
70b на десктопном железе можно запустить. 400b уже очень проблематично. Наверняка выйдут квантизованные запруненные версии 400b
@@kuliev.vitaly Опираясь на то, что самые уквантованные в хламину Grok 1 (Это q1) еле еле запускаются на 64 гигах озу, думаю что у таких крупных кабанов аудитория будет очень узкая.
128гб уже норма для десктопных решений, у меня в системнике на ам4 около трех лет такой объем оперативки. Уже ноуты есть с поддержкой 128гб.
В общем согласен - большинству пользователей проблемно будет запускать такие модели локально. Это одна из причин, почему сейчас делаю свой сервис с апи для лламы. Для начала модель 8b, затем 70b.
а в какую цену влетит развертывание в облаке такой махины, я про 70B? может считали. спасибо! чисто спортивный интерес. я хочу себе развернуть 34B, но не знаю как просчитать стоимость... Вообще есть доступ к ним без VPN и много. я с РБ, нас тоже блочат, тоже с VPN живу.))
clore.ai - тут дешево можно арендовать комп с видеокартами. 50-100к рублей в месяц начальная цена для запуска квантизованной llama 70b.
@@kuliev.vitaly спасибо большое за ответ.
Я себе купил свой сервер hp priliant dl380 и 512 гиг оперативки, два камня по 12 ядер. Все стоило меньше 100 тысяч рублей, вот и подумай, имеет ли смысл гонять нейронку по удалёнке!
К сожалению у третьей ламы пока нету нормальной расцензуренной версии. Поэтому приходиться пользоваться моделями на основе второй ламы.
dolphin 🐬
Запустил llama 3 7b 8Q. На видеокарте 3070. 5-7 токенов/сек, при этом не 100% загрузка видеокарты.
Как я понял нельзя что бы llama начала кушать сверх 8 гб видеопамяти но как это сделать я не понял. Экспериментировал со слоями - не помогло.
Вырубал доп мониторы, снижал разрешение до 640х. Разгонял видеокарту..
8гб требует нейросеть c квантизацией 8q. Еще нужна память для хранения контекста и операционную систему. С такой точностью не получится полностью загрузить видеокарту. Выгрузи часть слоев на процессор или попробуй q6 квант.
Я не пойму почему эта модель меньшего размера у меня быстрее генерируется? 5700x + 3080ti и 32г оперативки.
Скорее всего ты запускаешь квантизованную версию. Она меньшего размера и заметно хуже качество ответов. У меня запущена llama-3-8b-instruct fp16. Файл модели должен занимать около 16гб.
Оперативку процессора я понимаю
Но видио тут причем
Есть вопрос по локализации и поиску данных в своей библиотеке с помощью ии. Как пошагово сделать и что для этого надо с демонстрацией результата. Управлять конечно лучше голосом на русском.
Это уже не первый запрос. Почитай про RAG. Llama 3 должна хорошо работать на этой задаче.
@@kuliev.vitaly Спасибо. В сети есть авторы на тему. Смотрел канал "Выпусит джуна из лампы" выпуск"100% локальный и приватный gpt", и Serge_AI "Обучение личного AI на книгах". Спрашиваю для того, что мне, как пользователю , сложновато и надо понять какое оптим.оборудование понадобится и каков результат в конечном итоге. Стоит ли игра свечь - над этим тоже думаю.
@@kuliev.vitaly с удовольствием посмотрел бы ваше видео на эту тему)
, вторая видеокарта ускорит работу?
да
da!!!!!!!!!!!!!!!!!!!!!!!!!!!! )))))
@@vfhfnvecnfaby5362 ты пробовал?
Для андроид есть?
в браузере
Чтото оно не особо соображает когда 0 на О подменяешь сразу теряется
тема не раскрыта ) как бы ее запустить скачав на комп через скрипт пайтона, у словно в пайчарме
Аналог на телефон есть?
в браузере можно открыть. локально на телефоне что-то наверное можно запустить с низким качеством и медленно.
1:15 Ты хотел сказать 15 триллионов токенов
да)
Объясните мне тупому
Почему текстовый чат
Использует видио память
Что за бред!
нейронки на видеокартах работают быстро.
Колобок-каннибал и корзинка пирожков.
Лучшая локальная это Phi3-medium. А llama3 делает отвратительные ошибки при работе на русском.
llama 8b да. Llama 70b корректно отвечает на русском. Phi3-medium имеет в 2 раза большще весов, чем llama 8b.
Ну и речь, противно слушать. Косноязыкий русский с таким же корявым английским.
ok
@@kuliev.vitaly Простите за такой едкий комментарий, видео очень полезное и голос приятный. Меня просто бесит, если встречаются английские слова в русском.
Исходный английский термин лучше передает смысл, чем его перевод.
Ни о чем... Возможно для узкого круга лиц, нг не для обычных людей
Запускаю на локальном устройстве 70B со скоростью в 1.2 токена. Я обычный человек.
@@yuduz367какое железо у тебя?
Господи, да она отвратительно работает. Есть ли нейронки по быстрее и по оптимизированнее?
вопрос не раскрыт. в чем именно проблема?
@@kuliev.vitaly скорость генерации текста очень низкая, мне это не нравится
Phi-3 ещк быстрее, а по многим бенчмаркам лучше чем Llama.
phi-3 в 2 раза меньше и работает только с английским текстом.
@@kuliev.vitaly меньше., потому inference и быстрее. Зато бенчмарки лучше чем у в два раза более крупных моделей. А с русским у всех открытых моделей так плохо, что лучше даже не пробовать.