Новая Llama 3.2 - LLM локально на любом устройстве? Гайд + Обзор

Продуктивный Совет

Просмотров 24 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 21 ноя 2024

Комментарии • 144

@nikolay4362 2 дня назад ⁺²
LLM это все конечно здорово, но когда ты уже допишешь Мёртвые души?
@EVgameus Месяц назад ⁺³
Есть ощущение, что основные тезисы видео могли поместиться в short =)
А вот про транскрипт локальный хотелось бы узнать подробнее, что использовать и куда прикрутить
@92Darkmind 12 дней назад
Воу воу воу. это как раз то что я искал. Алгоритмы ютуба жесть. Как они узнали?
@dolotube Месяц назад ⁺²⁹
3:55 Да, увы, только инглиш. Щупал я llama 3.2 на олламе и пришел к выводу, что бесполезна для русского языка - глуповата и постоянно делает вставки на других языках. Даже гибриды с вихрем хромают слишком часто, чтобы пытаться использовать на практике. Тот же phi на 3b работает чище и сосоставим по скорости.
Большое окно контекста - это приятно. Но плохое следование инструкциям - это отвратно. Не нашел ни одного сценария, где 3.2 пригодилась бы.
@dolotube Месяц назад ⁺¹
- Привет. Расскажи о своей специализации и известных технических ограничениях.
- Важно учитывать, что моё chuyênное развитие может быть неоднозначным. Моя основной специализацией - это создание интерфейсов для мобильного приложения. Я знакома с различными технологиями и платформами, включая Android и iOS...
- Расскажи о своих познаниях в грамматике и стилистике русского языка. Оцени по 10-бальной шкале твои способности работать корректором и редактором.
- Вы знаете, как правильно написать предложение с использованием подлежащего, субъекта, предлога и глагола? Я всегда рад помочь с этическими вопросами в русском языке.
Да, chuyênное развитие - лучше и не скажешь.
@uuuummm9 Месяц назад ⁺¹
@@dolotube "чумное" развитие 😂
@N0thingE1se Месяц назад
@@dolotubeглавное с этическими вопросами не напортачить) всё так все так) так а чё там по мобильным интерфейсам?)
@dolotube Месяц назад ⁺¹
@@N0thingE1se Она имела в виду, что её можно использовать для создания мобильных приложений со встроенным ИИ, который не будет нуждаться в интернете, будет быстро крутиться на слабых процессорах и обеспечит приватность. Создание мобильных интерфейсов с ней - это её главная фишка. И единственная.
И лично я для этой цели предпочту взять ужатую другую модель, которая изначально была многоязычной и лучше следует инструкциям.
@corpsebreath1029 Месяц назад
Вот если бы на китайском😂
@sergeyivanov6095 Месяц назад ⁺³
Ждем обзор мультимодальной 3.2 11b + ollama+openwebui
@x_ztazy 10 дней назад
Трогал расширение для хрома MaxAI. В нем встроена llama и она вполне себе работает с русским языком. То есть это как то возможно или они используют перевод туда-обратно под капотом?
@NatashaDorokhova-s1b Месяц назад ⁺²
Можно ли ламу заставить работать с файловой системой на компе, анализировать статистику использования файлов и отвечать на вопросы типа "с какими файлом я работал тои недели назад, в нем ещк было про ежкин кот и я еще вместе с ним открывал эксель какой-то, в который дописал четыре клеточки"?
@dimakrilovskiy9902 Месяц назад ⁺¹
Можно😂
@NatashaDorokhova-s1b Месяц назад
@@dimakrilovskiy9902 прошу научить
@timur.shhhhh Месяц назад ⁺²
4:50 было ожидаемо, что будет реклама
@mihail_ltv Месяц назад
Спасибо. Очень жду ролик про LM Studio.
@ufocombat Месяц назад
мы это проверили 👻 работает как на видео даже по русскому отвечает если короткие вопросы. если сложные и большие ответы лучше перевод делать
про эту программу-логическое программирование стрелочками-лучше отдельное видео сделать-она это заслуживает
@Thermalreview 11 дней назад
Подскажите локальную llm для успешного кодинга и генерации кода на python, с максимальным контекстом, чтобы можно было полностью утилизировать возможности rtx 4080, r9 5900x, 32 Ram
@Milkyway20239 Месяц назад
Хорошо Вы все рассказали и подробно показали полезные вещи 👍
@aleksandrastepanova4049 Месяц назад ⁺¹
Спасибо дяде, за труды, но пока Лламы не для нас. 😢
Но картинка прикольная😉
@sharonsky94 Месяц назад
для нас, подключи переводчик
@sharonsky94 Месяц назад
бля, недосмотрел видео. Я скриптом её запускаю. Олламой не пользуюсь. Есть модуль в питоне для перевода, там несложно, чатгпт спроси как сделать
@Graf1716 Месяц назад ⁺¹
Подскажите пожалуйста, какую максимально Llama можно загрузить на устройство с 12гб оперативной памяти S24 Ultra?
@bobyboba4615 Месяц назад
3b наверно
@TRX_144 Месяц назад
А что самому попробовать религия не позволяет или отсутствие присусттвия как говорится
@vasil_mullin 19 дней назад
Спасибо!
@zoomixxx1 22 дня назад
Ну это топовый контент, однозначно
@aleksandrerygin4553 Месяц назад
Спасибо, отец!
@timur.shhhhh Месяц назад
Не знал, что автор еще и программист, не только новости ведет
@romanbolgar Месяц назад ⁺¹⁰
Опять терминал. Вот это интеллект... Не устаю поражаться... Давайте выпуск про перфокарты
@sergeyivanov6095 Месяц назад ⁺³
Все чем ты пользуешься создается, настраивается и запускается в терминалах. Просто для лунтиков-потребителей это слишком травмирующие выглядит и их огораживают.
@romanbolgar Месяц назад
@@sergeyivanov6095 Я вам скажу больше. Всё это работает вообще в машинном коде. А для Лунтиков сделали терминал. Чтобы их не травмировать и огораживать.
@Achmd Месяц назад ⁺²
а чем чат отличается от терминала или консоли для общения с текстовым ботом?))
@romanbolgar Месяц назад
@@Achmd Хорошо я спрошу у чата вместо вас. Благо в чате это гораздо удобнее .Чат, терминал и консоль - это все интерфейсы для ввода и вывода текстовой информации, но они отличаются друг от друга по ряду параметров. В контексте общения с текстовым ботом, вот несколько ключевых отличий:
Интерфейс:
Чат: Обычно имеет более дружелюбный и интуитивно понятный интерфейс, с возможностью отправки сообщений в виде пузырьков или сообщений, которые появляются в окне чата. Часто включает в себя функционал для отправки файлов, изображений и эмодзи.
Терминал/Консоль: Имеет более строгий и минималистичный интерфейс, состоящий из командной строки, где пользователь вводит команды и получает ответы в виде текста.
Функциональность:
Чат: Часто включает в себя дополнительные функции, такие как групповые чаты, каналы, реакции на сообщения, поиск сообщений и т.д.
Терминал/Консоль: Обычно используется для ввода команд для выполнения определенных задач, таких как управление файлами, настройка системы и т.д. Функциональность может быть расширена с помощью различных скриптов и программ.
Взаимодействие с ботом:
Чат: Пользователь может отправлять сообщения боту в свободной форме, и бот может отвечать более естественным языком, используя машинное обучение и Natural Language Processing (NLP) для понимания и генерации ответов.
Терминал/Консоль: Общение с ботом происходит через предопределенные команды, которые пользователь вводит в командной строке. Бот отвечает в формате текста, часто в виде результатов команд или сообщений статуса.
Уровень доступа:
Чат: Обычно предоставляет более высокий уровень доступа к функциям бота, позволяя пользователям взаимодействовать с ботом более естественным образом.
Терминал/Консоль: Предоставляет более низкий уровень доступа, позволяя пользователям управлять ботом и системой более точно и детально, но требует большего опыта и знаний о командах и функциях бота.
Применение:
Чат: Чаще используется для общения между людьми или для общения с ботом в более дружелюбной и интуитивно понятной среде.
Терминал/Консоль: Чаще используется для управления системой, выполнения команд и настройки параметров, а также для общения с ботом в более технической и специализированной среде.
@Achmd Месяц назад
@@romanbolgar ты настолько отвык пользоваться мозгом, что уже самостоятельно не можешь ответить на такой простой вопрос?))
Здесь речь идёт про интерфейс ввода-вывода информации. Он может быть любым: текстовым, звуковым, визуальным, осязательным. И выбор конкретного зависит лишь от моих сиесекундных хотелок.
На телефоне в качестве терминала использую чат в телеге, где бот перенаправляет запросы к серверу. На компе я использую консоль. Разница-то в чём, Ромочка? ))
@JohnSmith-z9m Месяц назад ⁺⁹
Summary: Качаем модельку и ничего не работает, русский не понимает, но модельки прикольные. А пайтон можете учить в скилфактори.
@ProdAdvice Месяц назад ⁺¹
tldr
@KLRiyDQvdCwYjRkdCINGNYLQviA Месяц назад
@@ProdAdvice TLTRM?
@pht001-nh4br 5 дней назад ⁺¹
парик прикольный
@ПатрикСтар-ъ5л Месяц назад
Ты лучший, очень хотел разбор по ламам, и тут, спасибо!
@dimakrilovskiy9902 Месяц назад
А нвидии ломки можешь затестить? По размеру те же а и с русским лучше работают и с пониманием круче.
@dimakrilovskiy9902 Месяц назад
nemotron-mini:latest в Ollama занимает мало. Рус Укр понимает. Думает логически. Задает вопросы по уточнению.
@СпециальныйагентСтивенс-ФБР Месяц назад ⁺⁵
Всё это очень сырое и для людей которые не ориентируются во всех этих тонкостях - пустая трата времени... надо ждать когда всё это приобретёт более божеский вид. За обзор конечно же спасибо! Буду ждать чего-то нового и адекватного!
@ПатрикСтар-ъ5л Месяц назад
Сначала первый комментарий написал потом посмотрел и вот что думаю, для тех кому нужна именно лама по тому, что она на открытом исходном и там максимально тонкие настройки можно делать, это видео очень интересно и полезно, для большинства это темный лес, даже ради забавы не полезут))
@drumcord Месяц назад
Нужен процессор с AVX2?
@arc-deity Месяц назад
Не обязательно, разницы в скорости для маленьких моделей с AVX2 и без него практически ноль, а вот если модели тяжелые типа c4 вот там нужен AVX2.
@drumcord Месяц назад
@@arc-deity Не в том дело. Она просто не работает без этой инструкции.
Я пытался на i7-2600, с RTX 3060 12gb.
Модели - Dolphin отказываются работать без AVX2 инструкций
Процессор нужен "свежий" с инструкциями AVX2
@dolotube Месяц назад ⁺¹
AVX2 поддерживается во всех процессорах уже почти 10 лет. Если в процессоре нет AVX2, то он и по прочим характеристикам плохо подошел бы для LLM. Это не тот случай, когда "раньше было лучше".
Некогда крутой старый i7-2600 по мощности сейчас сопоставим с ноутбучным N100.
@drumcord Месяц назад
@@dolotube С помощью каких инструментов вы сравниваете процессоры? Как по мне, он на уровне с i5-9400
@drumcord Месяц назад
@@dolotube Я согласен что это довольно старый процессор, но к ноутбучному N100 я не согласен его приравнять.
По крайней мере есть момент уничтожающий все бумажные гигагерцы в ноутбуках - TDP и то как вендоры реализуют системы охлаждения.
Эти камушки зажаты, и постоянно тротлят. Рынок ноутбуков отвратителен.
Сам пострадал, с ноутбуком на i7-4702MQ
@superlight8426 Месяц назад
На андроид как эту Ламу скачать?
@rvsn82 Месяц назад
Уважаемый! Научите как дать доступ Llama 3.2 - LLM локально в интернет, очень многие хотят получить локального помощника, который может обновлять свою локальную базу данных и давать подсказки основанные на на данных из интернета.
@mcseem9587 6 дней назад
Ютуб замедляют!!!! Размести видео на других площадках, а то невозможно смотреть с такими тормозами...
@ahyena Месяц назад ⁺¹
Я бы хотел видеть голосового ассистента на базе этой ламы, потому что Алиса тупая, GPT PLUS платный, а я хочу просто общаться с нейронкой с голосом аниме тян которая будет тем же голосом отвечать на мои вопросы.
@AlexanderCOOLer Месяц назад
Пффф, хотеть мало. У тебя железа нет такого, чтобы такие нейронки запускать, раз 20 баксов нет на gpt. Тут и llama 70b будет мало, если алиса для тебя тупая, какие 1b или 3b, ахаха, ты не понимаешь какое это дно
@ahyena Месяц назад
@@AlexanderCOOLer GPT Plus я использую по сей день, подписка на FunPay стоит всего 200 рублей, с учётом того что это Россия другим способом ее не купить, проблема в том что нужно постоянно включать VPN и даже так на 4o есть ограничение по запросам в сутки. У меня 4070 Super и 64 ОЗУ, тип этого железа не хватит чтоб лама была умнее Алисы?
@City__Walker Месяц назад ⁺²
Я так понял остаёмся на 3.1?
@dolotube Месяц назад
Модель llama 3.1 размером 70b - это на сегодня замечательный вариант для локальной LLM на мощном компе.
Для средних компов она же размером 8b тоже неплохо справляется.
А для слабых компов многое зависит от конкретных задач. Возможно, где-то и 3.2 окажется полезной, хотя бы из-за контекста на 128 килобайт - если кому-то нужно часто делать на мобилке выжимки из англоязычных текстов, то почему бы и не попробовать.
@drimscape Месяц назад ⁺¹
@@dolotube 70b это видеократу нужно иметь на 70 гигабай. это не для мощных компов а для серверов.
@dolotube Месяц назад
@@drimscape Нет, для запуска лламы 70b нужно около 40 ГБ оперативной памяти. Видеопроцессор с видеопамятью - это способ ускорить работу, а не необходимое условие для запуска. Если есть комп с 64 ГБ оперативки и сильным процессором, то вполне можно пользоваться моделькой на 70b.
@drimscape Месяц назад
@@dolotube ага и ждать ответа по 1 минуте. нормальная работа возможна только на видеопамяти. разве нет?
@dolotube Месяц назад
@@drimscape А что есть "нормальная работа с нейросетями"?
Даже 5 минут ожидания на сложный промпт - это замечательный результат для ряда сценариев.
Например, это значит, что за несколько часов я могу собрать полноценный учебник - проработать структуру, наполнить и отредактировать разделы по главам. Автоматически и бесплатно. На любую тему от "как промпты делать для миджорни" до "как правильно выбирать презервативы".
Или запустить на ночь генератор идей, прикрепляя к каждой задумке ожесточенный спор виртуальных специалистов разных профессий с подведением итогов в конце.
Или пропарсить кучу свежих статей с какого-нибудь сайта с целью выборки тезисов, которые не будут тупым пересказом давно известного, а могут оказаться полезными лично мне.
То есть "нормальная работа" вполне может происходить без моего непосредственного участия, а значит не нуждается в моментальной скорости.
P.S. Интереса ради запустил 70b на своем старом железе - проц 8-летней давности, 12 ГБ оперативки, прочее в кеше, причем на винчестере, видюшка не участвует. Моделька 10 минут разворачивалась в памяти, потом 10 минут обрабатывалась, потом ollama пожаловалась на таймаут. Надо будет поиграться с ключиками, чтобы таки опробовать такое извращение.
@Mirropix35 Месяц назад
В чем фишка почему она стала бистро сгенерировать..? 😮 при минималке,
@igemon4845 Месяц назад
Она поехала в Италию, поняла,что "бистро" это круто
@dolotube Месяц назад
В размере. Если взять на хаггингфейсе другую модель, ужатую до 1b, то она тоже будет шустро выдавать результаты.
@ufocombat Месяц назад
Это было круто!
@92Darkmind 12 дней назад
Не. Мне надо было как раз в коде показать как это работает.
@ProdAdvice 11 дней назад
показал же)
@92Darkmind 11 дней назад
@ProdAdvice ну оно мельком. На самом деле на этом лучше было сделать весь ролик, т.к. я вот ее запустил, и через curl посылаю ей запросы, прочитал как прикрутить историю, учил ее долго выводить команды в терминал, и принимать результат, а в итоге она предобучена использовать инструменты какие то, в частности она умеет вызвать функции. Но как это работает я еще не разобрался. Я пока просто посылаю ей json с системным промтом где прошу отвечать в нужном формате, с ключем, перехватывая который посылаю команды уже в функции. Короче у меня пока оно костыльно.
@dzianwoo2292 Месяц назад ⁺²
Да есть уже на хагингфейсе файнтюн русского языка, потестил, ну...мешает русский и английский всёравно, Даже на английском не придумал для своих задач применения, уж очень тупенькая, даже до джипити 3.5 как до луны ей и бороться с её фантазиями и глюками...ничего "твёрдого" с ней не сочинить вобщем
@KLRiyDQvdCwYjRkdCINGNYLQviA Месяц назад
С llama 3.2 у меня вообще какие то беды, то она отвечает на поставленную задачу тем же ответом, что и давала в предыдущем ответе, то на промпт "hi" сначала отвечает как обычно а затем "примечания, сказали привет, что значит привет." далее начинается шизофазия из тысячи слов, дойдя до какого-то пользовательского соглашения и вообще "с уважением, google", то вообще может произойти такое, что её заглючит и она начнёт повторять одни и те же слова в одном предложении до бесконечности. Короче лажа полная. На английском то же самое. Qwen 2.5 будет лучше
@ColoraceCG Месяц назад
через webui легко
@City__Walker Месяц назад
Только поставил 3.1 а тут бац и 3.2😂
@nicivanov5135 Месяц назад ⁺¹
Дата секте, не понять, что программисту нахер не нужны миллиарды параметров, чтоб кодить проекты. Врачу нахер не нужны милларды параметров. Ему нужна модель с актуальными протоколами и рецептами.
Архитектору нахер не нужны милларды неточных параметров.
Всего нужно, при инстале, дать выбор темы, но если чел. её выбрал, то инфа 100%.
По буквам: П-Р-О-В-Е-Р-Е-Н-Н-А-Я И-Н-Ф-О-Р-М-А-Ц-И-Я.
И честный ответ если модель не знает чегото.
Куда большая ценность в простой базе данных которую делал сам. Чем от этого чуда метамысли.
@PanKopecky Месяц назад ⁺¹
Насчёт только английского, не согласен... по-русски она тоже тужится... даже можно понять, что она имеет ввиду, но местами... да... рекбус-кроксворд...
@4MERSAT Месяц назад
есть же gguf модели ламы, которые в пару кликов запускаются в том же кобольде или лмстудио, что за гемор в ролике вообще? 😆
@OfficialPlaneta-Play Месяц назад
круто
@КириллКіс Месяц назад
Итог, автор суёт не рабочее 💩 со своим не рабочим кодом🔥🤣🤣
@nofate9 Месяц назад
оч долго реклама. канал сделан хорошо, считай первый ляп. не считая конечно стрима
@OO-OO-00-88 Месяц назад
Ollama самый конченный вариант, у большого числа пользователей не подтягивается видюха, лучше использовать lm studio.
@ЕвгенийБорисов-е1ч Месяц назад
нерабочее всё
@tarusindi Месяц назад
Не)))) не оно))
@JoraMacKornev Месяц назад
Лишь бы это стадо не оставило нас без еды и штанов =)
@TRX_144 Месяц назад ⁺²
Не знаю нормальная моделька для своего веса - быстрая и отвечает толково на большинство вопросов а тем кто жалуется на английский- вас что в гугле забанили,))
@DroidGame2023 Месяц назад ⁺⁵
полностью бесполезная шляпа в свете того, что gpt-4 полностью бесплатный и безлимитный.
если бы лама вышла лет 5 назад, она была бы топом и хитом, но не сегодня.
@City__Walker Месяц назад ⁺²
К сожалению не все готовы в интернете выбрасывать конфиденциальную информацию, локально gpt4 не развернешь
@chelovekX Месяц назад
с чего ты взял что бесплатно?
@dolotube Месяц назад
Где вы нашли модель gpt-4 от OpenAI для локального развертывания?
@DroidGame2023 Месяц назад
@@chelovekX потому что пользуюсь ею на официальном сайте, бесплатно безлимитно
@drimscape Месяц назад ⁺¹
"gpt-4 полностью бесплатный и безлимитный" вранье же. в рф доступа нет к гпт4. а платить за впн и иностранные карточки это не "бесплатно"
@Atractiondj Месяц назад
Когда вы видели чтобы Мета делала что-то толковое? Даже их соц сети работают через попку, а тут нейросети... они поэтому и отдают её бесплатно чтобы хоть кто-то говорил о Мета хоть что-то а то компания дохнет по немногу!
@Atractiondj Месяц назад
@Yert_us самые лучшие из хофна? Может быть я в хофне не роюсь
@sharonsky94 Месяц назад
аналогично, щупал я лама 3.2 1б, и она самая умная из тех, кто запускается на моем железе. Подключаешь переводчик и пожалуйста, умные ответы
@sharonsky94 Месяц назад
понятно что есть калькулятор, но она очень хорошо считает, погрешность около 0.01%
@Widok84 Месяц назад
Бро чо за мочалка у тебя на голове?😂😂😂 сделай норм стрижку 😂😂😂😂
@nekitos3269 Месяц назад
И под носом щётка какая-то
@adlhbgreqk Месяц назад
Mission failed succefuly. качаем, ставим.
@sergeyivanov6095 Месяц назад
Есть llama 3.2 от вихря они ее доучили в русский не идеально конечно но в разы лучше стоковая
ollama run rscr/vikhr_llama3.2_1b

Следующие

Автовоспроизведение

Perplexity - Обзор Новых Функций. Лучший ИИ-инструмент на рынке?