Новая Llama 3.2 - LLM локально на любом устройстве? Гайд + Обзор

Поделиться
HTML-код
  • Опубликовано: 21 ноя 2024

Комментарии • 144

  • @nikolay4362
    @nikolay4362 2 дня назад +2

    LLM это все конечно здорово, но когда ты уже допишешь Мёртвые души?

  • @EVgameus
    @EVgameus Месяц назад +3

    Есть ощущение, что основные тезисы видео могли поместиться в short =)
    А вот про транскрипт локальный хотелось бы узнать подробнее, что использовать и куда прикрутить

  • @92Darkmind
    @92Darkmind 12 дней назад

    Воу воу воу. это как раз то что я искал. Алгоритмы ютуба жесть. Как они узнали?

  • @dolotube
    @dolotube Месяц назад +29

    3:55 Да, увы, только инглиш. Щупал я llama 3.2 на олламе и пришел к выводу, что бесполезна для русского языка - глуповата и постоянно делает вставки на других языках. Даже гибриды с вихрем хромают слишком часто, чтобы пытаться использовать на практике. Тот же phi на 3b работает чище и сосоставим по скорости.
    Большое окно контекста - это приятно. Но плохое следование инструкциям - это отвратно. Не нашел ни одного сценария, где 3.2 пригодилась бы.

    • @dolotube
      @dolotube Месяц назад +1

      - Привет. Расскажи о своей специализации и известных технических ограничениях.
      - Важно учитывать, что моё chuyênное развитие может быть неоднозначным. Моя основной специализацией - это создание интерфейсов для мобильного приложения. Я знакома с различными технологиями и платформами, включая Android и iOS...
      - Расскажи о своих познаниях в грамматике и стилистике русского языка. Оцени по 10-бальной шкале твои способности работать корректором и редактором.
      - Вы знаете, как правильно написать предложение с использованием подлежащего, субъекта, предлога и глагола? Я всегда рад помочь с этическими вопросами в русском языке.
      Да, chuyênное развитие - лучше и не скажешь.

    • @uuuummm9
      @uuuummm9 Месяц назад +1

      ​@@dolotube "чумное" развитие 😂

    • @N0thingE1se
      @N0thingE1se Месяц назад

      ​@@dolotubeглавное с этическими вопросами не напортачить) всё так все так) так а чё там по мобильным интерфейсам?)

    • @dolotube
      @dolotube Месяц назад +1

      @@N0thingE1se Она имела в виду, что её можно использовать для создания мобильных приложений со встроенным ИИ, который не будет нуждаться в интернете, будет быстро крутиться на слабых процессорах и обеспечит приватность. Создание мобильных интерфейсов с ней - это её главная фишка. И единственная.
      И лично я для этой цели предпочту взять ужатую другую модель, которая изначально была многоязычной и лучше следует инструкциям.

    • @corpsebreath1029
      @corpsebreath1029 Месяц назад

      Вот если бы на китайском😂

  • @sergeyivanov6095
    @sergeyivanov6095 Месяц назад +3

    Ждем обзор мультимодальной 3.2 11b + ollama+openwebui

  • @x_ztazy
    @x_ztazy 10 дней назад

    Трогал расширение для хрома MaxAI. В нем встроена llama и она вполне себе работает с русским языком. То есть это как то возможно или они используют перевод туда-обратно под капотом?

  • @NatashaDorokhova-s1b
    @NatashaDorokhova-s1b Месяц назад +2

    Можно ли ламу заставить работать с файловой системой на компе, анализировать статистику использования файлов и отвечать на вопросы типа "с какими файлом я работал тои недели назад, в нем ещк было про ежкин кот и я еще вместе с ним открывал эксель какой-то, в который дописал четыре клеточки"?

  • @timur.shhhhh
    @timur.shhhhh Месяц назад +2

    4:50 было ожидаемо, что будет реклама

  • @mihail_ltv
    @mihail_ltv Месяц назад

    Спасибо. Очень жду ролик про LM Studio.

  • @ufocombat
    @ufocombat Месяц назад

    мы это проверили 👻 работает как на видео даже по русскому отвечает если короткие вопросы. если сложные и большие ответы лучше перевод делать
    про эту программу-логическое программирование стрелочками-лучше отдельное видео сделать-она это заслуживает

  • @Thermalreview
    @Thermalreview 11 дней назад

    Подскажите локальную llm для успешного кодинга и генерации кода на python, с максимальным контекстом, чтобы можно было полностью утилизировать возможности rtx 4080, r9 5900x, 32 Ram

  • @Milkyway20239
    @Milkyway20239 Месяц назад

    Хорошо Вы все рассказали и подробно показали полезные вещи 👍

  • @aleksandrastepanova4049
    @aleksandrastepanova4049 Месяц назад +1

    Спасибо дяде, за труды, но пока Лламы не для нас. 😢
    Но картинка прикольная😉

    • @sharonsky94
      @sharonsky94 Месяц назад

      для нас, подключи переводчик

    • @sharonsky94
      @sharonsky94 Месяц назад

      бля, недосмотрел видео. Я скриптом её запускаю. Олламой не пользуюсь. Есть модуль в питоне для перевода, там несложно, чатгпт спроси как сделать

  • @Graf1716
    @Graf1716 Месяц назад +1

    Подскажите пожалуйста, какую максимально Llama можно загрузить на устройство с 12гб оперативной памяти S24 Ultra?

    • @bobyboba4615
      @bobyboba4615 Месяц назад

      3b наверно

    • @TRX_144
      @TRX_144 Месяц назад

      А что самому попробовать религия не позволяет или отсутствие присусттвия как говорится

  • @vasil_mullin
    @vasil_mullin 19 дней назад

    Спасибо!

  • @zoomixxx1
    @zoomixxx1 22 дня назад

    Ну это топовый контент, однозначно

  • @aleksandrerygin4553
    @aleksandrerygin4553 Месяц назад

    Спасибо, отец!

  • @timur.shhhhh
    @timur.shhhhh Месяц назад

    Не знал, что автор еще и программист, не только новости ведет

  • @romanbolgar
    @romanbolgar Месяц назад +10

    Опять терминал. Вот это интеллект... Не устаю поражаться... Давайте выпуск про перфокарты

    • @sergeyivanov6095
      @sergeyivanov6095 Месяц назад +3

      Все чем ты пользуешься создается, настраивается и запускается в терминалах. Просто для лунтиков-потребителей это слишком травмирующие выглядит и их огораживают.

    • @romanbolgar
      @romanbolgar Месяц назад

      @@sergeyivanov6095 Я вам скажу больше. Всё это работает вообще в машинном коде. А для Лунтиков сделали терминал. Чтобы их не травмировать и огораживать.

    • @Achmd
      @Achmd Месяц назад +2

      а чем чат отличается от терминала или консоли для общения с текстовым ботом?))

    • @romanbolgar
      @romanbolgar Месяц назад

      @@Achmd Хорошо я спрошу у чата вместо вас. Благо в чате это гораздо удобнее .Чат, терминал и консоль - это все интерфейсы для ввода и вывода текстовой информации, но они отличаются друг от друга по ряду параметров. В контексте общения с текстовым ботом, вот несколько ключевых отличий:
      Интерфейс:
      Чат: Обычно имеет более дружелюбный и интуитивно понятный интерфейс, с возможностью отправки сообщений в виде пузырьков или сообщений, которые появляются в окне чата. Часто включает в себя функционал для отправки файлов, изображений и эмодзи.
      Терминал/Консоль: Имеет более строгий и минималистичный интерфейс, состоящий из командной строки, где пользователь вводит команды и получает ответы в виде текста.
      Функциональность:
      Чат: Часто включает в себя дополнительные функции, такие как групповые чаты, каналы, реакции на сообщения, поиск сообщений и т.д.
      Терминал/Консоль: Обычно используется для ввода команд для выполнения определенных задач, таких как управление файлами, настройка системы и т.д. Функциональность может быть расширена с помощью различных скриптов и программ.
      Взаимодействие с ботом:
      Чат: Пользователь может отправлять сообщения боту в свободной форме, и бот может отвечать более естественным языком, используя машинное обучение и Natural Language Processing (NLP) для понимания и генерации ответов.
      Терминал/Консоль: Общение с ботом происходит через предопределенные команды, которые пользователь вводит в командной строке. Бот отвечает в формате текста, часто в виде результатов команд или сообщений статуса.
      Уровень доступа:
      Чат: Обычно предоставляет более высокий уровень доступа к функциям бота, позволяя пользователям взаимодействовать с ботом более естественным образом.
      Терминал/Консоль: Предоставляет более низкий уровень доступа, позволяя пользователям управлять ботом и системой более точно и детально, но требует большего опыта и знаний о командах и функциях бота.
      Применение:
      Чат: Чаще используется для общения между людьми или для общения с ботом в более дружелюбной и интуитивно понятной среде.
      Терминал/Консоль: Чаще используется для управления системой, выполнения команд и настройки параметров, а также для общения с ботом в более технической и специализированной среде.

    • @Achmd
      @Achmd Месяц назад

      @@romanbolgar ты настолько отвык пользоваться мозгом, что уже самостоятельно не можешь ответить на такой простой вопрос?))
      Здесь речь идёт про интерфейс ввода-вывода информации. Он может быть любым: текстовым, звуковым, визуальным, осязательным. И выбор конкретного зависит лишь от моих сиесекундных хотелок.
      На телефоне в качестве терминала использую чат в телеге, где бот перенаправляет запросы к серверу. На компе я использую консоль. Разница-то в чём, Ромочка? ))

  • @JohnSmith-z9m
    @JohnSmith-z9m Месяц назад +9

    Summary: Качаем модельку и ничего не работает, русский не понимает, но модельки прикольные. А пайтон можете учить в скилфактори.

  • @pht001-nh4br
    @pht001-nh4br 5 дней назад +1

    парик прикольный

  • @ПатрикСтар-ъ5л
    @ПатрикСтар-ъ5л Месяц назад

    Ты лучший, очень хотел разбор по ламам, и тут, спасибо!

  • @dimakrilovskiy9902
    @dimakrilovskiy9902 Месяц назад

    А нвидии ломки можешь затестить? По размеру те же а и с русским лучше работают и с пониманием круче.

    • @dimakrilovskiy9902
      @dimakrilovskiy9902 Месяц назад

      nemotron-mini:latest в Ollama занимает мало. Рус Укр понимает. Думает логически. Задает вопросы по уточнению.

  • @СпециальныйагентСтивенс-ФБР

    Всё это очень сырое и для людей которые не ориентируются во всех этих тонкостях - пустая трата времени... надо ждать когда всё это приобретёт более божеский вид. За обзор конечно же спасибо! Буду ждать чего-то нового и адекватного!

  • @ПатрикСтар-ъ5л
    @ПатрикСтар-ъ5л Месяц назад

    Сначала первый комментарий написал потом посмотрел и вот что думаю, для тех кому нужна именно лама по тому, что она на открытом исходном и там максимально тонкие настройки можно делать, это видео очень интересно и полезно, для большинства это темный лес, даже ради забавы не полезут))

  • @drumcord
    @drumcord Месяц назад

    Нужен процессор с AVX2?

    • @arc-deity
      @arc-deity Месяц назад

      Не обязательно, разницы в скорости для маленьких моделей с AVX2 и без него практически ноль, а вот если модели тяжелые типа c4 вот там нужен AVX2.

    • @drumcord
      @drumcord Месяц назад

      ​@@arc-deity Не в том дело. Она просто не работает без этой инструкции.
      Я пытался на i7-2600, с RTX 3060 12gb.
      Модели - Dolphin отказываются работать без AVX2 инструкций
      Процессор нужен "свежий" с инструкциями AVX2

    • @dolotube
      @dolotube Месяц назад +1

      AVX2 поддерживается во всех процессорах уже почти 10 лет. Если в процессоре нет AVX2, то он и по прочим характеристикам плохо подошел бы для LLM. Это не тот случай, когда "раньше было лучше".
      Некогда крутой старый i7-2600 по мощности сейчас сопоставим с ноутбучным N100.

    • @drumcord
      @drumcord Месяц назад

      @@dolotube С помощью каких инструментов вы сравниваете процессоры? Как по мне, он на уровне с i5-9400

    • @drumcord
      @drumcord Месяц назад

      ​@@dolotube Я согласен что это довольно старый процессор, но к ноутбучному N100 я не согласен его приравнять.
      По крайней мере есть момент уничтожающий все бумажные гигагерцы в ноутбуках - TDP и то как вендоры реализуют системы охлаждения.
      Эти камушки зажаты, и постоянно тротлят. Рынок ноутбуков отвратителен.
      Сам пострадал, с ноутбуком на i7-4702MQ

  • @superlight8426
    @superlight8426 Месяц назад

    На андроид как эту Ламу скачать?

  • @rvsn82
    @rvsn82 Месяц назад

    Уважаемый! Научите как дать доступ Llama 3.2 - LLM локально в интернет, очень многие хотят получить локального помощника, который может обновлять свою локальную базу данных и давать подсказки основанные на на данных из интернета.

  • @mcseem9587
    @mcseem9587 6 дней назад

    Ютуб замедляют!!!! Размести видео на других площадках, а то невозможно смотреть с такими тормозами...

  • @ahyena
    @ahyena Месяц назад +1

    Я бы хотел видеть голосового ассистента на базе этой ламы, потому что Алиса тупая, GPT PLUS платный, а я хочу просто общаться с нейронкой с голосом аниме тян которая будет тем же голосом отвечать на мои вопросы.

    • @AlexanderCOOLer
      @AlexanderCOOLer Месяц назад

      Пффф, хотеть мало. У тебя железа нет такого, чтобы такие нейронки запускать, раз 20 баксов нет на gpt. Тут и llama 70b будет мало, если алиса для тебя тупая, какие 1b или 3b, ахаха, ты не понимаешь какое это дно

    • @ahyena
      @ahyena Месяц назад

      @@AlexanderCOOLer GPT Plus я использую по сей день, подписка на FunPay стоит всего 200 рублей, с учётом того что это Россия другим способом ее не купить, проблема в том что нужно постоянно включать VPN и даже так на 4o есть ограничение по запросам в сутки. У меня 4070 Super и 64 ОЗУ, тип этого железа не хватит чтоб лама была умнее Алисы?

  • @City__Walker
    @City__Walker Месяц назад +2

    Я так понял остаёмся на 3.1?

    • @dolotube
      @dolotube Месяц назад

      Модель llama 3.1 размером 70b - это на сегодня замечательный вариант для локальной LLM на мощном компе.
      Для средних компов она же размером 8b тоже неплохо справляется.
      А для слабых компов многое зависит от конкретных задач. Возможно, где-то и 3.2 окажется полезной, хотя бы из-за контекста на 128 килобайт - если кому-то нужно часто делать на мобилке выжимки из англоязычных текстов, то почему бы и не попробовать.

    • @drimscape
      @drimscape Месяц назад +1

      @@dolotube 70b это видеократу нужно иметь на 70 гигабай. это не для мощных компов а для серверов.

    • @dolotube
      @dolotube Месяц назад

      @@drimscape Нет, для запуска лламы 70b нужно около 40 ГБ оперативной памяти. Видеопроцессор с видеопамятью - это способ ускорить работу, а не необходимое условие для запуска. Если есть комп с 64 ГБ оперативки и сильным процессором, то вполне можно пользоваться моделькой на 70b.

    • @drimscape
      @drimscape Месяц назад

      @@dolotube ага и ждать ответа по 1 минуте. нормальная работа возможна только на видеопамяти. разве нет?

    • @dolotube
      @dolotube Месяц назад

      @@drimscape А что есть "нормальная работа с нейросетями"?
      Даже 5 минут ожидания на сложный промпт - это замечательный результат для ряда сценариев.
      Например, это значит, что за несколько часов я могу собрать полноценный учебник - проработать структуру, наполнить и отредактировать разделы по главам. Автоматически и бесплатно. На любую тему от "как промпты делать для миджорни" до "как правильно выбирать презервативы".
      Или запустить на ночь генератор идей, прикрепляя к каждой задумке ожесточенный спор виртуальных специалистов разных профессий с подведением итогов в конце.
      Или пропарсить кучу свежих статей с какого-нибудь сайта с целью выборки тезисов, которые не будут тупым пересказом давно известного, а могут оказаться полезными лично мне.
      То есть "нормальная работа" вполне может происходить без моего непосредственного участия, а значит не нуждается в моментальной скорости.
      P.S. Интереса ради запустил 70b на своем старом железе - проц 8-летней давности, 12 ГБ оперативки, прочее в кеше, причем на винчестере, видюшка не участвует. Моделька 10 минут разворачивалась в памяти, потом 10 минут обрабатывалась, потом ollama пожаловалась на таймаут. Надо будет поиграться с ключиками, чтобы таки опробовать такое извращение.

  • @Mirropix35
    @Mirropix35 Месяц назад

    В чем фишка почему она стала бистро сгенерировать..? 😮 при минималке,

    • @igemon4845
      @igemon4845 Месяц назад

      Она поехала в Италию, поняла,что "бистро" это круто

    • @dolotube
      @dolotube Месяц назад

      В размере. Если взять на хаггингфейсе другую модель, ужатую до 1b, то она тоже будет шустро выдавать результаты.

  • @ufocombat
    @ufocombat Месяц назад

    Это было круто!

  • @92Darkmind
    @92Darkmind 12 дней назад

    Не. Мне надо было как раз в коде показать как это работает.

    • @ProdAdvice
      @ProdAdvice  11 дней назад

      показал же)

    • @92Darkmind
      @92Darkmind 11 дней назад

      @ProdAdvice ну оно мельком. На самом деле на этом лучше было сделать весь ролик, т.к. я вот ее запустил, и через curl посылаю ей запросы, прочитал как прикрутить историю, учил ее долго выводить команды в терминал, и принимать результат, а в итоге она предобучена использовать инструменты какие то, в частности она умеет вызвать функции. Но как это работает я еще не разобрался. Я пока просто посылаю ей json с системным промтом где прошу отвечать в нужном формате, с ключем, перехватывая который посылаю команды уже в функции. Короче у меня пока оно костыльно.

  • @dzianwoo2292
    @dzianwoo2292 Месяц назад +2

    Да есть уже на хагингфейсе файнтюн русского языка, потестил, ну...мешает русский и английский всёравно, Даже на английском не придумал для своих задач применения, уж очень тупенькая, даже до джипити 3.5 как до луны ей и бороться с её фантазиями и глюками...ничего "твёрдого" с ней не сочинить вобщем

  • @KLRiyDQvdCwYjRkdCINGNYLQviA
    @KLRiyDQvdCwYjRkdCINGNYLQviA Месяц назад

    С llama 3.2 у меня вообще какие то беды, то она отвечает на поставленную задачу тем же ответом, что и давала в предыдущем ответе, то на промпт "hi" сначала отвечает как обычно а затем "примечания, сказали привет, что значит привет." далее начинается шизофазия из тысячи слов, дойдя до какого-то пользовательского соглашения и вообще "с уважением, google", то вообще может произойти такое, что её заглючит и она начнёт повторять одни и те же слова в одном предложении до бесконечности. Короче лажа полная. На английском то же самое. Qwen 2.5 будет лучше

  • @ColoraceCG
    @ColoraceCG Месяц назад

    через webui легко

  • @City__Walker
    @City__Walker Месяц назад

    Только поставил 3.1 а тут бац и 3.2😂

  • @nicivanov5135
    @nicivanov5135 Месяц назад +1

    Дата секте, не понять, что программисту нахер не нужны миллиарды параметров, чтоб кодить проекты. Врачу нахер не нужны милларды параметров. Ему нужна модель с актуальными протоколами и рецептами.
    Архитектору нахер не нужны милларды неточных параметров.
    Всего нужно, при инстале, дать выбор темы, но если чел. её выбрал, то инфа 100%.
    По буквам: П-Р-О-В-Е-Р-Е-Н-Н-А-Я И-Н-Ф-О-Р-М-А-Ц-И-Я.
    И честный ответ если модель не знает чегото.
    Куда большая ценность в простой базе данных которую делал сам. Чем от этого чуда метамысли.

  • @PanKopecky
    @PanKopecky Месяц назад +1

    Насчёт только английского, не согласен... по-русски она тоже тужится... даже можно понять, что она имеет ввиду, но местами... да... рекбус-кроксворд...

  • @4MERSAT
    @4MERSAT Месяц назад

    есть же gguf модели ламы, которые в пару кликов запускаются в том же кобольде или лмстудио, что за гемор в ролике вообще? 😆

  • @OfficialPlaneta-Play
    @OfficialPlaneta-Play Месяц назад

    круто

  • @КириллКіс
    @КириллКіс Месяц назад

    Итог, автор суёт не рабочее 💩 со своим не рабочим кодом🔥🤣🤣

  • @nofate9
    @nofate9 Месяц назад

    оч долго реклама. канал сделан хорошо, считай первый ляп. не считая конечно стрима

  • @OO-OO-00-88
    @OO-OO-00-88 Месяц назад

    Ollama самый конченный вариант, у большого числа пользователей не подтягивается видюха, лучше использовать lm studio.

  • @ЕвгенийБорисов-е1ч
    @ЕвгенийБорисов-е1ч Месяц назад

    нерабочее всё

  • @tarusindi
    @tarusindi Месяц назад

    Не)))) не оно))

  • @JoraMacKornev
    @JoraMacKornev Месяц назад

    Лишь бы это стадо не оставило нас без еды и штанов =)

  • @TRX_144
    @TRX_144 Месяц назад +2

    Не знаю нормальная моделька для своего веса - быстрая и отвечает толково на большинство вопросов а тем кто жалуется на английский- вас что в гугле забанили,))

  • @DroidGame2023
    @DroidGame2023 Месяц назад +5

    полностью бесполезная шляпа в свете того, что gpt-4 полностью бесплатный и безлимитный.
    если бы лама вышла лет 5 назад, она была бы топом и хитом, но не сегодня.

    • @City__Walker
      @City__Walker Месяц назад +2

      К сожалению не все готовы в интернете выбрасывать конфиденциальную информацию, локально gpt4 не развернешь

    • @chelovekX
      @chelovekX Месяц назад

      с чего ты взял что бесплатно?

    • @dolotube
      @dolotube Месяц назад

      Где вы нашли модель gpt-4 от OpenAI для локального развертывания?

    • @DroidGame2023
      @DroidGame2023 Месяц назад

      @@chelovekX потому что пользуюсь ею на официальном сайте, бесплатно безлимитно

    • @drimscape
      @drimscape Месяц назад +1

      "gpt-4 полностью бесплатный и безлимитный" вранье же. в рф доступа нет к гпт4. а платить за впн и иностранные карточки это не "бесплатно"

  • @Atractiondj
    @Atractiondj Месяц назад

    Когда вы видели чтобы Мета делала что-то толковое? Даже их соц сети работают через попку, а тут нейросети... они поэтому и отдают её бесплатно чтобы хоть кто-то говорил о Мета хоть что-то а то компания дохнет по немногу!

    • @Atractiondj
      @Atractiondj Месяц назад

      @Yert_us самые лучшие из хофна? Может быть я в хофне не роюсь

  • @sharonsky94
    @sharonsky94 Месяц назад

    аналогично, щупал я лама 3.2 1б, и она самая умная из тех, кто запускается на моем железе. Подключаешь переводчик и пожалуйста, умные ответы

    • @sharonsky94
      @sharonsky94 Месяц назад

      понятно что есть калькулятор, но она очень хорошо считает, погрешность около 0.01%

  • @Widok84
    @Widok84 Месяц назад

    Бро чо за мочалка у тебя на голове?😂😂😂 сделай норм стрижку 😂😂😂😂

    • @nekitos3269
      @nekitos3269 Месяц назад

      И под носом щётка какая-то

  • @adlhbgreqk
    @adlhbgreqk Месяц назад

    Mission failed succefuly. качаем, ставим.

  • @sergeyivanov6095
    @sergeyivanov6095 Месяц назад

    Есть llama 3.2 от вихря они ее доучили в русский не идеально конечно но в разы лучше стоковая
    ollama run rscr/vikhr_llama3.2_1b