LMstudio как замена ChatGPT: Saiga Mistral, LLama и другие локальные LLM

Поделиться
HTML-код
  • Опубликовано: 12 дек 2024

Комментарии • 55

  • @GoldLan
    @GoldLan 9 месяцев назад +10

    Меня особенно привлекло это видео, поскольку оно посвящено LM Studio, теме, которая меня интересовала в последнее время. Благодаря этому видео я получил ценную информацию о различных аспектах обучения модели машинного обучения, которая помогла мне понять, почему моя модель LLM Mistral-7b-instruct-v0.2.Q8_0.gguf работала неэффективно. Четкие объяснения и практические примеры автора сделали сложные концепции намного более доступными, что позволило мне не только улучшить мой текущий проект, но и расширить свои знания в этой области. Я хотел бы выразить искреннюю признательность за время и усилия, потраченные на создание этого видео, а также за то, что поделились ценной информацией с сообществом. Спасибо!

    • @fensmart437
      @fensmart437 9 месяцев назад +7

      Чатом GPT4 коммент писал? 😅

    • @directprobi
      @directprobi  9 месяцев назад +6

      Мне кажется это мистраль)

    • @GoldLan
      @GoldLan 9 месяцев назад

      ​@@directprobi Да, это mistral 😁

    • @kristallganss2379
      @kristallganss2379 Месяц назад

      Жпт, спок

    • @ДмитрийАнатольевич-р5ш
      @ДмитрийАнатольевич-р5ш 8 дней назад +1

      Гемма 2 27б максимальная, написала бы этот текст более человечно. Мистраль какойто гордый северный олень..

  • @DarkSlear
    @DarkSlear 9 месяцев назад +4

    Не корректно сравнивать 7B открытые модели и ChatGPT 3.5 на 175b. Ясное дело что последний будет выдавать ответы лучше)
    Но если использовать файнтюнинг - тогда локальная 7b в определённых задачах может показывать даже лучшие результаты.
    Но в целом видео хорошее, особенно для новичков, спасибо =)

    • @Roman-hv3ss
      @Roman-hv3ss 8 месяцев назад +1

      Что за файнтюнинг? Это дообучение или что-то другое?

    • @Roman-hv3ss
      @Roman-hv3ss 8 месяцев назад

      И еще вопрос - ты уже пробовал файнтюнинг для локалок? Или это было предположение?

  • @denisg9913
    @denisg9913 Год назад +1

    Спасибо за уникальное видео! Похожего не нашел

  • @nikolaydd6219
    @nikolaydd6219 4 месяца назад +1

    11:20 так загрузи модель в оперативку видеокарты, скорость будет х20. Дело не в проце.

  • @greentonium
    @greentonium 5 месяцев назад

    Подскажите нет ли возможности какой либо модели локальной, присобачить функцию поиска информации в интернете? как у гпт? чтоб она могла залезть в поисковить и собрав инфу выдать результат в совокупе?!

    • @directprobi
      @directprobi  5 месяцев назад

      Пишем скрипт который идет в Яндекс и парсит выдачу, правда вот Яндекс это не очень любит, но думаю это возможно. Результаты добавляем в промпт. Но нюансов конечно немало - инфу надо фильтровать, можно поймать капчу в Яндексе, итд. Но в теории это возможно

  • @MrCans94
    @MrCans94 2 месяца назад

    GPU (LM Runtime Dependent)
    Такая надпись при просмотре ресурсов в настройке, слева CPU виден какой-то код, а справа где GPU не видно ничего..
    No LM Runtime found for model format 'gguf'!
    Ошибка при загрузке модели..

  • @kriptex_people
    @kriptex_people 10 месяцев назад

    Спасибо за видео! Сразу захотелось проверить на пк)
    Сразу спрошу, а есть вариант использовать такую схему, но на сервере?

    • @directprobi
      @directprobi  10 месяцев назад

      У них вроде есть версия под linux, надо пробовать, я не запускал

  • @AliExpress-uj4pe
    @AliExpress-uj4pe Месяц назад

    можешь сказать почему у меня этот LMstudio не видеть видео карту ?

    • @directprobi
      @directprobi  Месяц назад

      @@AliExpress-uj4pe не знаю, я так и не смог видеокарту задействовать на своем ноуте

  • @serj_8228
    @serj_8228 7 месяцев назад

    Уважаемый автор, благодарю за видео!
    Вопрос: а как дообучать модели? Допустим есть куча книг с распознанным текстовым слоем, и я хочу их скормить модели, после чего попробовать провзаимодействовать. Как это делается? Можно ли снять отдельное видео?
    У вас в примере можно взять дообучение для корректировки результата выдачи, чтобы было как у ChatGPT.
    Насколько я понимаю, дообучить тот же ChatGPT вряд ли получится...
    Заранее благодарю.

    • @directprobi
      @directprobi  7 месяцев назад

      Эти модели честно говоря не знаю как дообучить) Да и lmstudio - это всего лишь эксперимент был, а вот про chatgpt хотел снять ролик с дообучением, но пока не успел

  • @eduardmart1237
    @eduardmart1237 9 месяцев назад

    А можно их дообучать или использовать RAG?

    • @directprobi
      @directprobi  9 месяцев назад

      Думаю да, но не пробовал, не знаю позволяет ли это делать LM Studio

  • @Unnitt
    @Unnitt 11 месяцев назад

    Здравствуйте! А подскажите, что у вас за машина в видео? Хочется понять примерно соотношение мощностей/характеристик, чтобы не пробовать много моделей для тестов

    • @directprobi
      @directprobi  11 месяцев назад +1

      Asus Vivobook, Процессор 11th Gen Intel(R) Core(TM) i7-11370H @ 3.30GHz 3.30 GHz, 16ГБ оперативки, но у меня не работает ускорение GPU, возможно в этом проблема. Вообще в идеале найти вариант где под вас выделяют нужное количество ресурсов, тогда всё это гибко будет работать. Ну либо ускорение всё же задействовать

    • @Unnitt
      @Unnitt 11 месяцев назад

      @@directprobi Супер, большое спасибо!

    • @БорисД-е5в
      @БорисД-е5в 10 месяцев назад +1

      4090 видюха нужна. Тогда вышеприведенные примеры на не урезанной модели 7b генерятся десятки секунд. От 20 сек до минуты примерно.

    • @GrAndAG
      @GrAndAG 10 месяцев назад +2

      Почекал у себя...
      Ответ про SQL-запрос самая большая модель Q8 (не Q3, как на видео) на проце 13600 сгенерировала за 6+11=17 секунд (нагрузка при этом была около 80%). И кстати, ответ был более правильный, почти как у ChatGPT (только вместо простого SELECT * оно напридумывало туда конкретных полей). На GPU 4070 Ti этот же запрос занял 0.5+1.5=2 секунды.
      Слоганы сгенерились за CPU: 7+17=24 и GPU: 0.8+2.1=2.9 секунды.
      А история вышла за 40+92=132 и 0.3+13.1=13.4 соответственно. Правда мне выдало не прo Елену, а про Серёгу и Андрея почему-то. )))
      Ещё раз - все вышеприведённые цифры получены на 8ГБ модели.
      Так что 4090 не обязательна, хватит и 4070. ;) На GPU выходит примерно в 10 раз быстрее.

    • @Roman-hv3ss
      @Roman-hv3ss 8 месяцев назад +1

      @@БорисД-е5в Видюха большую роль играет для нейронки? У меня собран ПК на двухпроцессорной матери. Суммарно 54 ядра получается, но низкая герцовка, 2.2 что ли. И 120Гб оперативы, но видюха стоит простенькая. Хочу затестить.

  • @Phoenix55rus
    @Phoenix55rus 7 месяцев назад +1

    можно же задать GPU offload и тогда нормально обрабатывается

    • @nikolaydd6219
      @nikolaydd6219 4 месяца назад

      Видать у автора комп слабоват

  • @CoolCool-ur3ps
    @CoolCool-ur3ps 5 месяцев назад +1

    так и не понял для чего автор давал запросы ИИ моделям через pynton и сервер, если в LM Studio есть нормальный встроенный чат.

    • @directprobi
      @directprobi  5 месяцев назад

      Это канал про автоматизацию, чат то есть везде, только он не помогает в целях автоматизации, поэтому обычно используют либо API, либо подобные запросы

  • @АндрейЕвгеньевич-с4у
    @АндрейЕвгеньевич-с4у 9 месяцев назад

    Chat GPT последний раз когда смотрел инфу в 2023 году данные весом были почти 600 гик. А то огрызки.

  • @-vileon-3294
    @-vileon-3294 10 месяцев назад

    как стереть все общение с аи? если задаю вопрос и например резко меняю тему в другое русло он все продолжает отвечать ответами на 1ый вопрос.спасибо

    • @directprobi
      @directprobi  10 месяцев назад

      Мне кажется тут только новый диалог заводить с ним, потому что он помнит что вы обсуждали в прошлом и отвечает также. Но при обращениях через сервер такой проблемы быть не должно

  • @nullkv
    @nullkv 11 месяцев назад

    Phind модель бы глянуть

    • @directprobi
      @directprobi  11 месяцев назад

      Если всё же получится как-то ускорить всё это - обязательно сниму с этой моделью в том числе, не слышал ранее про неё

  • @kosan_
    @kosan_ 11 месяцев назад

    Как насчет ускорения при помощи GPU. У Вас оно вроде выключено.

    • @directprobi
      @directprobi  11 месяцев назад

      На этом компьютере к сожалению вообще не работает, напишите, пожалуйста, если у вас получалось ускорить, возможно на другом компьютере будет лучше

    • @kosan_
      @kosan_ 11 месяцев назад

      @@directprobi у меня 4Гб видеопамяти, определяется и используется Nvidia CUDA, небольшие модели типа phi-2 (~5Гб) с параметром -1 помещаются и работают моментально. На больших, я как понял, нужно подбирать параметр, по субъективным ощущениям прирост есть.

    • @directprobi
      @directprobi  11 месяцев назад

      @@kosan_ интересно, ну может правда от этого ускорения сильно зависит, попробую на другой машине может получится что-то, но в идеале хотелось бы запускать большие модели, а он их даже скачивать не предлагает

    • @GrAndAG
      @GrAndAG 10 месяцев назад

      @@directprobi У меня Q8 модель на 4070 Ti отрабатывает в 10 раз быстрее по сравнению с процом 13600.

    • @inforvita
      @inforvita 9 месяцев назад +2

      Т. е. ты, консультант, совершенно не знаешь, что обработка LLM моделей рассчитана на работу с графическими картами и именно с архитектурой CUDA ядер от NVIDIA ? ))) И процессор здесь вообще "...нервно курит в сторонке"...
      Замечательно! ))
      У меня проц восьмилетней давности 4 ядра Core i5 2500...,16Gb Ram..., Но благодаря установленной Asus RTX 3060 12Gb Vram на этом конфиге вполне нормально бегает Stable Diffusion A1111 за секунды "перемалывает" 6Гб генеративные модели "картинок"...
      Пересмотри своё отношение к собственному "железу" раз уж ты направил "свои стопы" в сторону ИИ да ещё на и локальной машине. Там на офисном ноуте делать НЕЧЕГО!!

  • @maxk8016
    @maxk8016 11 месяцев назад

    Почему ответ 7гб модели так и не показали

    • @directprobi
      @directprobi  11 месяцев назад

      После запуска модели у меня слетела запись экрана из-за большой нагрузки, поэтому результат уже не показал

    • @maxk8016
      @maxk8016 11 месяцев назад

      @@directprobi могли бы вы свое мнение сказать, самая большая модель в сравнении с gpt 3.5 turbo как вообще?

    • @directprobi
      @directprobi  11 месяцев назад

      @@maxk8016 на моём компе крайне медленно и всё равно с некоторыми ошибками, а больше 7ГБ я не скачивал - не даёт такой возможности

  • @sergeyt7314
    @sergeyt7314 9 месяцев назад

    Если у тебя твой ноутбук нихуя не тянет, так нехуй эти агрызки сравнивать с платными моделями, которые работают на серверах за целую кучу десяткав, или 100тен тысяч баксов. Загрузил бы на калаб эти локальные модели и тестировал а не на своем 16гига говне.

    • @directprobi
      @directprobi  9 месяцев назад +1

      А есть какое-нибудь видео или материал как запустить LM Studio на Google Colab? Я что-то сходу не нашел

    • @Roman-hv3ss
      @Roman-hv3ss 8 месяцев назад +4

      @@directprobi Не слушай всяких деградонтов. Отличное видео. Не у всех есть возможность юзать платные модели. Пусть на старте будет даже такая версия. Если есть возможность ее дообучить, то вообще кайф.