Fine-tune проиграл. RAG это лучший способ получить точные ответы от LLM. База знаний для нейросетей.

Поделиться
HTML-код
  • Опубликовано: 18 ноя 2024

Комментарии • 11

  • @peter_hanzo
    @peter_hanzo  Месяц назад

    Facebook гостя: facebook.com/avdsergei

  • @АнтонБ-х9у
    @АнтонБ-х9у Месяц назад

    Здравствуйте. А кто ваш гость?

    • @peter_hanzo
      @peter_hanzo  Месяц назад

      спасибо за вопрос, забыл добавить ссылку на фейсбук гостя: facebook.com/avdsergei

  • @A_R_Z_V
    @A_R_Z_V 10 дней назад

    Я, как понял, пишется LLM, а подразумевается openai. RAG на локальных моделях занимает много памяти дополнительно к самой модели и требователен к вычислительной производительности SIMD-ускорителя. Плюс в ряде случаев модель допускает ошибки понимания текста. ChatGPT во многих случаях и так хорош, а вычислительные мощности openai достаточно велики, поэтому вывод «Fine-tune проиграл» неправильный. Точнее сказать «ChatGPT достаточно хорош, чтобы не было необходимости дообучения».

    • @peter_hanzo
      @peter_hanzo  10 дней назад

      да - нет смысла дообучать модели тк они сами выкатывают новые модели которые уже могут то, что вы от них хотели.
      RAG на локальных моделях занимает много памяти - эту мысль не понял. вы же не помять нагружаете а контекст расширяете

    • @DrillingEnglish
      @DrillingEnglish 8 дней назад

      ​@@peter_hanzo Когда вы взаимодействуете с LLM-моделью и передаёте ей большой объём данных, увеличивается потребляемая память видеокарты по нескольким причинам:
      1. Обработка входных данных: Чем больше объём данных, передаваемых в модель, тем больше токенов ей необходимо обработать. Каждый токен представляет собой часть текста, и модель должна их обработать и сохранить в памяти для выполнения вычислений. Увеличение числа токенов увеличивает объём операций и потребляемую память.
      2. Контекстное окно: У моделей есть ограничение по длине контекстного окна (максимальное количество токенов, которые модель может обработать за раз). При увеличении объёма данных, приближающегося к этому лимиту, использование памяти увеличивается, так как модель должна хранить больше информации для выполнения своих операций.
      3. Хранение промежуточных данных: Во время генерации ответа модель использует слои нейронной сети для анализа и обработки входных данных. На каждом уровне сети вычисляются и хранятся промежуточные результаты, что требует значительного объёма памяти. Чем больше входных данных, тем больше промежуточных результатов сохраняется в памяти.
      4. Объём вычислений: Обработка большего количества токенов увеличивает потребность в вычислительных ресурсах, так как модель должна выполнить больше операций над каждым токеном. Это требует больше памяти для хранения параметров и временных данных, необходимых для этих вычислений.
      Таким образом, при увеличении объёма данных возрастает количество токенов и операций, что ведёт к увеличению потребления памяти видеокарты, необходимой для работы с этими данными.

    • @peter_hanzo
      @peter_hanzo  8 дней назад

      @@DrillingEnglish да, согласен именно поэтому из-за этих и многих других сложностей я всегда использую и советую использовать готовые модели в облаке

  • @TRX_144
    @TRX_144 Месяц назад

    Подскажите, я молодой писатель и хотел бы обучить модель на своих книгах чтобы она могла бы мне помогать но сугубо в моем стиле - соответственно задача дообучить модель на моих книгах, подскажите какие для этого подходят технологии, спасибо

    • @peter_hanzo
      @peter_hanzo  Месяц назад

      если хотите использовать дообучение, то вам нужна регистрация в opanai как разработчика, чтобы получить доступ в API
      и нужна подготовка данных: в специальном формате разбить данные на вопрос- ответ
      возможно через неделю сделаю новое видео как готовить данные через скрипт и гугл таблицы

    • @TRX_144
      @TRX_144 Месяц назад

      @@peter_hanzo А какже куча видео в ютубе где люди занимаются файн тюнингом просто в гугл колабе или на серверах и вроде API от не нужен или это что то другое?