Дообучение модели YandexGPT в Yandex DataSphere

Поделиться
HTML-код
  • Опубликовано: 24 янв 2024
  • Как управлять доступами в Yandex DataSphere: cloud.yandex.ru/ru/docs/datas....
    Ещё больше о возможностях Yandex DataSphere: cloud.yandex.ru/ru/docs/datas....
  • НаукаНаука

Комментарии • 29

  • @user-py8cs6xe2l
    @user-py8cs6xe2l 4 месяца назад

    если дообучить модель, например на условных нескольких тысяч похожих пар с единым смыслом но идущим в разрез общепринятой логики, например арифметики (запрос: сколько будет два плюс два / ответ: пять) стоит ли ожидать, что дообученная модель при всем многообразии формулировок данного запроса будет выдавать ответ "пять" со стопроцентной вероятностью? я понимаю что языковые модели плохо дружат с арифметикой, пример условный, можно например учить модель что небо зеленое. Гарантирует ли это что модель всегда будет выдавать заученный ответ?

    • @YandexCloudPlatform
      @YandexCloudPlatform  4 месяца назад

      Здравствуйте, Евгений! Гарантировать постоянную выдачу заученного ответа не можем.

  • @user-yi3tv9xf4i
    @user-yi3tv9xf4i 2 дня назад

    Дима его зовут) Дмитрий, блин! ЛГБТ)))

  • @lord_apple9948
    @lord_apple9948 2 месяца назад

    А как можно ограничить ответы модели только по заданной тематике. То есть что бы модель отвечала, только в рамках заданного датасета. Например я хочу создать бота консультанта по вопросам компании?

    • @YandexCloudPlatform
      @YandexCloudPlatform  2 месяца назад

      Здравствуйте! Для такого сценария мы рекомендуем использовать подход Retrieval-Augmented Generation. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY

    • @lord_apple9948
      @lord_apple9948 2 месяца назад

      ​@@YandexCloudPlatform Спасибо. И ещё вопрос. Из документации Yandex cloud я узнал, что дообучить Yandex GPT сейчас можно только "определенному формату ответов или принципаи анализа текста". А добавить в модель собственные данные, чтобы она их знала, сейчас невозможно?
      Допустим я хочу создать для своей компании ИИ чат бота тех поддержки. Модель должна знать данные о моей компании, ответы на распространенные вопросы и тому подобное. Ну и модель должна отвечать клиенту на вопросы о моей компании и продуктах моей компании.
      Я так понимаю, подобным образом обучить Yandex GPT на данных о моей компании я не смогу и мне нужно использовать другие нейросети, или я чего-то не понял?

    • @lord_apple9948
      @lord_apple9948 2 месяца назад

      ​@@YandexCloudPlatform
      Вот как раз в этой ссылке на гитхаб рассказывается о методе RAG который основан на собственной базе знаний. Но в офф документации написано, что дообученние на другой базе знаний пока невозможна. Это немного вводит в сомнения.
      Может имеется в виду что в базовом формате есть только дообученние формату ответа (fine turning), а как-то "отдельно" можно ещё реализовать и дообученние на собственном наборе данных (RAG) ?

    • @YandexCloudPlatform
      @YandexCloudPlatform  2 месяца назад

      Дообучить модель YandexGPT таким способом, чтобы она получила новые знания, действительно на данный момент нельзя. Вместо этого мы рекомендуем использовать RAG (то, что по ссылке). RAG - это не дообучение, а подход, который состоит из двух базовых шагов: поиска и ответа моделью. На первом шаге происходит поиск нужных фрагментов документов, которые затем передаются в модель вместе с текстом запроса и дополнительной инструкцией. Таким образом получается, что RAG - это обогащение запроса контекстом на базе внутренних знаний.

  • @alexanderdemenev3514
    @alexanderdemenev3514 28 дней назад

    Здравствуйте! При обучении модели на тестовых данных, даже на тех, что указаны в документации, возникает ошибка "Ошибка дообучения Operation failed". С чем это может быть связано?

    • @YandexCloudPlatform
      @YandexCloudPlatform  28 дней назад

      Здравствуйте, Александр! Нам нужно немного времени, но мы обязательно вернёмся к вам с ответом.

    • @YandexCloudPlatform
      @YandexCloudPlatform  27 дней назад

      Вернулись к вам! Для более детального рассмотрения вашего вопроса, обратитесь, пожалуйста, в нашу службу поддержки через сайт: ya.cc/t/0e3gO2A952zCmQ или напишите нам на почту - cloud@support.yandex.ru
      В обращении приложите, пожалуйста, полный текст ошибки, описание действий, приводящих к её появлению, и файл с данными для дообучения.

  • @user-md4ub1gs6p
    @user-md4ub1gs6p Месяц назад

    Здравствуйте! Возможно ли дообучить модель отвечать на вопрос как тебя зовут конкретным именем, если да то как?

    • @YandexCloudPlatform
      @YandexCloudPlatform  Месяц назад

      Здравствуйте, Максим! Ваш вопрос видим, скоро вернёмся с ответом.

    • @YandexCloudPlatform
      @YandexCloudPlatform  Месяц назад

      Спешим к вам! Да, возможно. Руководство по дообучению модели YandexGPT вы можете найти в нашей документации: ya.cc/t/xjurWlI64zr43w

  • @dreamofyou00
    @dreamofyou00 2 месяца назад

    Почему введен такой стандарт в индустрии 4000 знаков на вход и 2000 на выход?

    • @YandexCloudPlatform
      @YandexCloudPlatform  2 месяца назад +1

      Эти ограничения относятся конкретно к тому методу дообучения YandexGPT, который на данный момент доступен в DataSphere. В других методах дообучения и в следующих релизах возможны другие ограничения по количеству знаков.

  • @dreamofyou00
    @dreamofyou00 2 месяца назад

    Почему выбран метод дообучения в виде вопрос ответ? Дообучение нужно для создания контекста для модели, а порой контекст может задаваться например специфическими для индустрии терминами или процессами

    • @YandexCloudPlatform
      @YandexCloudPlatform  2 месяца назад

      Здравствуйте! Ваш вопрос не теряем, уже скоро вернёмся с подробностями.

    • @YandexCloudPlatform
      @YandexCloudPlatform  2 месяца назад +3

      Спешим к вам! У многих пользователей появляется необходимость обучить модель оптимальной инструкции на базе набора данных. Цель дообучения, которое доступно на данный момент - научить модель решать конкретную задачу. Оно не позволит модели лучше знать термины или процессы. Для этого необходимо использовать другие способы дообучения, которые сейчас недоступны в сервисе, но, возможно, появятся позднее.

    • @AzUSMA
      @AzUSMA Месяц назад

      Добрый день. Возможно ли в DataSphere обучать модель делать описание рентгеновских снимков. Например на входе есть непосредственно снимок, уже готовое описание для него и хотелось чтобы обученная модель принимала снимок и выдавала описание

    • @YandexCloudPlatform
      @YandexCloudPlatform  Месяц назад

      Здравствуйте, Александр! Такой возможности нет. YandexGPT на вход может получать только текст, она не работает с изображениями.

  • @alexandergreat6192
    @alexandergreat6192 29 дней назад

    Где найти готовые файлы с примерами для дообучения?

    • @YandexCloudPlatform
      @YandexCloudPlatform  29 дней назад

      Здравствуйте! Если вопрос касается примера составления файла для дообучения, рекомендуем воспользоваться статьёй из документации: ya.cc/t/eaXcq6CL52r2hD
      Сейчас готовых практических файлов с примерами для дообучения предоставить не можем.

    • @mkuvsh
      @mkuvsh 26 дней назад

      Файл ровно как в документации: одна строчка - одна единица для дообучения: образец с разметкой не более 4 тыс знаков, вопрос от юзера и образцовый ответ до 2 тыс. Минимум 10 строчек в файле, пустых строчек быть не должно, иначе ошибка. Я просто скопировала из документации эти три строчки примера и вставила в них свой текст.

  • @vacsa
    @vacsa Месяц назад

    Есть немного другая задача, я не могу понять как ее натянуть на Ваш пример. Есть excel документ с классификацией например колонки - проблема ( нестабильная работа, сизый дым, троение ....), узел (двигатель, выхлопная система), (....), решение(замена катушек, устранить подсос воздуха) Я хочу скормить эту таблицу yandexGPT , далее клиент вводит свою проблему, например - у меня плохо работает двигатель - троит, из выхлопной идет сизый дым.... А нейросеть поможет выдать ответ - вам необходимо проверить отсутствие подсоса воздуха, проверить уровень масла.... Как можно загрузить подобную таблицу?

    • @YandexCloudPlatform
      @YandexCloudPlatform  Месяц назад +1

      Здравствуйте! Ваш комментарий увидели, ответим через некоторое время. Не теряйте!

    • @YandexCloudPlatform
      @YandexCloudPlatform  Месяц назад +1

      Вернулись к вам! Увы, Excel документ использовать не получится. В вашем случае расположенная в файле Excel база знаний должна быть разбита на фрагменты, которые потребуется перевести в векторное представление - embedding. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY

    • @YandexCloudPlatform
      @YandexCloudPlatform  Месяц назад

      😊🙌🏼

    • @vacsa
      @vacsa Месяц назад

      @@YandexCloudPlatform Спасибо большое за совет пойду пробовать