Дообучение модели YandexGPT в Yandex DataSphere

Yandex Cloud

Просмотров 2,2 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 24 янв 2024
Как управлять доступами в Yandex DataSphere: cloud.yandex.ru/ru/docs/datas....
Ещё больше о возможностях Yandex DataSphere: cloud.yandex.ru/ru/docs/datas....
Наука

Комментарии • 29

@user-py8cs6xe2l 4 месяца назад
если дообучить модель, например на условных нескольких тысяч похожих пар с единым смыслом но идущим в разрез общепринятой логики, например арифметики (запрос: сколько будет два плюс два / ответ: пять) стоит ли ожидать, что дообученная модель при всем многообразии формулировок данного запроса будет выдавать ответ "пять" со стопроцентной вероятностью? я понимаю что языковые модели плохо дружат с арифметикой, пример условный, можно например учить модель что небо зеленое. Гарантирует ли это что модель всегда будет выдавать заученный ответ?
@YandexCloudPlatform 4 месяца назад
Здравствуйте, Евгений! Гарантировать постоянную выдачу заученного ответа не можем.
@user-yi3tv9xf4i 2 дня назад
Дима его зовут) Дмитрий, блин! ЛГБТ)))
@lord_apple9948 2 месяца назад
А как можно ограничить ответы модели только по заданной тематике. То есть что бы модель отвечала, только в рамках заданного датасета. Например я хочу создать бота консультанта по вопросам компании?
@YandexCloudPlatform 2 месяца назад
Здравствуйте! Для такого сценария мы рекомендуем использовать подход Retrieval-Augmented Generation. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY
@lord_apple9948 2 месяца назад
@@YandexCloudPlatform Спасибо. И ещё вопрос. Из документации Yandex cloud я узнал, что дообучить Yandex GPT сейчас можно только "определенному формату ответов или принципаи анализа текста". А добавить в модель собственные данные, чтобы она их знала, сейчас невозможно?
Допустим я хочу создать для своей компании ИИ чат бота тех поддержки. Модель должна знать данные о моей компании, ответы на распространенные вопросы и тому подобное. Ну и модель должна отвечать клиенту на вопросы о моей компании и продуктах моей компании.
Я так понимаю, подобным образом обучить Yandex GPT на данных о моей компании я не смогу и мне нужно использовать другие нейросети, или я чего-то не понял?
@lord_apple9948 2 месяца назад
@@YandexCloudPlatform
Вот как раз в этой ссылке на гитхаб рассказывается о методе RAG который основан на собственной базе знаний. Но в офф документации написано, что дообученние на другой базе знаний пока невозможна. Это немного вводит в сомнения.
Может имеется в виду что в базовом формате есть только дообученние формату ответа (fine turning), а как-то "отдельно" можно ещё реализовать и дообученние на собственном наборе данных (RAG) ?
@YandexCloudPlatform 2 месяца назад
Дообучить модель YandexGPT таким способом, чтобы она получила новые знания, действительно на данный момент нельзя. Вместо этого мы рекомендуем использовать RAG (то, что по ссылке). RAG - это не дообучение, а подход, который состоит из двух базовых шагов: поиска и ответа моделью. На первом шаге происходит поиск нужных фрагментов документов, которые затем передаются в модель вместе с текстом запроса и дополнительной инструкцией. Таким образом получается, что RAG - это обогащение запроса контекстом на базе внутренних знаний.
@alexanderdemenev3514 28 дней назад
Здравствуйте! При обучении модели на тестовых данных, даже на тех, что указаны в документации, возникает ошибка "Ошибка дообучения Operation failed". С чем это может быть связано?
@YandexCloudPlatform 28 дней назад
Здравствуйте, Александр! Нам нужно немного времени, но мы обязательно вернёмся к вам с ответом.
@YandexCloudPlatform 27 дней назад
Вернулись к вам! Для более детального рассмотрения вашего вопроса, обратитесь, пожалуйста, в нашу службу поддержки через сайт: ya.cc/t/0e3gO2A952zCmQ или напишите нам на почту - cloud@support.yandex.ru
В обращении приложите, пожалуйста, полный текст ошибки, описание действий, приводящих к её появлению, и файл с данными для дообучения.
@user-md4ub1gs6p Месяц назад
Здравствуйте! Возможно ли дообучить модель отвечать на вопрос как тебя зовут конкретным именем, если да то как?
@YandexCloudPlatform Месяц назад
Здравствуйте, Максим! Ваш вопрос видим, скоро вернёмся с ответом.
@YandexCloudPlatform Месяц назад
Спешим к вам! Да, возможно. Руководство по дообучению модели YandexGPT вы можете найти в нашей документации: ya.cc/t/xjurWlI64zr43w
@dreamofyou00 2 месяца назад
Почему введен такой стандарт в индустрии 4000 знаков на вход и 2000 на выход?
@YandexCloudPlatform 2 месяца назад ⁺¹
Эти ограничения относятся конкретно к тому методу дообучения YandexGPT, который на данный момент доступен в DataSphere. В других методах дообучения и в следующих релизах возможны другие ограничения по количеству знаков.
@dreamofyou00 2 месяца назад
Почему выбран метод дообучения в виде вопрос ответ? Дообучение нужно для создания контекста для модели, а порой контекст может задаваться например специфическими для индустрии терминами или процессами
@YandexCloudPlatform 2 месяца назад
Здравствуйте! Ваш вопрос не теряем, уже скоро вернёмся с подробностями.
@YandexCloudPlatform 2 месяца назад ⁺³
Спешим к вам! У многих пользователей появляется необходимость обучить модель оптимальной инструкции на базе набора данных. Цель дообучения, которое доступно на данный момент - научить модель решать конкретную задачу. Оно не позволит модели лучше знать термины или процессы. Для этого необходимо использовать другие способы дообучения, которые сейчас недоступны в сервисе, но, возможно, появятся позднее.
@AzUSMA Месяц назад
Добрый день. Возможно ли в DataSphere обучать модель делать описание рентгеновских снимков. Например на входе есть непосредственно снимок, уже готовое описание для него и хотелось чтобы обученная модель принимала снимок и выдавала описание
@YandexCloudPlatform Месяц назад
Здравствуйте, Александр! Такой возможности нет. YandexGPT на вход может получать только текст, она не работает с изображениями.
@alexandergreat6192 29 дней назад
Где найти готовые файлы с примерами для дообучения?
@YandexCloudPlatform 29 дней назад
Здравствуйте! Если вопрос касается примера составления файла для дообучения, рекомендуем воспользоваться статьёй из документации: ya.cc/t/eaXcq6CL52r2hD
Сейчас готовых практических файлов с примерами для дообучения предоставить не можем.
@mkuvsh 26 дней назад
Файл ровно как в документации: одна строчка - одна единица для дообучения: образец с разметкой не более 4 тыс знаков, вопрос от юзера и образцовый ответ до 2 тыс. Минимум 10 строчек в файле, пустых строчек быть не должно, иначе ошибка. Я просто скопировала из документации эти три строчки примера и вставила в них свой текст.
@vacsa Месяц назад
Есть немного другая задача, я не могу понять как ее натянуть на Ваш пример. Есть excel документ с классификацией например колонки - проблема ( нестабильная работа, сизый дым, троение ....), узел (двигатель, выхлопная система), (....), решение(замена катушек, устранить подсос воздуха) Я хочу скормить эту таблицу yandexGPT , далее клиент вводит свою проблему, например - у меня плохо работает двигатель - троит, из выхлопной идет сизый дым.... А нейросеть поможет выдать ответ - вам необходимо проверить отсутствие подсоса воздуха, проверить уровень масла.... Как можно загрузить подобную таблицу?
@YandexCloudPlatform Месяц назад ⁺¹
Здравствуйте! Ваш комментарий увидели, ответим через некоторое время. Не теряйте!
@YandexCloudPlatform Месяц назад ⁺¹
Вернулись к вам! Увы, Excel документ использовать не получится. В вашем случае расположенная в файле Excel база знаний должна быть разбита на фрагменты, которые потребуется перевести в векторное представление - embedding. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY
@YandexCloudPlatform Месяц назад
😊🙌🏼
@vacsa Месяц назад
@@YandexCloudPlatform Спасибо большое за совет пойду пробовать

Следующие

Автовоспроизведение

Как начать работу в Yandex Cloud: пошаговая инструкция для новичков