Как управлять доступами в Yandex DataSphere: cloud.yandex.ru/ru/docs/datas.... Ещё больше о возможностях Yandex DataSphere: cloud.yandex.ru/ru/docs/datas....
если дообучить модель, например на условных нескольких тысяч похожих пар с единым смыслом но идущим в разрез общепринятой логики, например арифметики (запрос: сколько будет два плюс два / ответ: пять) стоит ли ожидать, что дообученная модель при всем многообразии формулировок данного запроса будет выдавать ответ "пять" со стопроцентной вероятностью? я понимаю что языковые модели плохо дружат с арифметикой, пример условный, можно например учить модель что небо зеленое. Гарантирует ли это что модель всегда будет выдавать заученный ответ?
А как можно ограничить ответы модели только по заданной тематике. То есть что бы модель отвечала, только в рамках заданного датасета. Например я хочу создать бота консультанта по вопросам компании?
Здравствуйте! Для такого сценария мы рекомендуем использовать подход Retrieval-Augmented Generation. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY
@@YandexCloudPlatform Спасибо. И ещё вопрос. Из документации Yandex cloud я узнал, что дообучить Yandex GPT сейчас можно только "определенному формату ответов или принципаи анализа текста". А добавить в модель собственные данные, чтобы она их знала, сейчас невозможно? Допустим я хочу создать для своей компании ИИ чат бота тех поддержки. Модель должна знать данные о моей компании, ответы на распространенные вопросы и тому подобное. Ну и модель должна отвечать клиенту на вопросы о моей компании и продуктах моей компании. Я так понимаю, подобным образом обучить Yandex GPT на данных о моей компании я не смогу и мне нужно использовать другие нейросети, или я чего-то не понял?
@@YandexCloudPlatform Вот как раз в этой ссылке на гитхаб рассказывается о методе RAG который основан на собственной базе знаний. Но в офф документации написано, что дообученние на другой базе знаний пока невозможна. Это немного вводит в сомнения. Может имеется в виду что в базовом формате есть только дообученние формату ответа (fine turning), а как-то "отдельно" можно ещё реализовать и дообученние на собственном наборе данных (RAG) ?
Дообучить модель YandexGPT таким способом, чтобы она получила новые знания, действительно на данный момент нельзя. Вместо этого мы рекомендуем использовать RAG (то, что по ссылке). RAG - это не дообучение, а подход, который состоит из двух базовых шагов: поиска и ответа моделью. На первом шаге происходит поиск нужных фрагментов документов, которые затем передаются в модель вместе с текстом запроса и дополнительной инструкцией. Таким образом получается, что RAG - это обогащение запроса контекстом на базе внутренних знаний.
Здравствуйте! При обучении модели на тестовых данных, даже на тех, что указаны в документации, возникает ошибка "Ошибка дообучения Operation failed". С чем это может быть связано?
Вернулись к вам! Для более детального рассмотрения вашего вопроса, обратитесь, пожалуйста, в нашу службу поддержки через сайт: ya.cc/t/0e3gO2A952zCmQ или напишите нам на почту - cloud@support.yandex.ru В обращении приложите, пожалуйста, полный текст ошибки, описание действий, приводящих к её появлению, и файл с данными для дообучения.
Эти ограничения относятся конкретно к тому методу дообучения YandexGPT, который на данный момент доступен в DataSphere. В других методах дообучения и в следующих релизах возможны другие ограничения по количеству знаков.
Почему выбран метод дообучения в виде вопрос ответ? Дообучение нужно для создания контекста для модели, а порой контекст может задаваться например специфическими для индустрии терминами или процессами
Спешим к вам! У многих пользователей появляется необходимость обучить модель оптимальной инструкции на базе набора данных. Цель дообучения, которое доступно на данный момент - научить модель решать конкретную задачу. Оно не позволит модели лучше знать термины или процессы. Для этого необходимо использовать другие способы дообучения, которые сейчас недоступны в сервисе, но, возможно, появятся позднее.
Добрый день. Возможно ли в DataSphere обучать модель делать описание рентгеновских снимков. Например на входе есть непосредственно снимок, уже готовое описание для него и хотелось чтобы обученная модель принимала снимок и выдавала описание
Здравствуйте! Если вопрос касается примера составления файла для дообучения, рекомендуем воспользоваться статьёй из документации: ya.cc/t/eaXcq6CL52r2hD Сейчас готовых практических файлов с примерами для дообучения предоставить не можем.
Файл ровно как в документации: одна строчка - одна единица для дообучения: образец с разметкой не более 4 тыс знаков, вопрос от юзера и образцовый ответ до 2 тыс. Минимум 10 строчек в файле, пустых строчек быть не должно, иначе ошибка. Я просто скопировала из документации эти три строчки примера и вставила в них свой текст.
Есть немного другая задача, я не могу понять как ее натянуть на Ваш пример. Есть excel документ с классификацией например колонки - проблема ( нестабильная работа, сизый дым, троение ....), узел (двигатель, выхлопная система), (....), решение(замена катушек, устранить подсос воздуха) Я хочу скормить эту таблицу yandexGPT , далее клиент вводит свою проблему, например - у меня плохо работает двигатель - троит, из выхлопной идет сизый дым.... А нейросеть поможет выдать ответ - вам необходимо проверить отсутствие подсоса воздуха, проверить уровень масла.... Как можно загрузить подобную таблицу?
Вернулись к вам! Увы, Excel документ использовать не получится. В вашем случае расположенная в файле Excel база знаний должна быть разбита на фрагменты, которые потребуется перевести в векторное представление - embedding. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY
если дообучить модель, например на условных нескольких тысяч похожих пар с единым смыслом но идущим в разрез общепринятой логики, например арифметики (запрос: сколько будет два плюс два / ответ: пять) стоит ли ожидать, что дообученная модель при всем многообразии формулировок данного запроса будет выдавать ответ "пять" со стопроцентной вероятностью? я понимаю что языковые модели плохо дружат с арифметикой, пример условный, можно например учить модель что небо зеленое. Гарантирует ли это что модель всегда будет выдавать заученный ответ?
Здравствуйте, Евгений! Гарантировать постоянную выдачу заученного ответа не можем.
Дима его зовут) Дмитрий, блин! ЛГБТ)))
А как можно ограничить ответы модели только по заданной тематике. То есть что бы модель отвечала, только в рамках заданного датасета. Например я хочу создать бота консультанта по вопросам компании?
Здравствуйте! Для такого сценария мы рекомендуем использовать подход Retrieval-Augmented Generation. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY
@@YandexCloudPlatform Спасибо. И ещё вопрос. Из документации Yandex cloud я узнал, что дообучить Yandex GPT сейчас можно только "определенному формату ответов или принципаи анализа текста". А добавить в модель собственные данные, чтобы она их знала, сейчас невозможно?
Допустим я хочу создать для своей компании ИИ чат бота тех поддержки. Модель должна знать данные о моей компании, ответы на распространенные вопросы и тому подобное. Ну и модель должна отвечать клиенту на вопросы о моей компании и продуктах моей компании.
Я так понимаю, подобным образом обучить Yandex GPT на данных о моей компании я не смогу и мне нужно использовать другие нейросети, или я чего-то не понял?
@@YandexCloudPlatform
Вот как раз в этой ссылке на гитхаб рассказывается о методе RAG который основан на собственной базе знаний. Но в офф документации написано, что дообученние на другой базе знаний пока невозможна. Это немного вводит в сомнения.
Может имеется в виду что в базовом формате есть только дообученние формату ответа (fine turning), а как-то "отдельно" можно ещё реализовать и дообученние на собственном наборе данных (RAG) ?
Дообучить модель YandexGPT таким способом, чтобы она получила новые знания, действительно на данный момент нельзя. Вместо этого мы рекомендуем использовать RAG (то, что по ссылке). RAG - это не дообучение, а подход, который состоит из двух базовых шагов: поиска и ответа моделью. На первом шаге происходит поиск нужных фрагментов документов, которые затем передаются в модель вместе с текстом запроса и дополнительной инструкцией. Таким образом получается, что RAG - это обогащение запроса контекстом на базе внутренних знаний.
Здравствуйте! При обучении модели на тестовых данных, даже на тех, что указаны в документации, возникает ошибка "Ошибка дообучения Operation failed". С чем это может быть связано?
Здравствуйте, Александр! Нам нужно немного времени, но мы обязательно вернёмся к вам с ответом.
Вернулись к вам! Для более детального рассмотрения вашего вопроса, обратитесь, пожалуйста, в нашу службу поддержки через сайт: ya.cc/t/0e3gO2A952zCmQ или напишите нам на почту - cloud@support.yandex.ru
В обращении приложите, пожалуйста, полный текст ошибки, описание действий, приводящих к её появлению, и файл с данными для дообучения.
Здравствуйте! Возможно ли дообучить модель отвечать на вопрос как тебя зовут конкретным именем, если да то как?
Здравствуйте, Максим! Ваш вопрос видим, скоро вернёмся с ответом.
Спешим к вам! Да, возможно. Руководство по дообучению модели YandexGPT вы можете найти в нашей документации: ya.cc/t/xjurWlI64zr43w
Почему введен такой стандарт в индустрии 4000 знаков на вход и 2000 на выход?
Эти ограничения относятся конкретно к тому методу дообучения YandexGPT, который на данный момент доступен в DataSphere. В других методах дообучения и в следующих релизах возможны другие ограничения по количеству знаков.
Почему выбран метод дообучения в виде вопрос ответ? Дообучение нужно для создания контекста для модели, а порой контекст может задаваться например специфическими для индустрии терминами или процессами
Здравствуйте! Ваш вопрос не теряем, уже скоро вернёмся с подробностями.
Спешим к вам! У многих пользователей появляется необходимость обучить модель оптимальной инструкции на базе набора данных. Цель дообучения, которое доступно на данный момент - научить модель решать конкретную задачу. Оно не позволит модели лучше знать термины или процессы. Для этого необходимо использовать другие способы дообучения, которые сейчас недоступны в сервисе, но, возможно, появятся позднее.
Добрый день. Возможно ли в DataSphere обучать модель делать описание рентгеновских снимков. Например на входе есть непосредственно снимок, уже готовое описание для него и хотелось чтобы обученная модель принимала снимок и выдавала описание
Здравствуйте, Александр! Такой возможности нет. YandexGPT на вход может получать только текст, она не работает с изображениями.
Где найти готовые файлы с примерами для дообучения?
Здравствуйте! Если вопрос касается примера составления файла для дообучения, рекомендуем воспользоваться статьёй из документации: ya.cc/t/eaXcq6CL52r2hD
Сейчас готовых практических файлов с примерами для дообучения предоставить не можем.
Файл ровно как в документации: одна строчка - одна единица для дообучения: образец с разметкой не более 4 тыс знаков, вопрос от юзера и образцовый ответ до 2 тыс. Минимум 10 строчек в файле, пустых строчек быть не должно, иначе ошибка. Я просто скопировала из документации эти три строчки примера и вставила в них свой текст.
Есть немного другая задача, я не могу понять как ее натянуть на Ваш пример. Есть excel документ с классификацией например колонки - проблема ( нестабильная работа, сизый дым, троение ....), узел (двигатель, выхлопная система), (....), решение(замена катушек, устранить подсос воздуха) Я хочу скормить эту таблицу yandexGPT , далее клиент вводит свою проблему, например - у меня плохо работает двигатель - троит, из выхлопной идет сизый дым.... А нейросеть поможет выдать ответ - вам необходимо проверить отсутствие подсоса воздуха, проверить уровень масла.... Как можно загрузить подобную таблицу?
Здравствуйте! Ваш комментарий увидели, ответим через некоторое время. Не теряйте!
Вернулись к вам! Увы, Excel документ использовать не получится. В вашем случае расположенная в файле Excel база знаний должна быть разбита на фрагменты, которые потребуется перевести в векторное представление - embedding. Пример того, как построить RAG на базе сервисов Yandex Cloud, описан на странице: ya.cc/t/13m3Tl1m4vFzWY
😊🙌🏼
@@YandexCloudPlatform Спасибо большое за совет пойду пробовать