Я, как понял, пишется LLM, а подразумевается openai. RAG на локальных моделях занимает много памяти дополнительно к самой модели и требователен к вычислительной производительности SIMD-ускорителя. Плюс в ряде случаев модель допускает ошибки понимания текста. ChatGPT во многих случаях и так хорош, а вычислительные мощности openai достаточно велики, поэтому вывод «Fine-tune проиграл» неправильный. Точнее сказать «ChatGPT достаточно хорош, чтобы не было необходимости дообучения».
да - нет смысла дообучать модели тк они сами выкатывают новые модели которые уже могут то, что вы от них хотели. RAG на локальных моделях занимает много памяти - эту мысль не понял. вы же не помять нагружаете а контекст расширяете
@@peter_hanzo Когда вы взаимодействуете с LLM-моделью и передаёте ей большой объём данных, увеличивается потребляемая память видеокарты по нескольким причинам: 1. Обработка входных данных: Чем больше объём данных, передаваемых в модель, тем больше токенов ей необходимо обработать. Каждый токен представляет собой часть текста, и модель должна их обработать и сохранить в памяти для выполнения вычислений. Увеличение числа токенов увеличивает объём операций и потребляемую память. 2. Контекстное окно: У моделей есть ограничение по длине контекстного окна (максимальное количество токенов, которые модель может обработать за раз). При увеличении объёма данных, приближающегося к этому лимиту, использование памяти увеличивается, так как модель должна хранить больше информации для выполнения своих операций. 3. Хранение промежуточных данных: Во время генерации ответа модель использует слои нейронной сети для анализа и обработки входных данных. На каждом уровне сети вычисляются и хранятся промежуточные результаты, что требует значительного объёма памяти. Чем больше входных данных, тем больше промежуточных результатов сохраняется в памяти. 4. Объём вычислений: Обработка большего количества токенов увеличивает потребность в вычислительных ресурсах, так как модель должна выполнить больше операций над каждым токеном. Это требует больше памяти для хранения параметров и временных данных, необходимых для этих вычислений. Таким образом, при увеличении объёма данных возрастает количество токенов и операций, что ведёт к увеличению потребления памяти видеокарты, необходимой для работы с этими данными.
Подскажите, я молодой писатель и хотел бы обучить модель на своих книгах чтобы она могла бы мне помогать но сугубо в моем стиле - соответственно задача дообучить модель на моих книгах, подскажите какие для этого подходят технологии, спасибо
если хотите использовать дообучение, то вам нужна регистрация в opanai как разработчика, чтобы получить доступ в API и нужна подготовка данных: в специальном формате разбить данные на вопрос- ответ возможно через неделю сделаю новое видео как готовить данные через скрипт и гугл таблицы
@@peter_hanzo А какже куча видео в ютубе где люди занимаются файн тюнингом просто в гугл колабе или на серверах и вроде API от не нужен или это что то другое?
Facebook гостя: facebook.com/avdsergei
Здравствуйте. А кто ваш гость?
спасибо за вопрос, забыл добавить ссылку на фейсбук гостя: facebook.com/avdsergei
Я, как понял, пишется LLM, а подразумевается openai. RAG на локальных моделях занимает много памяти дополнительно к самой модели и требователен к вычислительной производительности SIMD-ускорителя. Плюс в ряде случаев модель допускает ошибки понимания текста. ChatGPT во многих случаях и так хорош, а вычислительные мощности openai достаточно велики, поэтому вывод «Fine-tune проиграл» неправильный. Точнее сказать «ChatGPT достаточно хорош, чтобы не было необходимости дообучения».
да - нет смысла дообучать модели тк они сами выкатывают новые модели которые уже могут то, что вы от них хотели.
RAG на локальных моделях занимает много памяти - эту мысль не понял. вы же не помять нагружаете а контекст расширяете
@@peter_hanzo Когда вы взаимодействуете с LLM-моделью и передаёте ей большой объём данных, увеличивается потребляемая память видеокарты по нескольким причинам:
1. Обработка входных данных: Чем больше объём данных, передаваемых в модель, тем больше токенов ей необходимо обработать. Каждый токен представляет собой часть текста, и модель должна их обработать и сохранить в памяти для выполнения вычислений. Увеличение числа токенов увеличивает объём операций и потребляемую память.
2. Контекстное окно: У моделей есть ограничение по длине контекстного окна (максимальное количество токенов, которые модель может обработать за раз). При увеличении объёма данных, приближающегося к этому лимиту, использование памяти увеличивается, так как модель должна хранить больше информации для выполнения своих операций.
3. Хранение промежуточных данных: Во время генерации ответа модель использует слои нейронной сети для анализа и обработки входных данных. На каждом уровне сети вычисляются и хранятся промежуточные результаты, что требует значительного объёма памяти. Чем больше входных данных, тем больше промежуточных результатов сохраняется в памяти.
4. Объём вычислений: Обработка большего количества токенов увеличивает потребность в вычислительных ресурсах, так как модель должна выполнить больше операций над каждым токеном. Это требует больше памяти для хранения параметров и временных данных, необходимых для этих вычислений.
Таким образом, при увеличении объёма данных возрастает количество токенов и операций, что ведёт к увеличению потребления памяти видеокарты, необходимой для работы с этими данными.
@@DrillingEnglish да, согласен именно поэтому из-за этих и многих других сложностей я всегда использую и советую использовать готовые модели в облаке
Подскажите, я молодой писатель и хотел бы обучить модель на своих книгах чтобы она могла бы мне помогать но сугубо в моем стиле - соответственно задача дообучить модель на моих книгах, подскажите какие для этого подходят технологии, спасибо
если хотите использовать дообучение, то вам нужна регистрация в opanai как разработчика, чтобы получить доступ в API
и нужна подготовка данных: в специальном формате разбить данные на вопрос- ответ
возможно через неделю сделаю новое видео как готовить данные через скрипт и гугл таблицы
@@peter_hanzo А какже куча видео в ютубе где люди занимаются файн тюнингом просто в гугл колабе или на серверах и вроде API от не нужен или это что то другое?