Алерон Миленкин | RAG и как его правильно готовить
HTML-код
- Опубликовано: 23 окт 2024
- Спикер: Алерон Миленкин, Dodo Brands, ML Team Lead, автора канал Data Feeling (@datafeeling), победитель Stepik Awards 2023, IT предприниматель и преподаватель курса по LLM. Kaggle Expert.
Data Fest 2024: ods.ai/events/...
Презентацию к докладу Вы можете скачать в треке секции Advanced LLMs: ods.ai/tracks/...
_____
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с апдейтами по курсам: t.me/odscourses
Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/...
Спасибо за доклад. Не работает ссылка на презентацию. И хотелось бы воркбук. Заранее спасибо.
Алерон, смотрел ваш канал, интересный и полезный контент. Но ваше выступление разочаровало, ожидания были большими, а увидел уровень студента бакалавра. Без метрик, без диаграмм, без подготовленной речи. Один ноутбук, без презентации. Стандартный и простейший RAG, который уже все обсосали, эффективность под вопросом, особенно, когда база знаний часто обновляется.
Все LLM модели не идеальны и часто выдают чушь, т.к. само машинное обучение лишь стремится минимизировать ошибки но не может обнулить их. Кроме того, модели не думают как люди, а просто выдают наиболее статистически значимые паттерны из обучающей выборки. То есть работают также как и сервисы поисковики. Всё это значительно ограничивает возможные прикладные области таких решений только вспомогательными не критичными процессами. Ну а уж хранить приватные данные в облаках, как советует автор - это вообще чистый маркетинг и прямое мошенничство, направленное на кражу данных.
Никто не заставляет вас хранить приватные данные в облаке. Скачивайте открытые модели (embedding, LLM), делайте свой, локальный RAG.
Сравнивать LLM с поисковиком - сильное заявление. Много поисковик вам кода написал?