Интервью с Максимом Стаценко и Татьяной Колмаковой, Яндекс

Митап NoML Community Павел Снурницын: Feature Store как ключевая компонента современной ML платформы

Сергей Ярымов - Как мы строим Feature store

Inside Molly-Mae Hague’s Bottega Veneta Bag | In The Bag

Twin Engine Crotch Rocket Buggy

Venezuela 1 - 1 Brasil | Eliminatorias Sudamericanas al Mundial 2026 | Fecha 11

Андрей Кузнецов - Распределенный высоконагруженный feature store ОК

SmartData

Просмотров 1 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 15 ноя 2024

Комментарии • 2

@AlexanderSergeenko Год назад
Спасибо за интересный доклад.
- Почему выбрали именно Samza для стриминга? Насколько сложно было масштабировать его под такой продакшн?
- Какая семантика поддерживается для доставки ивентов в слой кеширования (topic -> fetcher -> cache)? Не сталкивались ли с проблемами нарушения, например, целостности флагов кэше (в вашем примере - dirty) при обработке потоков из топиков (например, если нет гарантированного exactly once)? Как в целом обеспечивается целостность write-through кэша в сценариях: событие прочтено, офсет записали в Cassandra, в этот момент кэш упал. Событие прочтено, офсет зафиксирован, записали в кэш, но в этот момент Cassandra упала. И т. д. Нет ли потерянных или дуплицированных ивентов?
- В вашем подходе кэш - какую реализацию использует? Redis? В чем именно польза такого кэша и почему не писать стримы топиков сразу в Cassandra - это попытка избежать частого чтения/записи и губительных tombstone в C*, работая с быстрым кэшем? Cassandra гарантировано не обеспечивала нужных latency при работе без кэширующего слоя?
- Как в таком подходе работает сквозная schema evolution: от событий стриминга/батч до фичей? Как вы сохраняете прямую/обратную совместимость при эволюции схем событий? Не пробовали ли вы другие форматы сериализации, например Avro?
- Вы говорите о highload в "горячем feature store" и высоких требованиях к его отказоустойчивости, при этом используя однонодную конфигурацию Cassandra без кластера и multi-DC, этот момент не совсем понятен. Правильно ли я понимаю, что однонодная Cassandra - это только часть одного экземпляра feature store, который по факту и является атомарной единицей отказоустойчивости и масштабирования? То есть одна партиция топика = один узел feature store = один шард чтения для клиентов?
- Как вы инвалидируете кэш при наступлении TTL в Cassandra?
@netcitizenrus1 Год назад
Привет!
1) Выбрали Самзу давно, так как это быстрый и хорошо зарекомендовавший себя фреймворк от линкедин
2) Целостность поддерживаем на всех уровнях. Мы еще коммитим оффсеты в кассандру, что уберечься от незафлашенных из кэша записей. Если падает и корраптится Кассандра (очень редкое явление), то восстанавливаем с живой реплики.
3) Кэш свой. Написан для демпфирования нагрузки на Кассандру
4) Обычно разные версии разводим по разным топикам. Авро не заводили, так как это лишний оверхед.
5) Однонодная кассандра в нескольких репликах. На одну ноду заводятся несколько партиций топика. Правила распределения партиций по ключу распостраняются и на клиентов.
6) В кэше реализованы несколько стратегий чистки, но они не синхронизированы с Кассандрой. Ситуация когда в Кассандре данные почистились по TTL, а в кэше остались супер редкая + при чтении из Кассандры мы проверяем что данные не протухли.

Следующие

Автовоспроизведение

Интервью с Максимом Стаценко и Татьяной Колмаковой, Яндекс

Интервью с Максимом Стаценко и Татьяной Колмаковой, Яндекс

Митап NoML Community Павел Снурницын: Feature Store как ключевая компонента современной ML платформы

Митап NoML Community Павел Снурницын: Feature Store как ключевая компонента современной ML платформы

Сергей Ярымов - Как мы строим Feature store

Сергей Ярымов — Как мы строим Feature store

Inside Molly-Mae Hague’s Bottega Veneta Bag | In The Bag

Inside Molly-Mae Hague’s Bottega Veneta Bag | In The Bag

Twin Engine Crotch Rocket Buggy

Twin Engine Crotch Rocket Buggy

Venezuela 1 - 1 Brasil | Eliminatorias Sudamericanas al Mundial 2026 | Fecha 11

Venezuela 1 - 1 Brasil | Eliminatorias Sudamericanas al Mundial 2026 | Fecha 11

I tested the Craziest Xiaomi Gadgets!

I tested the Craziest Xiaomi Gadgets!

Бронислав Житников - Как сделать так, чтобы вашему Apache NiFi было плохо

Бронислав Житников — Как сделать так, чтобы вашему Apache NiFi было плохо

Семинар: Константин Липилин - Feast - Open Source Feature Store

Семинар: Константин Липилин - Feast - Open Source Feature Store

Эволюция принятия решений на основе данных - Василий Кийко

Эволюция принятия решений на основе данных - Василий Кийко

Анализ потребности бизнеса в использовании Feature Store

Анализ потребности бизнеса в использовании Feature Store

Биология поведения человека. Лекция #1. Введение [Роберт Сапольски, 2010. Стэнфорд]

Биология поведения человека. Лекция #1. Введение [Роберт Сапольски, 2010. Стэнфорд]

Feast: feature store for Machine Learning

Feast: feature store for Machine Learning

Виталий Бодренков - Визуализация для ELT-процессов в DWH

Виталий Бодренков — Визуализация для ELT-процессов в DWH

But what is a neural network? | Deep learning chapter 1

But what is a neural network? | Deep learning chapter 1

Главная проблема ИИ, которую никто не может решить

Главная проблема ИИ, которую никто не может решить

ЖУТКАЯ НОЧЬ в ДОМЕ на ДЕРЕВЕ в ЛЕСУ | ОН ПРИШЕЛ, КОГДА Я УСНУЛ и ХОДИТ РЯДОМ

ЖУТКАЯ НОЧЬ в ДОМЕ на ДЕРЕВЕ в ЛЕСУ | ОН ПРИШЕЛ, КОГДА Я УСНУЛ и ХОДИТ РЯДОМ

От первого лица: Школа 7😡 ПОТЕРЯЛ ДРУГА 💔НОЧЕВКА с ДЕВУШКОЙ 🤯ДОВЕЛ УЧИТЕЛЯ ДО СЛЕЗ ГЛАЗАМИ ШКОЛЬНИКА

От первого лица: Школа 7😡 ПОТЕРЯЛ ДРУГА 💔НОЧЕВКА с ДЕВУШКОЙ 🤯ДОВЕЛ УЧИТЕЛЯ ДО СЛЕЗ ГЛАЗАМИ ШКОЛЬНИКА

10% VS 50% VS 100% от ЕДЫ ЧЕЛЛЕНДЖ!

10% VS 50% VS 100% от ЕДЫ ЧЕЛЛЕНДЖ!

ЯПОНИЯ СНИМАЕТ САНКЦИИ НА АВТО, АВТОРЫНОК ВЛАДИВОСТОК СЕГОДНЯ, НОЯБРЬ 2024

ЯПОНИЯ СНИМАЕТ САНКЦИИ НА АВТО, АВТОРЫНОК ВЛАДИВОСТОК СЕГОДНЯ, НОЯБРЬ 2024

Can You Find Hulk's True Love? Real vs Fake Girlfriend Challenge | Roblox 3D

Can You Find Hulk's True Love? Real vs Fake Girlfriend Challenge | Roblox 3D

ЧТО ОБЩЕГО У ОЛЕСИ И ДЖИГАНА? #натальнаякарта

ЧТО ОБЩЕГО У ОЛЕСИ И ДЖИГАНА? #натальнаякарта

БОЙ: Майк Тайсон - Джейк Пол | БОКС

БОЙ: Майк Тайсон - Джейк Пол | БОКС

САМОЕ ДОРОГОЕ BMW. ROLLS-ROYCE CULLINAN.

САМОЕ ДОРОГОЕ BMW. ROLLS-ROYCE CULLINAN.