CDC и ETL Подход cdc звучит интересно, но в реальности он не особо применим. Да и я конечно прошу прощения, но с чего это ETL устарел? "Не нагружает" - нечего в мастер ходить, тянешь с реплики и бед не знаешь, всегда так делали нормальные аналитики. Да и в реальности, в более менее больших конторах никто внешним системам напрямую в диск доступ не даст, теряется контроль доступов в бд ( где-то плачет инфобез )особенно, если там конфиденциальные или персональные данные. ФЗ152 не одобряет. А так или иначе, ПД могут быть размазаны по всем системам. Облака конечно дают возможность перелить данные так, но реализация скрыта от юзера,, сам он не имеет доступа к диску, да и в облаках не все сидят в принципе. Если у вас нет реплики, но есть отдельная аналитическая база, то у меня есть вопросики. CDC реально применим в очень редких случаях, но это точно не тема стандартного BI в реальном проекте это или тестовые базы, или небольшой проект гарантированно без каких-либо персональных данных, при этом есть прямой доступ к диску у bi
То есть мап редьюс был давно реализован на хадупе- хранить данные распределено и спускать (мап) функции туда на кажд узел. И возвращать (редус) уже какой то ггтовый результат. Гринплам сделал по сути тоже самое?
CDC и ETL
Подход cdc звучит интересно, но в реальности он не особо применим.
Да и я конечно прошу прощения, но с чего это ETL устарел?
"Не нагружает" - нечего в мастер ходить, тянешь с реплики и бед не знаешь, всегда так делали нормальные аналитики.
Да и в реальности, в более менее больших конторах никто внешним системам напрямую в диск доступ не даст, теряется контроль доступов в бд ( где-то плачет инфобез )особенно, если там конфиденциальные или персональные данные. ФЗ152 не одобряет. А так или иначе, ПД могут быть размазаны по всем системам.
Облака конечно дают возможность перелить данные так, но реализация скрыта от юзера,, сам он не имеет доступа к диску, да и в облаках не все сидят в принципе.
Если у вас нет реплики, но есть отдельная аналитическая база, то у меня есть вопросики.
CDC реально применим в очень редких случаях, но это точно не тема стандартного BI в реальном проекте
это или тестовые базы, или небольшой проект гарантированно без каких-либо персональных данных, при этом есть прямой доступ к диску у bi
То есть мап редьюс был давно реализован на хадупе- хранить данные распределено и спускать (мап) функции туда на кажд узел. И возвращать (редус) уже какой то ггтовый результат. Гринплам сделал по сути тоже самое?