Comment créer une architecture Data avec Databricks ? (Data Engineer System design interview)

Snowflake Architecture

Лукашенко не ожидал таких вопросов | Лайфхаки для студентов от Первого | Откровения Президента

Pittsburgh Steelers vs. Cleveland Browns Game Highlights | NFL 2024 Season Week 12

HIGHLIGHTS | WALES V AUSTRALIA | AUTUMN NATIONS SERIES

A Minecraft Movie | Official Trailer

Comment design une architecture Data avec Snowflake/DBT ? (Data Engineer System design interview)

Data From Scratch - Willis

Просмотров 3,4 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 22 ноя 2024

Комментарии • 32

@filmsreview8817 2 месяца назад ⁺¹
Bonjour Will, merci pour ta video, elle est vraiment concise neanmois j'ai quelques questions.
1-- Puisque tu utilises S3 comme source de stockage, n'est-il pas adequat de construire un data lake avec pour stockage S3 ?? je pense à un combo AWS Lake Formation + S3 ou alors AWS EMR + (Spark + Flink + Trino) + iceberg. Qu'en penses-tu ??
2-- Comment transmets tu les données de S3 vers Snowflake ? (à l'aide de kafka) ?
3-- N'est-il pas interessant de diposé d'une BD analytics et orienté colonne telle que Druid ??
4-- Data quality -- as-tu eu à tester great expectations ??
5 -- N'aurait-il pas de place pour du sematic layer dans cette architecture ??
Donnes moi ton avis sur ces diffents points stp
@potaryx4281 5 месяцев назад ⁺¹
Merci beaucoup Willis ❤😊
@kojotv3461 2 месяца назад
Super intéressant, merci pour cet exercice
@DataFromScratchWillis Месяц назад
Merci à toi
@Girl_Game2012 2 месяца назад
Super 👍
@BigQueyrie 8 месяцев назад ⁺¹
Bonne vidéo. De mon côté, j'aurais plutôt utilisé Scala et le framework Spark pour la partie transformation "technique" réalisée par des Data Engineers, et dbt pour les transformations impliquant une logique métier par les Analytics Engineers/Data Analysts. Cela rajoute une couche, mais permet de mieux répartir la charge et scinder les périmètres.
Et pour la partie liée à la qualité de données, tu peux effectivement utiliser Great Expectations et/ou la librarie dbt-expectations qui évite de rédiger des macros custom 😉 Il faudrait aussi que je creuse les outils OS de dashboarding (evidence, Rill...) car Tableau coûte une blinde 😂
@DominiqueLenglet-b3d 7 месяцев назад ⁺¹
Hello Willis je ne peux pas te répondre pour DBT de mon côté je gère la partie transformation avec Semarchy xdi et quant à ta question concernant sa capacités à gérer de fortes volumétrie cela dépend totalement de la capacités mémoires du runtime et de la performance du SGBD. Donc par exemple si tu es sur un linux on premises bases Postgres tu vas avoir de gros soucis par rapport à un runtime déployé sur GCP qui attaque une base bigquery, mais la contrepartie sera alors le coup de requetage sur bigquery.
@soul67 8 месяцев назад
C'est un banger cette vidéo, MERCI !
@Davy016 8 месяцев назад
T'es le meilleur. Thks !
@YannManUtd 8 месяцев назад ⁺²
Merci beaucoup! J’adore vraiment le format. Juste curieux, pour la partir data Storage, pourquoi stores-tu les données en tant que flat files, au lieu de choisir une base de donnée e.g. sql server ?
@techmetothecloud 8 месяцев назад ⁺²
Je me permets de donner mon avis. S3 est probablement meilleur pour les raisons suivantes: permet de garder les donnes brutes au contraire d une BDD(schema on write), on parle d injecter 80TB par jour donc SQL server n est pas adapte pour ce type de scenario ( c est d ailleurs pour ca il choisit Snowflake entre autre)
@kouassirodrigueahoussou72 6 месяцев назад
Infiniment Merci pour la Video
@docteurcoincoin6216 8 месяцев назад
Cette vidéo est géniale !
@didjo94 8 месяцев назад
niveau data transformation on peut utiliser databricks aussi pour les gros volumes de donnée c'est nickel
@SM-vz1ek 2 месяца назад
super intéressant mais comment avoir cette culture business ?
@MaxTheKing289 8 месяцев назад
Super vidéo Willis est ce que tu aurais des ressources pour les entretiens de System Design mais pour ML Engineer
@azobensadio260 8 месяцев назад
Toujours concis et précis dans tes explications, un grand big up à toi 😉😉.Une question pourrais-tu nous faire une prez sur les BD Vectorielles et les cas d'usages? merci d'avance
@DataFromScratchWillis 8 месяцев назад
Merci pour le commentaire ! C'est noté !
@stefen_taime 8 месяцев назад
Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake
@akotchayebatcho1285 8 месяцев назад
Merci bcp Willis , je comprends mieux l'architecture data.
Quel est l'intérêt de faire une présentation à partir des données récupérées dans snowflake, vu que la transformation se fait avec dbt?
Merci.
@dhjgj1412 8 месяцев назад ⁺¹
Par présentation il veut dire visualisation.
Une fois les données nettoyé, il faut les présenter sous formes de graphiques afin d’aider à la prise de décision
@kidam901 16 дней назад
Mais si tu utilises Kafka pour l’ingestion, tu risques de stocker des données sales dans Snowflake, non ?
@DataFromScratchWillis 16 дней назад
Oui, tu stockes les données sur du S3 ou/et Snowflake pour la transformation
@kidam901 16 дней назад
@DataFromScratchWillis ah OK à ce stade même si le données sont brut c'est pas grave puisque c'est après que l'on peut faire la transformation. Merci 👌💪
@ruddynzita1540 8 месяцев назад
Du coup les données dans S3 vont être importées dans snowflake et c’est la qu’on utilisera dbt non?
@DataFromScratchWillis 8 месяцев назад
Oui, dbt servira à gérer la partie Transformation de l'ELT
@gaelguedia 8 месяцев назад ⁺¹
Pourquoi pas spark au lieu de dbt?
@dhjgj1412 8 месяцев назад
Ça rajouterait un layer en plus.
Vaut mieux utiliser la puissance du data warehouse pour faire les transformations
@stefen_taime 8 месяцев назад
Par contre je rajouterai trino en dessus de dbt pour interagir avec s3 ^^ à moins que dans ton airflow tu fais un COPY STAGE de s3 vers snowflake
@ruddynzita1540 8 месяцев назад ⁺¹
J’ai exactement la même question. On peut même les utiliser ensemble mais ils semblent presque inévitables d’utiliser du « compute distributed »
@dhjgj1412 8 месяцев назад
@@ruddynzita1540 le data warehouse est déjà un “compute distributed”

Следующие

Автовоспроизведение

Comment créer une architecture Data avec Databricks ? (Data Engineer System design interview)

Comment créer une architecture Data avec Databricks ? (Data Engineer System design interview)

Snowflake Architecture

Snowflake Architecture

Лукашенко не ожидал таких вопросов | Лайфхаки для студентов от Первого | Откровения Президента

Лукашенко не ожидал таких вопросов | Лайфхаки для студентов от Первого | Откровения Президента

Pittsburgh Steelers vs. Cleveland Browns Game Highlights | NFL 2024 Season Week 12

Pittsburgh Steelers vs. Cleveland Browns Game Highlights | NFL 2024 Season Week 12

HIGHLIGHTS | WALES V AUSTRALIA | AUTUMN NATIONS SERIES

HIGHLIGHTS | WALES V AUSTRALIA | AUTUMN NATIONS SERIES

A Minecraft Movie | Official Trailer

A Minecraft Movie | Official Trailer

WHAT HAPPENED TO TITAN TV MAN?!! - Skibidi Toilet Episode 77 Secret Scenes Analysis

WHAT HAPPENED TO TITAN TV MAN?!! - Skibidi Toilet Episode 77 Secret Scenes Analysis

Les 6 design patterns de Data Pipeline/ETL pour Data Engineer & Data Scientist

Les 6 design patterns de Data Pipeline/ETL pour Data Engineer & Data Scientist

Data Engineer vs Analytics Engineer vs Data Analyst : Quel métier choisir en 2025 ?

Data Engineer vs Analytics Engineer vs Data Analyst : Quel métier choisir en 2025 ?

Architecture Data 3/3 : le Lakehouse

Architecture Data 3/3 : le Lakehouse

Orchestrating Data Pipelines With Snowpark dbt Python Models And Airflow

Orchestrating Data Pipelines With Snowpark dbt Python Models And Airflow

Comment bâtir une équipe Data efficace ? Data Engineering Principles (partie 1)

Comment bâtir une équipe Data efficace ? Data Engineering Principles (partie 1)

Databricks vs Snowflake - Le match des TITANS

Databricks vs Snowflake - Le match des TITANS

Design a Fault Tolerant E-commerce System | System Design

Design a Fault Tolerant E-commerce System | System Design

Lakehouse vs Datawarehouse vs Datalake vs Base de données - Pourquoi est-ce important ?

Lakehouse vs Datawarehouse vs Datalake vs Base de données - Pourquoi est-ce important ?

Analyst to Analytics Engineer

Analyst to Analytics Engineer

BD556+ Smoke Silencer.Who needs this for Christmas? #toys #gelblasters #gelblasterguns #airsoft

BD556+ Smoke Silencer.Who needs this for Christmas? #toys #gelblasters #gelblasterguns #airsoft

Как советские танкисты обстреляли немецкий эсминец? #shorts #танки #история

Как советские танкисты обстреляли немецкий эсминец? #shorts #танки #история

Thank you Santa

Thank you Santa

▼ ОН ВЫБРАЛ МЕНЯ 🔪

▼ ОН ВЫБРАЛ МЕНЯ 🔪

Первый удар по Украине межконтинентальной ракетой? Что известно об атаке по Днепру

Первый удар по Украине межконтинентальной ракетой? Что известно об атаке по Днепру

Это правда автообзор ? 🥲#юмор #авто

Это правда автообзор ? 🥲#юмор #авто

ПОТЕРЯЛ СЕСТРУ 😱 СТРАННАЯ ПРОПАЖА ШКОЛЬНИКОВ 🤯 КАМИЛЬ НАКАЗАЛ ПРЕСТУПНИКА

ПОТЕРЯЛ СЕСТРУ 😱 СТРАННАЯ ПРОПАЖА ШКОЛЬНИКОВ 🤯 КАМИЛЬ НАКАЗАЛ ПРЕСТУПНИКА

Удар по Украине МБР «ОРЕШНИК». ШОКИРУЮЩЕЕ ВИДЕО атаки на Днепр!

Удар по Украине МБР «ОРЕШНИК». ШОКИРУЮЩЕЕ ВИДЕО атаки на Днепр!