Excelente vídeo Eric! Me parece genial la aclaración que haces de que en dbt solo se hacen testing básicos, como experiencia personal usando la herramienta con un equipo de trabajo grande y formal sí puedo confirmar tu comentario de que es importante que todo el equipo sepa usar git Y estaría súper interesante un video hablando más a fondo de testing para DE 👍
Yo lo uso principalmente para generar la documentación y las dags de las tablas/vistas que alimentan otras tablas/vistas. También para llevar un historial de versiones de los cambios de las vistas y a su vez compilar, y hacer deploy (run) de las vistas nuevas o modificadas a GCP solo con hacer un PR al repo que tiene todos los modelos
Hola Eric! Estaba buscando algun contenido sobre dbt en español y me encontré con tu video, muy informativo. Respecto a lo que planteas de dos proyectos uno con el sql y otro que lo use en cloud, en realidad podes usar el mismo proyecto porque el repositorio actua como una intersección. Podes tener algunos desarrolladores con conocimientos mas avanzados en programación, git, etc, aportando al proyecto de manera local y otros no tan familiarizados con VSCode, terminal y git, aportando desde la nube. Saludos!
Muchas gracias, esto ha sido muy util para entender lo que es DBT. Estoy postulando para un trabajo que me lo requiere que es muchisimo mas tecnico que mi trabajo actual como analista de datos, y tengo muchisimas ganas de aprender y entender todo. Por suerte no tengo que entender todo a la perfeccion, ya que es una posicion muy junior, pero si tengo que tener una idea para poder hacer bien las entrevistas. Voy a ver si tienes algun otro video que me pueda ir bien en tu canal :)
Podes fijarte los cursos de dbt learn, son en ingles pero cubren todos los conceptos básicos e incluso avanzados de manera gratuita. Con eso, y una cuenta de dbt cloud developer, que es gratis, podes aprender sobre el tema.
Perfecto... siempre que me conectaba a realizar algún análisis conectandome a un DataWarehouse era muy tedioso unir las tablas en pandas... creo que esto puede facilitar el análisis,..
Muy bien explicado! muy esencial tu canal y tus videos para todos los que queremos cambiar de carrera o realmente entender de manera real que esta pasando en la realidad de las companias con la ingenieria de datos! maravillloso
Respecto a tu duda del tema de saber git para los analistas y esas 'complicaciones', lo que hicimos nosotros (DE team) fue crear una web app que le permita a los analistas crear sus dbts dinamicamente con los parámetros que necesitan (vista, tabla, incremental, query, etc...)
Hola Eric, actualmente estoy estudiando python con orientación a Backend pero me llama la atención los datos crees q seria bueno comenzar por algo de data analyst en vez de ir directo al data engineer?
Gracias Eric!! considero que una solucion para que los analistas no usen git, sería que ellos trabajen en notebooks o bases de datos como qubole por ejemplo y los SRE o devops vean los permisos y los procesos mas con dbt asi como iac
Lo que pasa es que en ese caso no podes aprovechar realmente el conocimiento de los análistas, porque no está reporducible y dificil de trackear. La idea es que todos puedan colaborar en el mismo proyecto para capturar ese conocimiento
Muy bueno el video Eric! Consulta para el que ya lo haya pensado, porque no hacer la T del ETL directamente en SQL con vistas y listo? Es si pensamos en una solución escalable? Imagino que te debe permitir hacer transformaciones increméntales y no sobre todo el modelo de datos a la vez? Saludos!
Depende de tu necesidad. DBT te permite crear vistas y lo copado es que las podes versionar. En mi proyecto actual usamos BigQuery que te permite procesar todo con SQL. Todavia no tuvimos problemas que justifiquen cambiar a spark o algo por el estilo asi que seguiremos así por un buen tiempo
dude how r you, i have the next question, what could i do if i have a stream on snowflake that i want to "consume" in dbt but not creating a physical table or view, instead something live a ephemeral materialization, only to purge the stream and avoid to become stale. I create an ephemeral model and select the stream source but that only create obviously an ephemeral materialization but kind not clean the data on the stream, thoughts??
Pentaho es un orquestador principalmente y drag and drop. Las diferencias serian a nivel codigo, reproducibilidad, documentación, control de versiones, etc. Como explica Eric, dbt core te da un framework para ese desarrollo y dbt cloud es el producto SaaS que agrega el orquestador, dentro de otras cosas. Me imagino que también costo es un gran diferenciador, pero hace años que no veo Pentaho.
Gracias por el video! En rendimiento que seria más eficiente? Elt con dbt o etl con spark ? Hay un trade-off entre data simple y big data? Cual seria el motivo por el que dbt toma terreno? Con la vista de novato parece que las complicaciones de elt/dbt son la escalabilidad. La gente que hace las sentencias sql no suelen tener código limpio, bien comentado y termina siendo un chino? En ese caso sería arreglable a futuro! Perdón si fueron muchas preguntas jaj
Normalmente las personas que piensan que SQL no es código limpio y lo ve como chino por lo general son desarrolladores y no Data Engineer en realidad Por lógica básica se sabe que SQL siempre será más rápido, eficiente y escalable que intentar hacerlo con código (Spark por ejemplo) y más aún si utilizamos BD de alto rendimiento como BigQuery por ejemplo
Momento epico minuto 01:16 al 01:20 Se va transformar en transformaciónes para hacer transformaciones a nuestros datos??
Excelente vídeo Eric!
Me parece genial la aclaración que haces de que en dbt solo se hacen testing básicos, como experiencia personal usando la herramienta con un equipo de trabajo grande y formal sí puedo confirmar tu comentario de que es importante que todo el equipo sepa usar git
Y estaría súper interesante un video hablando más a fondo de testing para DE 👍
Yo lo uso principalmente para generar la documentación y las dags de las tablas/vistas que alimentan otras tablas/vistas. También para llevar un historial de versiones de los cambios de las vistas y a su vez compilar, y hacer deploy (run) de las vistas nuevas o modificadas a GCP solo con hacer un PR al repo que tiene todos los modelos
Hola Eric! Estaba buscando algun contenido sobre dbt en español y me encontré con tu video, muy informativo. Respecto a lo que planteas de dos proyectos uno con el sql y otro que lo use en cloud, en realidad podes usar el mismo proyecto porque el repositorio actua como una intersección. Podes tener algunos desarrolladores con conocimientos mas avanzados en programación, git, etc, aportando al proyecto de manera local y otros no tan familiarizados con VSCode, terminal y git, aportando desde la nube.
Saludos!
Muy buena opinión, son pocos los canales que comentan sobre estos temas en español. Gracias por ello :)
Gracias por tu mensaje ❤️
Muchas gracias, esto ha sido muy util para entender lo que es DBT. Estoy postulando para un trabajo que me lo requiere que es muchisimo mas tecnico que mi trabajo actual como analista de datos, y tengo muchisimas ganas de aprender y entender todo. Por suerte no tengo que entender todo a la perfeccion, ya que es una posicion muy junior, pero si tengo que tener una idea para poder hacer bien las entrevistas. Voy a ver si tienes algun otro video que me pueda ir bien en tu canal :)
Podes fijarte los cursos de dbt learn, son en ingles pero cubren todos los conceptos básicos e incluso avanzados de manera gratuita. Con eso, y una cuenta de dbt cloud developer, que es gratis, podes aprender sobre el tema.
Perfecto... siempre que me conectaba a realizar algún análisis conectandome a un DataWarehouse era muy tedioso unir las tablas en pandas... creo que esto puede facilitar el análisis,..
Muy bien explicado! muy esencial tu canal y tus videos para todos los que queremos cambiar de carrera o realmente entender de manera real que esta pasando en la realidad de las companias con la ingenieria de datos! maravillloso
Respecto a tu duda del tema de saber git para los analistas y esas 'complicaciones', lo que hicimos nosotros (DE team) fue crear una web app que le permita a los analistas crear sus dbts dinamicamente con los parámetros que necesitan (vista, tabla, incremental, query, etc...)
Lo pensé, sería algo parecido a lo que hace dbt cloud
Me hubiera encantado un ejemplo de dbt SAAS
Estas nuevas miniaturas son una chulada jaja. Buenísimas.
Gracias por estos videos Eric, se aprende mucho
Hola Eric, actualmente estoy estudiando python con orientación a Backend pero me llama la atención los datos crees q seria bueno comenzar por algo de data analyst en vez de ir directo al data engineer?
Gracias Eric!! considero que una solucion para que los analistas no usen git, sería que ellos trabajen en notebooks o bases de datos como qubole por ejemplo y los SRE o devops vean los permisos y los procesos mas con dbt asi como iac
Lo que pasa es que en ese caso no podes aprovechar realmente el conocimiento de los análistas, porque no está reporducible y dificil de trackear. La idea es que todos puedan colaborar en el mismo proyecto para capturar ese conocimiento
Muy bueno el video Eric! Consulta para el que ya lo haya pensado, porque no hacer la T del ETL directamente en SQL con vistas y listo? Es si pensamos en una solución escalable? Imagino que te debe permitir hacer transformaciones increméntales y no sobre todo el modelo de datos a la vez? Saludos!
Depende de tu necesidad. DBT te permite crear vistas y lo copado es que las podes versionar.
En mi proyecto actual usamos BigQuery que te permite procesar todo con SQL. Todavia no tuvimos problemas que justifiquen cambiar a spark o algo por el estilo asi que seguiremos así por un buen tiempo
dude how r you, i have the next question, what could i do if i have a stream on snowflake that i want to "consume" in dbt but not creating a physical table or view, instead something live a ephemeral materialization, only to purge the stream and avoid to become stale. I create an ephemeral model and select the stream source but that only create obviously an ephemeral materialization but kind not clean the data on the stream, thoughts??
You can create a custom materialization for streams, there's in fact a package that has one you can use
cuál es la ventaja o diferencia de usar DBT frente a Pentaho Data Integration?
Pentaho es un orquestador principalmente y drag and drop. Las diferencias serian a nivel codigo, reproducibilidad, documentación, control de versiones, etc.
Como explica Eric, dbt core te da un framework para ese desarrollo y dbt cloud es el producto SaaS que agrega el orquestador, dentro de otras cosas.
Me imagino que también costo es un gran diferenciador, pero hace años que no veo Pentaho.
Gracias por el video! En rendimiento que seria más eficiente? Elt con dbt o etl con spark ? Hay un trade-off entre data simple y big data?
Cual seria el motivo por el que dbt toma terreno?
Con la vista de novato parece que las complicaciones de elt/dbt son la escalabilidad. La gente que hace las sentencias sql no suelen tener código limpio, bien comentado y termina siendo un chino? En ese caso sería arreglable a futuro!
Perdón si fueron muchas preguntas jaj
@@jms2182 re interesante, gracias !
Normalmente las personas que piensan que SQL no es código limpio y lo ve como chino por lo general son desarrolladores y no Data Engineer en realidad
Por lógica básica se sabe que SQL siempre será más rápido, eficiente y escalable que intentar hacerlo con código (Spark por ejemplo) y más aún si utilizamos BD de alto rendimiento como BigQuery por ejemplo
Recomiendan algún curso de DBT?
los videos de dbt learn son gratuitos y cubren hasta temas avanzados, pero todo el contenido es en ingles
dbt la t d el elt, tete es de toto o se desteto toda tete?
Que hembra!
Eric te quiero pagar un cafecito pero si te lo mando por paypal tengo miedo que me venga buscar el BCRA 😅
BIRD UP
Que gran final secreto
@CodinEric sí jajaj saludos desde España
No me convence tanto