yo estoy trabajando de data analyst y practico con estos videos pero me pasa que a los meses me olvido de todo, ahora voy a hacer un esfuerzo fuerte para cambiarme a data engineering, ya casi voy 2.5 años de data analyst, supongo que es momento de que me tomen en serio, ya hago muchas cosas con SQL y azure data factory pero en python nada y me olvido
Hola Eric, soy nuevo en tu canal. Soy un analista de datos con intención de cambiar a ing. de datos con lo cual tus videos me estan resultando bastante educativos. Estaría bueno si armas algún video (así bien para bobos) en donde muestres como crear un ambiente (así a modo de sandbox) como para probar cosillas e ir adquiriendo cancha. Desde ya, te dejo ese buen like. Abrazo!
@@brandotcom6942 un ingeniero de datos prepara los datos (ETL), que pueden provenir de muchas fuentes, para que un analista los presente de manera más amigable y práctica para llegar a conclusiones sobre los mismos.
Me parece que poner de descripción que es una tarea Jr. Puede ser frustrante para muchos, son conceptos y tecnologías que lleva mucho tiempo dominarlas y haber estado en varios proyectos usandolas. Un Sr o experto del área es quien realmente puede más o menos saber como optimizar esto, a lo mucho ayudar al Jr brindándole que pasos seguir para que lo ayude en alguna etapa de este proceso.
Y eso, que para la realización de esos proyectos se usan bibliotecas en python, quiero decir, que aparte de aprender lo básico de python, se debe aprender a trabajar con estas bibliotecas lo cual no es fácil, por lo tanto hay que entrar a documentaciones o ver videos para ciertos proyectos personales también que realizamos.
Yo creo que mas alla de las cuestiones de automatizacion, partir de las bases de el procesamiento es lo mejor. Es decir, obviar procesos incesarios como el crontab
Primero que nada, gracias por compartir y excelente contenido. Me voy a animar a aprender bien Python. He trabajado con bases de datos relacionales por más de 4 años, y siempre he puesto peros a aprender algún lenguaje de programación bien, pero esto si está interesante!!
Ya soy programador, trabajo de web developer, pero hace un tiempo me viene llamando la atencion este campo de la Ingenieria de Datos. Para nosotros como latinoamericanos, es factible dedicarse a este rol?
Hola Eric recién te descubro, termine un cursito en RUclips de Python y estoy haciendo muchos ejercidos, todos los días. Pero al mirar este video encuentro el camino mucho mas largo de lo que pensaba. si bien logro entender ,mucho del código, entiendo que no se nada.. que camino me sugerís que recorra para obtener mas conocimiento?
Primero tenés que decidirte hacia donde querés ir. Si no tenes experiencia investiga sobre desarrollo web, front end, back end. El mundo de data. BI, científico de datos, ingeniero de datos. También devops, QA, seguridad. Una vez que tengas en claro que camino te llama búscate rutas de aprendizaje :)
buenardo! Justo aprendía los fundamentos de AWS para data engineer y que suerte tuve de encontrarme este video y conocer este canal!! Excelente contenido y comentarios!!
Que haces Eric, todo bien? Cuando decis de hacerlo por ID de usuario te referis a un dynamic task que corra en paralelo cada uno de ellos? Saludos y buen video!!
Existe el concepto de Dynamic Dags, Dynamic Tasks en airflow. Nunca lo hice a nivel task, se me ocurrio mientras grababa y no estoy 100% seguro que la implementación sea feliz pero haciendo un google rápido hay articulos sobre el tema asi que podria ser un interesante video 😏
@@CodinEric Exacto, a eso me refería. Desconozco si funciona de la misma manera cuando se le pega a un API, pero por lo menos a nivel de variables de entorno va perfecto. Saludos!
Hola Vengo a decir: Por favor Eric mostrame como se hace con Airflow y docke compose!!. Gracias , muy buen video. Consulta: cuando decís "paralelizar por usuarios en Airflow", que cantidad correrían al mismo tiempo?
Pregunta, entiendo que en un principio tomaba 8 horas en terminar este proceso. Pero ahora con esta nueva funcionalidad optimizada toma 1 hora en terminar el proceso. Asumo que el tiempo se reduce con el mismo poder de computo, es correcto?
Me parece que es para Sr. Muchas de estas tecnologías se aprenden en en el mundo profesional, son varios años dominar bien python, consumo de APIs, entender entorno cloud y flujos de trabajo.
Vengo del mundo de Power BI + SQL, haciendo cursos de Data Science con Python donde consumi apis, etc.. tentado y dubitativo sobre entrar a data eng o seguir con data science. No entendí nada del video xD
Gracias por el video. Casi siempre el objetivo de mejora inmediata es: +Paralelización = -Tiempo ? En otro caso real (y mas grande), hay que preocuparse por excederse en la paralelización consumiendo recursos demás ? En este caso, otra forma de paralelizar (sin airflow) puede ser crear un batch de X usuarios por país y a medida que ejecute el ETL y consiga 10 usuarios, con otro .py, ejecute el get_movements() con el batch (buscando que se ejecute varias veces con varios batchs al mismo tiempo y evitando esperar que termine el load para empezar a ejecutar)? o no se vería mejora en ese caso Muchas preguntas para responder gratis? jajaj
Podemos estar semanas hablando de optimización. Está bien escrito el código? Tiene sentido paralelizar o capaz que dandole un poco mas de ram/cpu se arregla y el costo capaz que es minimo contra hacer todo un refactor. Lo que decis de los usuarios es correcto. Hace un tiempo habia hecho una charla de optimización para un etl de mas de 5 mil tareas que debian correr a la vez, tal vez saque un video del tema en un futuro lejano 😅
yo estoy trabajando de data analyst y practico con estos videos pero me pasa que a los meses me olvido de todo, ahora voy a hacer un esfuerzo fuerte para cambiarme a data engineering, ya casi voy 2.5 años de data analyst, supongo que es momento de que me tomen en serio, ya hago muchas cosas con SQL y azure data factory pero en python nada y me olvido
Hola Eric, soy nuevo en tu canal. Soy un analista de datos con intención de cambiar a ing. de datos con lo cual tus videos me estan resultando bastante educativos.
Estaría bueno si armas algún video (así bien para bobos) en donde muestres como crear un ambiente (así a modo de sandbox) como para probar cosillas e ir adquiriendo cancha.
Desde ya, te dejo ese buen like.
Abrazo!
Apoyo la ideaaaa Eric! Nos ayudaria muchisimo!
Analista a ingeniero, cual seria la diferencia a grandes rasgos
@@brandotcom6942 un ingeniero de datos prepara los datos (ETL), que pueden provenir de muchas fuentes, para que un analista los presente de manera más amigable y práctica para llegar a conclusiones sobre los mismos.
Dale @CodinEri que crack!! Queremos ver más de airflow yo soy de los que sufre con chrontab jajaja!! con docker!! crack!!
Próximamente 🥰
Por favor, Eric. Enseñanos con airflow y con/sin docker compose
Ya viste la serie que tengo?
Me parece que poner de descripción que es una tarea Jr. Puede ser frustrante para muchos, son conceptos y tecnologías que lleva mucho tiempo dominarlas y haber estado en varios proyectos usandolas. Un Sr o experto del área es quien realmente puede más o menos saber como optimizar esto, a lo mucho ayudar al Jr brindándole que pasos seguir para que lo ayude en alguna etapa de este proceso.
Tu comentario me consuela!. Gracias
Y eso, que para la realización de esos proyectos se usan bibliotecas en python, quiero decir, que aparte de aprender lo básico de python, se debe aprender a trabajar con estas bibliotecas lo cual no es fácil, por lo tanto hay que entrar a documentaciones o ver videos para ciertos proyectos personales también que realizamos.
De ser asi entonces CodinEric es un fraude! quiere asustarnos para disminuir la competencia en su campo!
Yo creo que mas alla de las cuestiones de automatizacion, partir de las bases de el procesamiento es lo mejor. Es decir, obviar procesos incesarios como el crontab
Puedes ejecutarlo en paralelo con threading.Thread
Viendo vídeo súper útiles de codinEric. Se me ocurre seguir el cambio de un producto
Primero que nada, gracias por compartir y excelente contenido. Me voy a animar a aprender bien Python. He trabajado con bases de datos relacionales por más de 4 años, y siempre he puesto peros a aprender algún lenguaje de programación bien, pero esto si está interesante!!
Hola Eric del presente, gracias por existir :)
Ya soy programador, trabajo de web developer, pero hace un tiempo me viene llamando la atencion este campo de la Ingenieria de Datos. Para nosotros como latinoamericanos, es factible dedicarse a este rol?
Excelente video, creá mas de estos porfavor!!
Saludos desde Colombia 😁👍
Yeay! Acordate de la me gusteada y la compartida ❤
Hola Eric recién te descubro, termine un cursito en RUclips de Python y estoy haciendo muchos ejercidos, todos los días. Pero al mirar este video encuentro el camino mucho mas largo de lo que pensaba. si bien logro entender ,mucho del código, entiendo que no se nada.. que camino me sugerís que recorra para obtener mas conocimiento?
Primero tenés que decidirte hacia donde querés ir. Si no tenes experiencia investiga sobre desarrollo web, front end, back end. El mundo de data. BI, científico de datos, ingeniero de datos. También devops, QA, seguridad.
Una vez que tengas en claro que camino te llama búscate rutas de aprendizaje :)
buenísimo, crack!
buenardo! Justo aprendía los fundamentos de AWS para data engineer y que suerte tuve de encontrarme este video y conocer este canal!!
Excelente contenido y comentarios!!
me gusto esa palabra "automagicamente"
soy nuevo, pero mucho y estos videos me ayudan mucho
me alegro que te sirvan 🥰
Acabo de descubrir tu canal, encontré oro! Ahora a esperar el vídeo con Docker Compose 😉. Un saludo!
Pronto vendra 😌
Que haces Eric, todo bien?
Cuando decis de hacerlo por ID de usuario te referis a un dynamic task que corra en paralelo cada uno de ellos? Saludos y buen video!!
Existe el concepto de Dynamic Dags, Dynamic Tasks en airflow. Nunca lo hice a nivel task, se me ocurrio mientras grababa y no estoy 100% seguro que la implementación sea feliz pero haciendo un google rápido hay articulos sobre el tema asi que podria ser un interesante video 😏
@@CodinEric Exacto, a eso me refería. Desconozco si funciona de la misma manera cuando se le pega a un API, pero por lo menos a nivel de variables de entorno va perfecto. Saludos!
@@iwearbeard Con la API no hay problema, a lo sumo es problema del que la creo que se aguante las 70k request de una pero incluso no es tanto
Pregunta Eric, tenes la continuacion de esto haciendolo con airflow? No la encuentro en tu canal je.
Creo que no lo hice pero hice muchos otros vídeos con Airflow y cositas lindas :)
Se podria incluir multiprocessing de python... que opinas?
Este proceso se podria realizar o agilizar con airbyte?
buscando q es airflow porq ni idea de q es eso
Codin, podrá ser algún video de Hadoop Hive y Spark?
Hadoop se pide pero no es algo que creo que sea tan interesante como Hive y Spark. Spark lo tengo en el backlog 😏
Se puede ver el código?
el discord ya no funciona
En mi computadora andaba 🫣
El link anda, sino fíjate el último link pero creo que te va a llevar al mismo invite
Hola Vengo a decir: Por favor Eric mostrame como se hace con Airflow y docke compose!!. Gracias , muy buen video.
Consulta: cuando decís "paralelizar por usuarios en Airflow", que cantidad correrían al mismo tiempo?
Está en el backlog, pronto vendrá
Pregunta, entiendo que en un principio tomaba 8 horas en terminar este proceso. Pero ahora con esta nueva funcionalidad optimizada toma 1 hora en terminar el proceso. Asumo que el tiempo se reduce con el mismo poder de computo, es correcto?
El secreto está en como se optimiza haciendo el proceso en paralelo
@@CodinEric 🤯
Revele esos secretos de magia negra a nosotros los terrenales, gran maestro.
con multiprocessing
esto es para jr? :(
Seria una buena entrevista técnica aunque le faltaria un poco de sql
Me parece que es para Sr. Muchas de estas tecnologías se aprenden en en el mundo profesional, son varios años dominar bien python, consumo de APIs, entender entorno cloud y flujos de trabajo.
Entiendo todo pero no entiendo nada
Vengo del mundo de Power BI + SQL, haciendo cursos de Data Science con Python donde consumi apis, etc.. tentado y dubitativo sobre entrar a data eng o seguir con data science.
No entendí nada del video xD
Gracias por el video.
Casi siempre el objetivo de mejora inmediata es: +Paralelización = -Tiempo ?
En otro caso real (y mas grande), hay que preocuparse por excederse en la paralelización consumiendo recursos demás ?
En este caso, otra forma de paralelizar (sin airflow) puede ser crear un batch de X usuarios por país y a medida que ejecute el ETL y consiga 10 usuarios, con otro .py, ejecute el get_movements() con el batch (buscando que se ejecute varias veces con varios batchs al mismo tiempo y evitando esperar que termine el load para empezar a ejecutar)? o no se vería mejora en ese caso
Muchas preguntas para responder gratis? jajaj
Podemos estar semanas hablando de optimización. Está bien escrito el código? Tiene sentido paralelizar o capaz que dandole un poco mas de ram/cpu se arregla y el costo capaz que es minimo contra hacer todo un refactor.
Lo que decis de los usuarios es correcto. Hace un tiempo habia hecho una charla de optimización para un etl de mas de 5 mil tareas que debian correr a la vez, tal vez saque un video del tema en un futuro lejano 😅
Buen video pero esto No es para un JR, es para personas que ya tengan conocimientos avanzados y ya con experiencia.
Jajajajajaja
primer comentario...!! XD
segundo (?
La vrd me frustre un poco :( será como motivación para seguir esforzándome
Vos podés :)
Qué tal ego que tienes tío
El menos argentino
Por favor, Eric. Enseñanos con airflow y con/sin docker compose
ya hay videos anteriores de airflow