Agrupar datos |Groupby | Pandas | Python | Por petición

Поделиться
HTML-код
  • Опубликовано: 24 окт 2024

Комментарии • 78

  • @cctmexico
    @cctmexico  6 лет назад +7

    Por si tienen prisa, aquí les dejamos el minuto a minuto dónde contestamos las preguntas, con la información de la base de datos:
    3:30 - 8:22 ¿Cuál es la máxima duración de una película?
    8:24 - 17:38 Uso de Groupby / Comparar el número de likes por género de película
    Comprobación de los resultados con la hoja de cálculo
    17:57 - 21:31 ¿Cuánto presupuesto gastan los directores de cine?
    21:46 - 24:44 ¿Cuál es el género que gasta más dinero?
    Comprobación de los resultados con la hoja de cálculo
    24:51 ¿Cuál es el actor principal que atrae más ganancias?

  • @franciscolabram
    @franciscolabram 2 года назад +1

    desde las 10 a las 0:58 peleando , mirando libros y entre a tu canal y me funciono ! arreglaste mi problema en 5 min !!! muchas gracias !

  • @marcobroca4020
    @marcobroca4020 3 года назад +2

    Just wow! Muy intuitivo, me ayudó a por fin entender groupby. Gracias :)

  • @JoseLuis-to1iy
    @JoseLuis-to1iy Год назад +2

    Excelente Video Formulas sum 6:39 ----- groupby 9:15

  • @miltonSeitzinger
    @miltonSeitzinger 6 лет назад +9

    Buenas , una pregunta el ¿"idxmax" funciona lo mismo que "max()" pero con la diferencia que te trae el id? y hoy 28/04 el "get_value()" me dice get_value está en desuso y se eliminará en una versión futura, por lo tanto de la misma manera funciona usando "print(df.at[(df['duration'].idxmax(),'movie_title')])" el metodo at[]. Muchas gracias por los videos estan muy buenos, especialmente los de machines-learning espero que puedan subir mas..Saludos desde Argentina.

    • @cctmexico
      @cctmexico  6 лет назад +3

      Así es el idmax, devuelve como resultado el índice, muchas gracias a tí por vernos nos encanta saber que los vídeos les son de utilidad! Muchos saludos hasta la bellísima Argentina! (P.D. Estamos por subir otro vídeo de Machine Learning!)

    • @Jesus-Baez
      @Jesus-Baez 2 года назад

      Gracias por tu aporte bro, estaba atorado en esa parte

    • @slacex
      @slacex Год назад

      muchas gracias por el aporte!"!!

  • @damianomarsilva3233
    @damianomarsilva3233 4 года назад +1

    Lo tuyo es fantástico, que buenos ejemplos y que bien explicados; sos una gran ayuda.
    Consulta: ¿tenés algún tutorial de preprocesamiento de datos? (media, mediana, eliminación de valores atípicos, distribuciones, etc, etc), con todos esos datos "juntos", a modo de guía para encarar un trabajo de limpieza de datos antes de modelar'
    Muchas gracias.

    • @cctmexico
      @cctmexico  4 года назад

      ¡Muchas gracias por tan bonito comentario, ^_^ y por vernos, muchos saludos! Tenemos este vídeo, tal vez podría ser de utilidad como un inicio :)
      ruclips.net/video/DRYV0H8-pf8/видео.html

  • @danielrico3352
    @danielrico3352 2 года назад +1

    Gran video! Yo estoy practicando con un dataframe de kaggle solo que me surgió una duda. ¿Cómo podría agrupar tres variables, en donde, una de ellas seleccione un valor en específico. Lo que hice primero, fue crear un rango de edades dentro de la variable RIGAGEYR. Después, quiero seleccionar solo a las mujeres designadas como 2.
    En el código siguiente imprime el rango de edades, el género (RIAGENDR, 1 => hombre, 2 => mujer) y el estado civil (DMDMARTL) designado como variable categórica(1 => casado(a), 2=> vuido(a), etc.), al final indica cuántas personas se encuentran en los diferentes estado civiles según el rango de edad.
    da["agegrp"] = pd.cut(da.RIDAGEYR, [20, 30, 40, 50, 60, 70, 80])
    da.groupby(["agegrp", "RIAGENDR"])["DMDMARTL"].value_counts()
    ¿Cómo podría seleccionar solo a las mujeres (2)? Intenté:
    da.groupby(["agegrp", ["RIAGENDR"] == 2)]["DMDMARTL"].value_counts() pero no me corre.

  • @jantolines77
    @jantolines77 4 года назад +2

    Muchas gracias por tud videos me han servido un monton, en especial estos de Pandas. Queria preguntarte ya que no encuentro por ningun lado. TIenes algun video donde expliques en pandas como se pueden cruzar dos dataframe con Merge? No he podido conseguir un buen tutorial como los que tu haces. Te agradezco muchisimo.

    • @cctmexico
      @cctmexico  4 года назад +1

      Muchísimas gracias por tan amable comentario, no aún no tenemos un vídeo con ese tema, con mucho gusto lo anotamos como #petición

  • @malvis8737
    @malvis8737 Год назад

    com sacarias el nombre GORE VERBISNSKI Y lo colocarias en una columna nueva pero sin cambiar de fila, seguiria en la fila 15 . como harias eso ?

  • @dj.8704
    @dj.8704 3 года назад +1

    excelente video me ayudo mucho

  • @jairdominguez8869
    @jairdominguez8869 4 года назад +1

    Hola, gracias por tus videos, son muy buenos, me han ayudado mucho con mis tareas. Una pregunta, por ejemplo para la pregunta "¿Cuánto presupuesto gastan los directores de cine?" si en vez de sumarlas, usara .max(), ¿Cómo prodría hacer para que me apareciera todo el renglón correspondiente al maximo de dinero gastado por cada director? y no solo el director y su maximo gastado.
    Gracias

    • @cctmexico
      @cctmexico  4 года назад

      ¡Es muy interesante la pregunta con gusto lo anotamos como #petición para trabajar en un vídeo de ese tema!

  • @germanslobo
    @germanslobo 4 года назад +1

    Gracias por tus videos y educación. Si quiero hacer un groupby pero especificando un valor especifico, por ejemplo
    df=groupby(['lugar']) y lugar = "miami" , como hago?. Muchas gracias

    • @cctmexico
      @cctmexico  4 года назад

      ¿Sería como un filtro para todo el dataframe?
      df1 = df[df['lugar'] == 'miami']

  • @federicociolfi1832
    @federicociolfi1832 6 лет назад +1

    Muchas gracias, estoy comenzando por este camino de la programación y son videos muy valiosos. Quería consultarles si se les ocurre como crear un bucle for que me agrupe en sub DataFrames un DatraFrame. Saludos!

    • @cctmexico
      @cctmexico  6 лет назад

      Nos encontramos esta información que te podría ser de utilidad: stackoverflow.com/questions/47054318/grouping-pandas-dataframe-and-collecting-multiple-values-into-sets

    • @federicociolfi1832
      @federicociolfi1832 6 лет назад +1

      Muchas gracias por la respuesta!

    • @cctmexico
      @cctmexico  6 лет назад

      ¡De nada! Saludos ^_^

  • @anabearteaga
    @anabearteaga 3 года назад

    Hola! me ha sido muy útil este video, pero tengo una duda, resulta que tengo una base de datos en csv, de coordenadas X, Y y Z, son 90mil filas, las agrupé de 40 en 40 (total de 2299 grupos de 40 filas cada uno) para poder obtener una matriz con el Z mínimo por grupo, con este video pude hacerlo, pero ahora necesito que el programa me entregue la coordenada X e Y correspondiente a ese Z mínimo dentro de la misma matriz, solo que ahora pasaría a tener 3 columnas en vez de solo 1, como haría algo así? (para hacer los grupos lo que hice fue insertar una columna y a los primeros 40 les puse el numero 1, a los siguientes 40 el 2 y así hasta completarlos todos (claro que lo hice con una formula porque sino no habría terminado nunca)).

  • @MarisolRamos-1971
    @MarisolRamos-1971 6 лет назад +1

    Gracias...me encanto el video de hoy. Les puedo pedir un favor pueden enseñar hacer juegos utilizando la libreria Pygame :) . Saludos desde Chile. Un fuerte abrazo.

    • @cctmexico
      @cctmexico  6 лет назад +1

      ¡Muchas gracias por dejarnos tu amable comentario estimada Marisol! Si, ya estamos revisando esa librería y próximamente también subiremos vídeos con Pygame ¡Un fuerte abrazo hasta Chile!

    • @MarisolRamos-1971
      @MarisolRamos-1971 6 лет назад +1

      cctmexico Gracias estare super atenta. :) abrazos.

    • @cctmexico
      @cctmexico  6 лет назад +1

      ¡De nada Marisol, ^_^ Saludos!

  • @jaimehurtadogonzalez2800
    @jaimehurtadogonzalez2800 2 года назад

    Hola, buen video, me salta una duda, organizo los elementos de mi .csv siguiendo tu archivo y ahora quiero organizar esos elementos agrupados en una nueva carpeta y mover tales archivos, como podría hacerlo?

  • @miguelangeldiazoviedo9523
    @miguelangeldiazoviedo9523 2 года назад

    Hola una pregunta, si descargo múltiples datos de símbolos de yfinance como añado una columna de 'returns' agrupada por los simbolos?. gracias

    • @cctmexico
      @cctmexico  2 года назад

      Hola, este vídeo te podría ser de utilidad: ruclips.net/video/JWuqL3kNxqg/видео.html

  • @rubengarcia-xt9qe
    @rubengarcia-xt9qe 2 года назад

    una pregunta, el group by te devuelve una estructura donde si tienes dos columnas, queda como un solo array...como separo las columnas?

    • @cctmexico
      @cctmexico  2 года назад

      Puede ser algo similar a value counts: ruclips.net/video/8Zq8BEhug1k/видео.html
      Y si necesitas trabajar con arreglos y seleccionar partes:
      ruclips.net/video/Ri50uTlEUys/видео.html

  • @apizaful
    @apizaful 4 года назад +1

    hola, muchas gracias por el tutorial. se aprende mucho.
    tengo una duda, al darle la instrucción de imprimir df1 me arroja esto:
    cómo puedo hacer para que me lo muestre en formato de tabla?

    • @cctmexico
      @cctmexico  4 года назад

      ¡Hola, muchas gracias por el amable comentario! ¿En qué minuto sería la pregunta?

    • @apizaful
      @apizaful 4 года назад

      ​@@cctmexico, hola, disculpa, me precipité a hacer la pregunta ya que me faltaba ponerle paréntesis a la función, ya lo pude ejecutar correctamente y he podido hacerlo aplicando varios criterios en la misma instrucción, como por ejemplo ​agrupar y acumular. Aprovecho para preguntarte si en alguno de tus vídeos aparece la explicación de cómo generar un dataframe a partir de datos almacenados en arrays de numpy?
      gracias y saludos

  • @johannhmartinez8550
    @johannhmartinez8550 3 года назад

    Hola. Pregunta sencilla. ¿Cuál es la diferencia entre groupby() y un filtro? Gracias.

    • @cctmexico
      @cctmexico  3 года назад +1

      Con groupby se pueden hacer agrupaciones más específicas por ejemplo en las fechas, el filtro podría ser para una primera separación de datos.

  • @emsg24161
    @emsg24161 6 лет назад +1

    Excelente canal, gracias

    • @cctmexico
      @cctmexico  6 лет назад

      ¡Muchas gracias a tí, por dejarnos tan amable comentario y por vernos! ^_^

  • @LordYGameplay
    @LordYGameplay 6 лет назад +1

    hola, no se si aun sigues respondiendo preguntas, pero que tal si quiero obtener todos los datos de las peliculas que tengan el mismo genero, por ejemplo, ¿cuantas peliculas tienen el horror?, o imprime todos los datos que contengan genero horror

    • @cctmexico
      @cctmexico  6 лет назад

      Hola! Para seleccionar las películas que cumplan con alguna condición puedes utilizar algo cómo esto: df.loc[df['column_name'] == some_value]
      Para el número de películas que tienen el género horror, se puede usar algo cómo esto: df['a'].value_counts()

  • @edgar9147
    @edgar9147 6 лет назад +1

    Hola, podrian realizar un video sobre regresion lineal y multiple en Phyton?
    por favor :(, buen canal!! nuevo sub :D

    • @cctmexico
      @cctmexico  6 лет назад

      ¡Muchas gracias por dejarnos tu amable comentario! (Y por suscribirte ^_^ ) Aquí tenemos un vídeo que te puede ser de utilidad, nos dices si ocupas algo adicional (puede ser la parte de la regresión múltiple, la que falte) Saludos!
      ruclips.net/video/yP-7Hhqngbo/видео.html

  • @gecera1
    @gecera1 6 лет назад +1

    Hola, muchas gracias por su video, podrían ayudarme a hacer lo mismo, pero considerando 2 columnas. Suponiendo, tenemos 3 columnas, Depto, Cuenta y Total, cómo puedo obtener una tabla que me dé el total de cada cuenta agrupado por Depto. Muchas gracias. Saludos

    • @gecera1
      @gecera1 6 лет назад +1

      Ya logré hacer el agrupamiento, pero no puedo guardar esa tabla resultante en csv ☹️

    • @cctmexico
      @cctmexico  6 лет назад

      Este vídeo te puede ayudar: ruclips.net/video/aw1MrpAhKSc/видео.html

    • @gecera1
      @gecera1 6 лет назад +1

      cctmexico muchas gracias

    • @cctmexico
      @cctmexico  6 лет назад

      De nada ^_^

  • @albertopenalver1435
    @albertopenalver1435 4 года назад

    Y si quisiéramos conocer el presupuesto por tipo de película. Pero por rangos. Es decir tengo la categoría acción pero de una a otra puede generar un rango de presupuesto que tal q si quisiéramos conocer ese rango para luego generar un análisis abc

    • @cctmexico
      @cctmexico  4 года назад

      Este vídeo, podría ser de utilidad: ruclips.net/video/ZXcaz9q2JDg/видео.html

  • @albertomontes1994
    @albertomontes1994 4 года назад

    Hola buenas,
    cuando hago :
    id_max = df['Runtime (Minutes)'].idxmax()
    print(df.get_value(id_max,'Title'))
    me dice AttributeError: 'DataFrame' object has no attribute 'get_value'
    ¿Por qué ocurre?
    Graciassss

    • @cctmexico
      @cctmexico  4 года назад +2

      Esta pregunta de Stackoverflow tiene un ejemplo similar: stackoverflow.com/questions/60516579/dataframe-object-has-no-attribute-get-value-in-pandas

    • @seprhir
      @seprhir 4 года назад +3

      print(df.loc[df['duration'].idxmax(),'movie_title'])

  • @Alejandro-ky7mi
    @Alejandro-ky7mi 4 года назад

    Hola buenas, al poner:
    --> print(df.get_value(df['duration'].idmax(),'movie_title'))
    que está en el minuto 7:41 me sale el siguiente error:
    --> AttributeError: 'DataFrame' object has no attribute 'get_value'.
    ¿A qué puede deberse? Muchas gracias

    • @cctmexico
      @cctmexico  4 года назад

      Tal vez un error de dedo, podrías checar si no se fue algún signo en tú codigo, si no puedes hacer tu pregunta (e incluir el código, si así lo deseas) en stackoverflow.com es completamente gratis, responden muy rápido y tienes la opción de preguntar en Inglés o Español, seguro te ayudarán con ese problema. También aquí te dejamos un vídeo, que te puede servir como guía, para agregar tu pregunta: ruclips.net/video/X46F2-OxxqY/видео.html

    • @cristianjuliandalcin7409
      @cristianjuliandalcin7409 4 года назад +3

      Hola!
      print(df.at[df['duration'].idxmax(), 'movie_title'])

    • @7Raimundo7
      @7Raimundo7 4 года назад

      DataFrame.at
      Access a single value for a row/column label pair.
      DataFrame.loc
      Access a group of rows and columns by label(s).
      DataFrame.iloc
      Access a group of rows and columns by integer position(s).

  • @slacex
    @slacex Год назад +1

    si no resulta es porque se debe cambiar duration por Runtime (Minutes)

  • @hernanz8598
    @hernanz8598 4 года назад

    Y si lo que quiero es que me muestre todas las películas, exceptuando las de ciencia ficcion?? (Osea obviar algunas filas del archivo csv)

  • @yopuesquienmas9149
    @yopuesquienmas9149 Год назад

    hola, que paso si ya no aparece el df.get_value?

    • @alonsopg931
      @alonsopg931 Год назад

      ahora se escribe df._get_value con guión bajo antes del get

  • @andreabulnes6729
    @andreabulnes6729 4 года назад

    De donde salio la variable Gross?
    como la calcularon?

  • @andres1guerrero965
    @andres1guerrero965 4 года назад

    Excelente

  • @lllIIl
    @lllIIl 2 года назад

    Como puedo poner dos columnas y no solo una ?

  • @victor-uv1dt
    @victor-uv1dt 6 лет назад +1

    Hola contesta me encanta tu canal XD mañana que vas a subir o otro dia

    • @cctmexico
      @cctmexico  6 лет назад

      Vamos a subir un vídeo de gráficas con Pandas ^_^ ¡Saludos!

  • @ruddyivanclarosfernandez8526
    @ruddyivanclarosfernandez8526 3 года назад

    A 2021 sigue en uso get_value() ??????

    • @cctmexico
      @cctmexico  3 года назад

      Ya esta "Deprecated" es decir ya no se usa:
      pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.get_value.html
      Si quieres checar tu versión de pandas puedes usar estas líneas:
      import pandas as pd
      print( pd.__version__ )

  • @maesema
    @maesema 5 лет назад

    quisiera saber como usar un grupo para hacer predicciones :(

    • @cctmexico
      @cctmexico  5 лет назад

      Puedes crear un dataframe a partir de tu agrupación, y usarlo con el módulo de Machine Learning:
      puedes probar algo similar a: df2 = df1.groupby(["Nombre", "Ciudad"], as_index=False).count()

  • @williammoran3921
    @williammoran3921 4 года назад

    Horas: 3.183333333333333
    La pelicula que dura mas es:
    828
    Grindhouse
    Los nombres del cabezal han cambiado y al parecer los datos tbm alguien me puede comfirmas estos valores de los primero comandos

  • @smoust912
    @smoust912 4 года назад

    Como hago un top 10 o top 5 mas like

    • @cctmexico
      @cctmexico  4 года назад

      En este video lo hacemos, revisa el primer comentario para que cheques en que minuto esta la instrucción: ruclips.net/video/nLE7EBiOR-0/видео.html

    • @barbaragonzalez1888
      @barbaragonzalez1888 4 года назад

      @@cctmexico esta en ingles:( ya no usariamos .group?