En este vídeo, trataremos los conceptos básicos de agrupación y cómo esto puede
ayudar a transformar nuestro conjunto de datos. Supongamos que desea saber, ¿hay
alguna relación entre los diferentes tipos de sistema de tracción, delantera,
trasera y tracción en las cuatro ruedas, y el precio de los vehículos? En caso
afirmativo, ¿qué tipo de sistema de accionamiento aporta el mayor valor a un
vehículo? Sería bueno si pudiéramos agrupar todos los datos por los diferentes
tipos de ruedas motrices y comparar los resultados de estas diferentes ruedas
motrices entre sí. En Pandas, esto se puede hacer usando el grupo por método. El
grupo por método se utiliza en variables categóricas, agrupa los datos en
subconjuntos de acuerdo con las diferentes categorías de esa variable. Puede
agrupar por una sola variable o puede agruparse por varias variables pasando varios
nombres de variables. A modo de ejemplo, supongamos que estamos interesados en
encontrar el precio medio de los vehículos y observar cómo difieren entre
diferentes tipos de estilos de carrocería y variables de ruedas motrices. Para
hacer esto, primero seleccionamos las tres columnas de datos que nos interesan, que
se realiza en la primera línea de código. A continuación, agrupamos los datos
reducidos según las ruedas motrices y el estilo de la carrocería en la segunda
línea. Dado que estamos interesados en saber cómo difiere el precio medio en
general, podemos tomar la media de cada grupo y añadirla este bit al final de la
línea también. Los datos se agrupan ahora en subcategorías y solo se muestra el
precio medio de cada subcategoría. Podemos ver que, según nuestros datos, los
convertibles de tracción trasera y las tapas duras de tracción trasera tienen el
valor más alto, mientras que los hatchbacks de tracción en las cuatro ruedas tienen
el valor más bajo. Una tabla de este formulario no es la más fácil de leer y
tampoco muy fácil de visualizar. Para que sea más fácil de entender, podemos
transformar esta tabla en una tabla dinámica mediante el método pivot. En la tabla
anterior, tanto las ruedas motrices como el estilo de la carrocería eran columnas
de escucha. Una tabla dinámica tiene una variable mostrada a lo largo de las
columnas y la otra variable a lo largo de las filas. Solo con una línea de código y
utilizando el método pivote del Panda, podemos pivotar la variable de estilo de
cuerpo para que se muestre a lo largo de las columnas y las ruedas motrices se
mostrarán a lo largo de las filas. Los datos de precios ahora se convierten en una
cuadrícula rectangular, que es más fácil de visualizar. Esto es similar a lo que
normalmente se hace en las hojas de cálculo de Excel. Otra forma de representar la
tabla dinámica es usar una gráfica de mapa de calor. El mapa de calor toma una
cuadrícula rectangular de datos y asigna una intensidad de color basada en el valor
de los datos en los puntos de la cuadrícula. Es una gran manera de trazar la
variable objetivo sobre múltiples variables y a través de esto obtener pistas
visuales con la relación entre estas variables y el objetivo. En este ejemplo,
utilizamos el método de color p de pyplot para trazar el mapa de calor y convertir
la tabla dinámica anterior en una forma gráfica. Especificamos el esquema de color
rojo-azul. En la gráfica de salida, cada tipo de estilo de cuerpo se numerará a lo
largo del eje X y cada tipo de ruedas motrices se numerará a lo largo del eje Y.
Los precios medios se trazan con diferentes colores en función de sus valores. De
acuerdo con la barra de color, vemos que la sección superior del mapa de calor
parece tener precios más altos que la sección inferior.