Presentación en la que se dé a conocer los tipos de gráficos y su función en el análisis de datos.
Evidencia AA3-EV03
Aprendiz
Kevin Daniel Riascos Murillo
Ficha: 3109956
Instructor Técnico
Libardo Gomez Diaz
Servicio Nacional de Aprendiza –
SENA Centro de Diseño y Metrología
ANALISIS EXPLORATORIO DE DATOS EN PYTHON.
Bogotá, D.C
Noviembre del 2024
Aprendiz
Kevin Daniel Riascos Murillo
Ficha: 3109956
Instructor Técnico
Libardo Gomez Diaz
Servicio Nacional de Aprendiza –
SENA Centro de Diseño y Metrología
ANALISIS EXPLORATORIO DE DATOS EN PYTHON.
Bogotá, D.C
Noviembre del 2024
1
INTRODUCCIÓN
LOS GRÁFICOS Y DIAGRAMAS SON HERRAMIENTAS
PODEROSAS DE VISUALIZACIÓN DE DATOS QUE NOS
PERMITEN INTERPRETAR Y COMUNICAR INFORMACIÓN DE
MANERA CLARA Y EFECTIVA. EN PARTICULAR, LOS
DIAGRAMAS DE BARRAS, HISTOGRAMAS DE FRECUENCIA,
GRÁFICOS DE TORTA, Y GRÁFICOS DE CAJA Y BIGOTES
SON ALGUNOS DE LOS MÁS UTILIZADOS PARA EXPLORAR
Y PRESENTAR CONJUNTOS DE DATOS. CADA UNO DE
ESTOS GRÁFICOS TIENE CARACTERÍSTICAS ÚNICAS Y ES
MÁS ADECUADO PARA DIFERENTES TIPOS DE DATOS Y
OBJETIVOS DE ANÁLISIS. YA SEA QUE SE TRATE DE
COMPARAR CATEGORÍAS, OBSERVAR DISTRIBUCIONES DE
DATOS O RESALTAR PATRONES, LOS GRÁFICOS FACILITAN
UNA COMPRENSIÓN RÁPIDA Y VISUAL DE LA
INFORMACIÓN COMPLEJA.
GRÁFICO DE
DISPERSIÓN O
SCATTER PLOT.
El gráfico de dispersión se utiliza principalmente para visualizar
la relación entre dos variables numéricas. Se coloca una
variable en el eje X (horizontal) y la otra en el eje Y (vertical), y
cada punto en el gráfico representa un par de valores de esas
dos variables.
scatter(x, y): Dibuja un gráfico de dispersión, donde:x representa
los valores del eje X (en este caso, el área del terreno).y
representa los valores del eje Y (en este caso, el
precio).color='green': Cambia el color de los puntos del
grá[Link]=0.6: Configura la transparencia de los puntos para
ver más claramente los puntos que se
[Link]='w': Añade bordes blancos a los
puntos.s=50: Establece el tamaño de los puntos .
df = [Link]({ 'Precio':
[Link](50_000_000, 1_000_000_000,
size=1000), 'Área del Terreno':
[Link](50, 5000,
size=1000) })[Link](figsize=(10,
6))[Link](df['Área del Terreno'], df['Precio'],
3
color='green', alpha=0.6, edgecolors='w',
s=50)[Link]('Relación entre Precio y Área del Terreno',
GRÁFICO DE CAJA
BIGOTES (BOXPLOT)
Es una visualización estadística que se utiliza para mostrar la
distribución de un conjunto de datos, resumiendo sus
características principales. Este gráfico es muy útil para identificar
rápidamente características clave de la distribución, como la
mediana, los cuartiles y los valores atípicos.
vert=False: Configura el gráfico para que sea horizontal. Si lo
deseas vertical, puedes poner vert=True.patch_artist=True:
Colorea las cajas del grá[Link]=True: Añade una muesca
(notch) al gráfico para visualizar la mediana con mayor
[Link]: Define los colores de las cajas (en este caso, se
usa un color azul claro).flierprops: Define cómo se muestran los
valores atípicos (en este caso, con círculos rojos).
df = [Link]({ 'Precio':
[Link](50_000_000, 1_000_000_000,
size=1000) })[Link](figsize=(8,
6))[Link](df['Precio'], vert=False, patch_artist=True,
notch=True, boxprops=dict(facecolor='lightblue',
color='black'),
flierprops=dict(markerfacecolor='yellow', marker='o',
markersize=5))[Link]('Distribución de Precios - Gráfico
de Caja y Bigotes')[Link]('Precio (COP)')[Link]()
HISTOGRAMA
DE
FRECUENECIA
Un histograma de frecuencia es un gráfico que se utiliza para
mostrar la distribución de un conjunto de datos continuos o
discretos, dividiendo los datos en intervalos o bins. Cada barra
del histograma representa la cantidad de valores que caen
dentro de un intervalo específico, lo que ayuda a visualizar la
frecuencia o densidad de los datos en esos intervalos.
Datos: Es la variable numérica que quieres
[Link]=20: Número de intervalos en los que se
dividen los [Link]='blue': Color de las
[Link]='black': Borde de las barras para mejorar
la visualizació[Link] y funcional.
df = [Link]({'Precio':
[Link](50_000_000, 1_000_000_000,
size=1000)})df['Precio'].plot(kind='hist', bins=20,
color='skyblue', edgecolor='white',
alpha=0.7)[Link]('Histograma de
Precios')[Link]('Precio')[Link]('Frecuencia')plt
.show()
DIAGRAMA DE BARRAS
Un diagrama de barras es una herramienta visual que se utiliza
para representar datos categóricos o discretos, mostrando la
frecuencia o cantidad de cada categoría a través de barras de
diferentes alturas. Cada barra representa una categoría y la altura
de la barra muestra la magnitud de esa categoría.
[Link]: Esta función divide los valores de la columna 'Precio'
en diferentes intervalos o rangos. Los bins (intervalos) se
definen en la lista. value_counts(): Cuenta cuántos valores
hay en cada categoría o rango de precios, es decir, cuántas
propiedades caen en cada rango de precio.sort_index():
Ordena los rangos de precios en el orden especificado (de
menor a mayor). [Link]: Esta función crea un gráfico de
barras. Los argumentos son:data_grouped.index: Las
categorías o etiquetas (rangos de precios como '50M-200M',
'200M-500M', etc.).data_grouped.values: Los valores
correspondientes a cada categoría, es decir, la cantidad de
propiedades en cada rango de precio.
data = [Link]({ 'Rango de Precio': ['50M-
200M', '200M-500M', '500M-800M', '800M-1B'],
'Cantidad': [250, 400, 200, 150]})
[Link](data['Rango de Precio'], data['Cantidad'],
color='skyblue', edgecolor='black’)
[Link]('Distribución de Precios
Inmobiliarios')[Link]('Rango de Precio
(COP)')[Link]('Cantidad de Propiedades')
GRAFICO DE TORTA
Un gráfico de torta (también conocido como gráfico circular o pie chart)
es una representación gráfica de datos en forma de un círculo dividido
en segmentos, donde cada segmento representa una categoría o parte
proporcional del total. Es especialmente útil para mostrar proporciones
o porcentajes de diferentes partes de un todo.
[Link]: Divide los valores de la columna "Precio" en intervalos
definidos.value_counts: Cuenta cuántos valores caen en cada
[Link]: Genera el gráfico de [Link]: Etiquetas de cada
segmento (en este caso, los rangos de precio).autopct: Muestra los
porcentajes de cada [Link]: Angulo inicial del gráfico para
[Link]: Paleta de colores asignada a los segmentos.
df = [Link]({ 'Precio':
[Link](50_000_000, 1_000_000_000, size=1000)
})df['Rango de Precio'] = [Link](df['Precio'],
bins=[50_000_000, 200_000_000, 500_000_000,
800_000_000, 1_000_000_000],
labels=['50M-200M', '200M-500M', '500M-800M', '800M-
1B'])data_grouped = df['Rango de
Precio'].value_counts().sort_index()[Link](data_grouped.value
s, labels=data_grouped.[Link](str), autopct='%1.1f%
%', startangle=140,
colors=[Link])[Link]('Distribución de Precios
por Rango')[Link]()
7
CONCLUSIÓ
N
los diagramas de barras, histogramas, gráficos de torta y gráficos de
caja y bigotes son herramientas fundamentales para el análisis de datos.
Cada uno cumple una función específica:
•Los diagramas de barras comparan diferentes categorías.
•Los histogramas muestran la distribución de datos continuos.
•Los gráficos de torta permiten visualizar las proporciones dentro de un
conjunto.
•Los gráficos de caja y bigotes ayudan a entender la dispersión y la
presencia de valores atípicos en los datos.
Utilizando estos gráficos, podemos obtener una visión más clara de los datos,
identificar patrones, y tomar decisiones informadas basadas en esa
visualización.