ACTIVIDAD DE APRENDIZAJE AA3-EV02 - INFORME EN EL QUE SE
IDENTIFIQUEN LAS VARIABLES Y LOS COMPONENTES ESTADÍSTICOS A
PARTIR DE UNA SITUACIÓN PLANTEADA.
ANÁLISIS EXPLORATORIO DE DATOS EN PYTHON
3383697
Andrés Blandón
TUTOR(A):
Catherin Toro
SERVICIO NACIONAL DE APRENDIZAJE
SENA
2025
• Procedimiento para la importación del archivo en formato CSV
Primero se descarga el anexo que se encuentra en el contenido del curso
actividad de aprendizaje 3
Imagen 1: Anexos del archivo descargado del contenido del curso.
Luego me voy a jupyter notebook para importar el archivo en formato .csv y
cargarlo donde se abre en una pestaña todos los datos seguros en .csv
Imagen 2: Importación y visualización del archivo .CSV en la herramienta jupyter notebook.
• Plante una pregunta objetivo
Según el caso propuesto debo hacer preguntas para lograr el objetivo y
estrategia para su respectiva ejecución:
¿Debo Identificar los datos requeridos en la encuesta?
¿Quién es mi población objetivo?
¿Cómo voy a usar los datos que se han recopilado para tomar decisiones
informadas en relación con el servicio?
¿Qué conclusiones debo sacar, dentro del conjunto de encuestados?
• Total, de Registros
En jupyter cuento (sin tener en cuenta la primera fila, que es el nombre de
las variables) 463 registros.
Imagen 3: Lectura de datos del caso propuesto.
• Total, de columnas
En el caso Propuesto: 12 columnas
• Detallado de cada columna:
En el caso propuesto:
código Ciudad Departamento Barrio Dirección Área Área Detalle Estrato Precio Tipo de Datos
Terreno Construida Disponibilidad Inmueble Adicionales
• Identificar cuáles de las columnas son categóricas y numéricas
- Categóricas:
En el caso propuesto:
Ciudad, Departamento, Barrio, Dirección, Detalle disponibilidad, Estrato,
tipo de inmueble, Datos adicionales.
- Numéricas:
En el caso propuesto:
Código, Área terreno, área construida, precio
Imagen 4: Identificación de los datos.
• Identifique en que columnas existen valores nulos
Se registraron dos valores nulos en el caso propuesto: Barrio y datos
adicionales.
Imagen 5: identificación de valores vacíos o nulos.
• Identifique si existen registros duplicados:
En el caso propuesto no tiene valores duplicados:
Imagen 6:identificacion de valores duplicados en el caso propuesto.
• Realice un reporte estadístico de los datos numéricos (media, moda,
mediana, desviación estándar, cuartiles, entre otros que considere)
Imagen 7: Datos numéricos implementando las Medidas de tendencia central.
• Identifique columnas con valores erróneos
• Utilice gráficos para identificar valores atípicos:
Explorar los terrenos dependiendo de su estrato para ello se categoriza y
vemos
Imagen 8: Identificación de valores atípicos con la Variable Estrato
Vemos que casi todos los inmuebles son de estatus comercial lo que
podremos apreciar mejor en graficas:
Imagen 9: Grafica de barras mostrando los estratos.
Notamos que la mayoría son de uso comercial
Imagen 10: Valor atípico Del precio con el estrato.
• Realice histogramas de frecuencia:
Imagen 11:Histograma de frecuencia del caso propuesto.
• Use la herramienta para gráficos para determinar correlación entre
variables
Imagen 12: Correlación entre el precio con Área Construida y terreno.
Es de notar que existe una correlación positiva entre el area de terreno y el precio,
cosa que se habría de esperar, también existe una correlación negativa entre el
precio y el código cosa que carece de sentido y por lo cual no habremos de
considerar
• Realice y explique la eliminación de datos nulos y duplicados
Para la eliminación de los datos nulos se debe escribir el comando
[Link]() y para los duplicados con el comando df.drop_duplicates(); pero
antes de ejecutarlos primero se verifica la información de los datos (véase
imagen 4: Identificación de los datos.) y ver los valores nulos(véase Imagen
5: identificación de valores vacíos o nulos.) Podemos notar que tanto barrio
como datos adicionales de inmueble presentan cantidades abundantes de
datos nulos por lo cual procederemos a eliminarlos.
Imagen 13: Eliminación de valores nulos en el caso propuesto.
Como vemos fue bastantes datos que se eliminaron dejando solo 23 datos
Para el caso de las duplicadas en el caso propuesto no hay duplicados.
• Agrupe columnas que considere pueden generar información
importante
Imagen 14: datos del caso propuesto sobre el rango de Precios de Inmueble.
Ahora se estable los rangos
Imagen 15: Rango de precios para el caso propuesto.
Imagen 16: Agrupación del rango de Precios del caso Propuesto.
• Cree nuevas columnas a partir de las existentes
Voy a crear la columna status según el rango de precio para establecer su
estado financiero:
Imagen 17: Creación de la nueva columna status para el caso propuesta.
• Identifique columnas que no aportan de acuerdo con su pregunta
objetivo
Para mí, es de notar que al ser terrenos sin nada construido la columna de
Area construida pierde el sentido por lo cual no me aporta nada a mi objetivo
que quiero establecer.
• Realice conclusiones sobre las variables que considere tienen mayor
relevancia
Al realizar un estudio de investigación las variables son dispendiosas
ya que dependen del éxito de la investigación para llegar a aun orden
metodológico dar validez a la investigación y hacer un excelente resultado,
para que tenga una validez. El enfoque de las variables es cuantitativo
desarrolladas de acuerdo con la investigación. Teniendo en cuenta que
se cumplen con las variables para un análisis y un comportamiento.
Yo elegí la variable precio del inmueble, vemos que el valor medio es de
4650000e+10 sumamente costoso para una persona que gana el mínimo,
además la desviación estándar es de 3272992e+09 mucho mayor que la
media cosa que nos indica que posiblemente los datos estén malos (véase
Imagen 7: Datos numéricos implementando las Medidas de tendencia
central.)