0% encontró este documento útil (0 votos)
18 vistas17 páginas

Reporte Price

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas17 páginas

Reporte Price

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Indice

Contenido
Introducción ........................................................................................................................................ 2
Conjunto de Datos y Variables ........................................................................................................ 2
Objetivos del informe.......................................................................................................................... 2
Metodología implementada ............................................................................................................... 3
1. Recopilación y Preparación de Datos .......................................................................................... 3
2. Cálculo de Medidas Estadísticas.................................................................................................. 3
3. Creación de Gráficas Específicas ................................................................................................. 4
4. Interpretación y Documentación de Resultados......................................................................... 4
Marco teórico ...................................................................................................................................... 5
2. Medidas de Tendencia Central.................................................................................................... 5
2.1 Media .................................................................................................................................... 5
2.2 Mediana ................................................................................................................................ 5
2.3 Moda ..................................................................................................................................... 5
3. Medidas de Dispersión ................................................................................................................ 5
3.1 Varianza ................................................................................................................................. 5
3.2 Rango..................................................................................................................................... 5
3.3 Desviación Estándar .............................................................................................................. 6
Resultados obtenidos y análisis .......................................................................................................... 6
Introducción
La minería de datos es un proceso crucial en la extracción de patrones y conocimiento útil a partir
de grandes volúmenes de datos. En el contexto de bienes raíces, este enfoque permite analizar,
comprender y predecir comportamientos del mercado inmobiliario, así como evaluar factores que
influyen en los precios de las propiedades.

Conjunto de Datos y Variables


Para estudiar los comportamientos estadísticos en el mercado inmobiliario, utilizaremos un
conjunto de datos que incluye una variedad de atributos relacionados con propiedades
residenciales. Cada fila en la base de datos representa una propiedad diferente, y cada columna
representa un atributo específico de esa propiedad. Los atributos pueden ser categóricos (como el
tipo de zona o el estilo de la casa) o numéricos (como el área del lote o el año de construcción). A
continuación, se describen algunos de los principales atributos que estudiaremos:

• MSSubClass: Tipo de clase de construcción (por ejemplo, residencial de una sola familia).
• MSZoning: Clasificación de zonificación (por ejemplo, residencial, comercial).
• LotArea: Área total del terreno (en pies cuadrados).
• OverallQual: Calidad general de los materiales y acabados de la casa, en una escala ordinal.
• YearBuilt: Año en que se construyó la propiedad.
• TotalBsmtSF: Área total del sótano (en pies cuadrados).
• GrLivArea: Área habitable sobre el nivel del suelo (en pies cuadrados).
• FullBath: Número de baños completos.
• BedroomAbvGr: Número de dormitorios sobre el nivel del suelo.
• GarageCars: Capacidad del garaje en términos de número de coches.
• SalePrice: Precio de venta de la propiedad (valor objetivo para predicciones).

Objetivos del informe


• Describir las características principales de las viviendas:

Calcular medidas de tendencia central (media, mediana, moda) y de dispersión (rango, varianza,
desviación estándar) para entender las características promedio y la variabilidad de las viviendas
en la base de datos.

• Entender la distribución de las variables de las viviendas:

Analizar cómo se distribuyen las diferentes variables de la base de datos, tanto numéricas como
categóricas.

Identificar tendencias y patrones en los datos, como la distribución de tamaños de lote, áreas de
sótano, o calidades de construcción.

• Identificar y manejar valores atípicos:

Detectar valores atípicos en las variables y decidir cómo manejarlos (por ejemplo, investigarlos más
a fondo, corregirlos, eliminarlos, o transformarlos).
• Explorar relaciones entre variables:

Investigar la correlación entre diferentes variables, como la relación entre el área del sótano y el
precio de venta.

Identificar si existen patrones o asociaciones significativas que puedan ser útiles para futuros
modelos predictivos o análisis más detallados.

• Segmentar los datos:

Agrupar las viviendas en segmentos o clusters basados en características similares, como el tipo de
vivienda, el estilo arquitectónico, o la zona geográfica.

Utilizar técnicas de segmentación para entender mejor las diferencias y similitudes entre diferentes
tipos de viviendas.

• Preparar los datos para modelos predictivos:

Limpiar y transformar los datos para preparar un conjunto de datos adecuado para la creación de
modelos predictivos.

Seleccionar y crear variables que puedan ser útiles para predecir el precio de venta o alguna otra
variable de interés.

Metodología implementada
1. Recopilación y Preparación de Datos
a. Recopilación de Datos:

• Importar la base de datos a Excel. Esto puede hacerse copiando los datos directamente si
están disponibles en un archivo CSV, TXT, o similar, o mediante la conexión a una base de
datos externa.

• Asegurarse de que los datos están correctamente formateados y que todas las columnas y
filas están completas.

b. Limpieza de Datos:

• Conversión de Tipos de Datos: Asegurarse de que todas las columnas están en el formato
correcto (por ejemplo, números, fechas, texto).

2. Cálculo de Medidas Estadísticas


a. Medidas de Tendencia Central:

• Media: Utilizar la función PROMEDIO() en Excel.

• Mediana: Utilizar la función MEDIANA() en Excel.

• Moda: Utilizar la función MODA.UNO() en Excel.

b. Medidas de Dispersión:

• Varianza: Utilizar la función VAR.S() para muestra o VAR.P() para población.


• Desviación Estándar: Utilizar la función DESVEST.S() para muestra o DESVEST.P() para
población.

• Rango: Calcular la diferencia entre el valor máximo (MAX()) y el mínimo (MIN()).

c. Medidas de Posición:

• Cuartiles: Utilizar la función CUARTIL.EXC().

• Percentiles: Utilizar la función PERCENTIL.EXC().

3. Creación de Gráficas Específicas


a. Selección de Tipo de Gráfica:

• Histograma: Para visualizar la distribución de una variable numérica.

• Box Plot: Para identificar la dispersión y detectar valores atípicos.

• Gráficas de Barras: Para representar la frecuencia de categorías.

b. Creación de Gráficas en Excel:

• Histograma:

• Box Plot:

• Gráficas de Barras:

4. Interpretación y Documentación de Resultados


a. Análisis de Resultados:

• Analizar las gráficas para identificar patrones, tendencias, y valores atípicos.

• Comparar las medidas estadísticas calculadas con las visualizaciones gráficas para
corroborar los hallazgos.

b. Documentación:

• Crear un informe que detalle el proceso seguido, los hallazgos, y las interpretaciones.

• Incluir las gráficas y las medidas estadísticas calculadas, junto con comentarios y
conclusiones.
Marco teórico
2. Medidas de Tendencia Central
2.1 Media
La media es la suma de todos los valores dividida por el número total de observaciones.
Representa el valor promedio de un conjunto de datos y es sensible a valores extremos (outliers).
1 𝑛
𝑀𝑒𝑑𝑖𝑎 = ∑ 𝑥𝑖
𝑛 𝑖=1

2.2 Mediana
La mediana es el valor que divide el conjunto de datos en dos partes iguales, donde el 50% de los
valores son menores y el 50% son mayores que este valor. Es menos sensible a los valores
extremos y es útil cuando la distribución de los datos es asimétrica.

En el mercado inmobiliario, la mediana del precio de venta puede ser más representativa del valor
típico de una propiedad cuando hay grandes variaciones en los precios.

2.3 Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. En algunos casos,
puede haber más de una moda (bimodal o multimodal) si varios valores tienen la misma
frecuencia máxima.

En el análisis de datos inmobiliarios, la moda del tipo de vivienda puede indicar el tipo de
propiedad más común en un área específica.

3. Medidas de Dispersión
3.1 Varianza
La varianza mide el grado de dispersión de los datos con respecto a la media. Se calcula como el
promedio de las diferencias al cuadrado entre cada valor y la media.
1
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑠 2 ) = 𝛴 𝑛 (𝑥 − 𝑥̅ )2
𝑛 − 1 𝑖=1 𝑖
En el análisis inmobiliario, una alta varianza en los precios de venta indica una gran variabilidad en
los valores de las propiedades.

3.2 Rango
El rango es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos.
𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜
En el contexto de bienes raíces, el rango del precio de venta muestra la amplitud de los valores de
las propiedades en el mercado.

3.3 Desviación Estándar


La desviación estándar es la raíz cuadrada de la varianza y proporciona una medida de dispersión
que está en la misma unidad que los datos originales.

Resultados obtenidos y análisis


𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟(𝑠) = √𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎
En el mercado inmobiliario, una alta desviación estándar en los precios de venta indica que los
precios están muy dispersos alrededor de la media.

En esta gráfica de bigote se puede observar que el valor máximo de MSSubclass (tipo de vivienda
involucrada en la venta) es de 190 mientras que el mínimo es de 20, de este modo también
tenemos, la mediana es de 50 (1-1/2 piso terminado todas las edades).

En esta gráfica podemos observar la gran diferencia que existe entre la zonificación de la venta,
estando con un 78.8 % la residencial de baja latencia y de menor porcentaje de tipo comercial con
un 0.68%
En esta gráfica se puede apreciar que el LotArea (tamaño del lote en pies cuadrados) fueron
registrados desde los 1300 pies cuadrados hasta los 215.245 pies cuadrados, tomando en cuenta
esto se tiene que la mediana de área es de 9478.5 y la media de 10.51

En esta gráfica podemos observar el porcentaje de las casas dependiendo en la planitud en la que
se encuentran, tomando en cuenta esto se determina que el 89.8% es casi plana o nivelada

En esta gráfica OverallQual (calificación del material y el acabado general de la casa) podemos
observar que tomando en cuenta un rango de calificación del 1-10, la calificación mediana es de 6
mientras que el promedio es de 6.099, esto quiere decir que en general no tienen una gran
calificación
En esta gráfica podemos observar la pendiente de las propiedades, y se tiene que el 94.7% en Gtl
que quiere decir que es una pendiente suave

Ahora en esta gráfica OverallCond (condición general de las casa) podemos observar que el rango
va desde el 1 al 9 y el promedio de la condición de las casas es de 5.57

En esta gráfica se aprecia el porcentaje de casas en cada uno de los vecindarios, siendo el
vecindario de NAmes el más habitado con 15.4%
En esta gráfica podemos observar el año en que las viviendas fueron construidas y empieza desde
los años 1872 hasta 2010, mientras que el año donde más se construyeron estas viviendas fue en
1971

En esta gráfica podemos observar el tipo de vivienda que más existen y se tiene que el 83.6% es
decir la mayoría son viviendas de una sola familia

Aquí podemos observar que el año donde se toma en cuenta el inicio de la remodelación es en
1950 mientras que toma un máximo de 2010, tomando en cuenta estos datos podemos observar
que el año donde más remodelaciones hubo fue entre 1984 y 1985
En esta gráfica podemos observar los tipos de vivienda que más existen y tenemos que el 49.7%
son de un piso

En este gráfico podemos observar que el promedio de área de revestimiento de mampostería es


de 103.68 en las casas que la tienen

En este gráfico podemos observar que en promedio las viviendas tienen un área de sótano de
1057.42 y la mediana es de 991.5 es decir que la mitad de las viviendas tiene un sótano de menor
o igual a 991.5 pies cuadrados mientras que la otra mitad tiene mayor o igual a 991.5
En esta gráfica podemos observar que la calidad del material exterior de las casas generalmente es
promedio o típico pues ya que la mayoría son casas construidas hace años y lo podemos observar
en las demás gráficas del año de remodelación, etc.

En este gráfico podemos observar que el promedio del área del primer piso es de 1162.627 pies
cuadrados mientras que el promedio del área del segundo piso es de 346.99 pies cuadrados, es
decir que en las viviendas generalmente su segundo piso toma un aproximado de 1/3 de su área
del primer piso

En esta gráfica podemos ver la condición del exterior y al igual que la calificación que se les daba,
la mayoría de las propiedades tienen una condición promedio
En esta gráfica se puede observar que tenemos en promedio tenemos un 5.84 pies cuadrados de
área terminada de baja calidad, una cantidad realmente muy baja para el área total de las
viviendas

Aquí podemos observar que el sistema eléctrico que posee la mayoría de las propiedades es de
interruptor automático estándar

En esta gráfica podemos apreciar que es muy raro que existan baños completos en el sótano sin
embargo es probable, por lo que hay una probabilidad de 0.6 que haya un baño y casi 0 que
tengan 2 baños mientras que 3 baños es imposible
En esta gráfica podemos observar que la mayoría de las propiedades tiene una calificación de su
cocina promedio, es decir que no está buena al 100% pero si buena, tomando en cuenta que las
cocinas con buena calificación podemos decir que en general las cocinas tienen buena o regular
calificación

Con esta gráfica podemos observar que el 93.2% de las propiedades tienen una funcionalidad con
ligeras deficiencias

En este gráfico podemos observar la cantidad en promedio de cada lugar específico sobre el nivel
del suelo, siendo los cuartos los más presentes con un valor de 2.87, seguido de los baños
completos con 1.57 y por último las cocinas con un 1.05 de probabilidad
En esta gráfica podemos determinar que tenemos una calidad de chimenea promedio con 40.6%
mientras que la que domina es la calidad buena con 49.4%

En esta gráfica podemos observar que el mínimo de cuartos (excluyendo baños) sobre el nivel del
suelo son de 2, y se toma una cantidad máxima de 14, dando como promedio una cantidad de
6.51 y una mediana de 6

Tenemos que el tipo de garage con el que más cuentan las viviendas es un tipo de garage adosado
a la vivienda con un 63.1%
En esta gráfica podemos observar que no es tan común tener chimeneas ya que se cuenta con un
promedio de 0.61 de probabilidad que existan chimeneas en casas, incluso la probabilidad de que
hayan más de 2 chimeneas en una casa se considera un dato atípico ya que el límite superior de la
caja de bigotes es de 2

En esta gráfica se puede observar que tomando como medida la cantidad de carros que caben en
un garage, hay un promedio de 1.76 casi 2 carros en cada vivienda, sin embargo la mediana es 2,
esto quiere decir que la mayoría de los garage cuenta con un espacio para 1 o dos carros y 3 o 4
son prácticamente imposible

En esta gráfica podemos observar que las condiciones del garage es el 95.1% promedio
En esta gráfica podemos observar del promedio de diferencia entre el área que ocupa el porche de
las viviendas cuando están cerrados y están abiertos, de este modo determinamos que existe una
diferencia de 24.7 pies cuadrados

En esta gráfica podemos observar que la calidad de la piscina es buena generalmente aunque
realmente los porcentajes aquí son más equitativamente dispersos ya que tenemos un 28.6% de
calidad de piscinas malas y 28.6% descentes
Conclusión
En esta práctica pude implementar diferentes métodos de recopilación de datos y presentación de
la información, pues ya que al finalizar mi primera etapa de mi tarea tuve que pedirle una previa
revisión a mi profesor acerca de mi primer informe estadístico, sin embargo solo mostraba de
manera textual los datos obtenidos, sin embargo con las observaciones y sugerencias que me hizo
pude implementar de mejor manera mi presentación de la información y mostrar gráficamente los
resultados obtenidos.

Me enfrenté al problema de tener datos cualitativos en muchas variables, sin embargo al verlos de
una manera más general y deduciendo como explicarlo a las demás personas pude encontrar las
gráficas que mejor funcionaran y traté de explicar de manera sencilla cada una de ellas.

Obtuve muchos conocimientos y enriquecí los que ya tenía sobre estadística, gracias a esto pude
culminar de manera óptima mi trabajo.

Referencias
López, J. F. (2018, marzo 1). Media: ¿Qué significa y cómo se calcula? Economipedia.
https://economipedia.com/definiciones/media.html

Medidas de dispersión - hiru. (s/f). Hiru.eus. Recuperado el 12 de junio de 2024, de


https://www.hiru.eus/es/matematicas/medidas-de-dispersion

Medidas de tendencia central - hiru. (s/f). Hiru.eus. Recuperado el 12 de junio de 2024, de


https://www.hiru.eus/es/matematicas/medidas-de-tendencia-central

Ortega, C. (2018, diciembre 9). ¿Qué es la media, la mediana y la moda? QuestionPro.


https://www.questionpro.com/blog/es/la-media-la-mediana-y-la-moda/

Me ayudé de Chatgpt para la obtención de mi objetivo ya que me ayudó a explicar las variables
que tenía de la base de datos

También podría gustarte