0% encontró este documento útil (0 votos)
17 vistas70 páginas

Proyecto II PDF

El proyecto busca desarrollar un modelo predictivo para estimar los precios de vivienda en Medellín utilizando técnicas de aprendizaje automático. Se pretende facilitar la toma de decisiones en el mercado inmobiliario mediante un aplicativo interactivo que recolecte información de anuncios y publicaciones. Este enfoque se basa en investigaciones previas exitosas en otras ciudades, promoviendo un mejor rendimiento en las transacciones inmobiliarias.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • sistemas de información,
  • impacto del mercado,
  • aprendizaje automático,
  • Medellín,
  • técnicas avanzadas,
  • mercado inmobiliario,
  • información actualizada,
  • aplicaciones de datos,
  • limpieza de datos,
  • resultados de predicción
0% encontró este documento útil (0 votos)
17 vistas70 páginas

Proyecto II PDF

El proyecto busca desarrollar un modelo predictivo para estimar los precios de vivienda en Medellín utilizando técnicas de aprendizaje automático. Se pretende facilitar la toma de decisiones en el mercado inmobiliario mediante un aplicativo interactivo que recolecte información de anuncios y publicaciones. Este enfoque se basa en investigaciones previas exitosas en otras ciudades, promoviendo un mejor rendimiento en las transacciones inmobiliarias.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • sistemas de información,
  • impacto del mercado,
  • aprendizaje automático,
  • Medellín,
  • técnicas avanzadas,
  • mercado inmobiliario,
  • información actualizada,
  • aplicaciones de datos,
  • limpieza de datos,
  • resultados de predicción

Página 1 of 70 - Portada Identificador de la entrega trn:oi[Link]67

EILY SHARINE ANGARITA CASTAÑEDA


6
ACA 2

Proyecto 2

Corporación Unificada Nacional de Educación Superior

Detalles del documento

Identificador de la entrega

trn:oi[Link]67 63 Páginas

Fecha de entrega 10,487 Palabras

4 feb 2025, 11:05 a.m. GMT-5


59,731 Caracteres

Fecha de descarga

4 feb 2025, 12:46 p.m. GMT-5

Nombre de archivo

Proyecto_II.[Link]

Tamaño de archivo

2.9 MB

Página 1 of 70 - Portada Identificador de la entrega trn:oi[Link]67


Página 2 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67

38% Similitud general


El total combinado de todas las coincidencias, incluidas las fuentes superpuestas, para ca…

Filtrado desde el informe


Bibliografía

Fuentes principales

36% Fuentes de Internet

4% Publicaciones

17% Trabajos entregados (trabajos del estudiante)

Marcas de integridad
N.º de alerta de integridad para revisión
Los algoritmos de nuestro sistema analizan un documento en profundidad para
Caracteres reemplazados buscar inconsistencias que permitirían distinguirlo de una entrega normal. Si
advertimos algo extraño, lo marcamos como una alerta para que pueda revisarlo.
21 caracteres sospechosos en N.º de páginas
Las letras son intercambiadas por caracteres similares de otro alfabeto. Una marca de alerta no es necesariamente un indicador de problemas. Sin embargo,
recomendamos que preste atención y la revise.

Página 2 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67


Página 3 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67

Fuentes principales

36% Fuentes de Internet

4% Publicaciones

17% Trabajos entregados (trabajos del estudiante)

Fuentes principales
Las fuentes con el mayor número de coincidencias dentro de la entrega. Las fuentes superpuestas no se mostrarán.

1 Internet

[Link] 9%

2 Internet

[Link] 3%

3 Internet

[Link] 3%

4 Internet

[Link] 2%

5 Internet

[Link] 2%

6 Internet

[Link] 2%

7 Internet

[Link] 2%

8 Internet

[Link] 1%

9 Internet

[Link] 1%

10 Internet

[Link] 1%

11 Trabajos del
estudiante
CORPORACIÓN UNIVERSITARIA IBEROAMERICANA <1%

Página 3 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67


Página 4 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67

12 Internet

[Link] <1%

13 Trabajos del
estudiante
Universidad Europea de Madrid <1%

14 Trabajos del
estudiante
Universidad Internacional de la Rioja <1%

15 Internet

[Link] <1%

16 Internet

[Link] <1%

17 Trabajos del
estudiante
Universidad TecMilenio <1%

18 Internet

[Link] <1%

19 Internet

[Link] <1%

20 Internet

[Link] <1%

21 Trabajos del
estudiante
Infile <1%

22 Trabajos del
estudiante
Universidad Nacional Abierta y a Distancia, UNAD,UNAD <1%

23 Internet

[Link] <1%

24 Trabajos del
estudiante
Universidad de Deusto <1%

25 Trabajos del
estudiante
Universidad Estatal Amazonica- <1%

Página 4 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67


Página 5 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67

26 Internet

[Link] <1%

27 Internet

[Link] <1%

28 Internet

[Link] <1%

29 Internet

[Link] <1%

30 Trabajos del
estudiante
TecnoCampus <1%

31 Trabajos del
estudiante
ipn <1%

32 Trabajos del
estudiante
Universidad Cesar Vallejo <1%

33 Internet

[Link] <1%

34 Internet

[Link] <1%

35 Internet

[Link] <1%

36 Internet

[Link] <1%

37 Trabajos del
estudiante
imfice <1%

38 Internet

[Link] <1%

39 Internet

[Link] <1%

Página 5 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67


Página 6 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67

40 Internet

[Link] <1%

41 Internet

[Link] <1%

42 Internet

[Link] <1%

43 Internet

[Link] <1%

44 Internet

[Link] <1%

45 Internet

[Link] <1%

46 Internet

[Link] <1%

47 Internet

[Link] <1%

48 Internet

[Link] <1%

49 Internet

[Link] <1%

50 Internet

[Link] <1%

51 Internet

[Link] <1%

52 Trabajos del
estudiante
Colegio Universitario de Estudios Financiero <1%

53 Internet

[Link] <1%

Página 6 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67


Página 7 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67

54 Internet

[Link] <1%

55 Internet

[Link] <1%

56 Internet

[Link] <1%

57 Internet

[Link] <1%

58 Internet

[Link] <1%

59 Internet

[Link] <1%

60 Internet

[Link] <1%

61 Internet

[Link] <1%

62 Internet

[Link] <1%

63 Internet

[Link] <1%

64 Internet

[Link] <1%

65 Internet

[Link] <1%

66 Publicación

Rafael Masot Peris. "Desarrollo de un sistema de medida basado en espectroscop… <1%

67 Internet

[Link] <1%

Página 7 of 70 - Descripción general de integridad Identificador de la entrega trn:oi[Link]67


Página 8 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

Especialización en Analítica de Datos


Gestion y tecnologia

Desarrollo de un Modelo Predictivo para Estimar los Precios de Viviendas en Medellín


Usando Técnicas de Aprendizaje Automático

Presentado por:

Nicolas Steven Gutierrez Castiyejo


Eily Sharine Angarita Castañeda
Angela Marcela Cucaita Alvarez

Bogotá, Cundinamarca 01 de febrero de 2025

Página 8 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 9 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

Especialización en Analítica de Datos

Desarrollo de un modelo predictivo para estimar los precios de viviendas en Medellín


usando técnicas de aprendizaje automático

Presentado por:

Nicolas Steven Gutierrez Castiyejo


Eily Sharine Angarita Castañeda
Angela Marcela Cucaita Alvarez

Bajo la dirección de:


Mentor;, Gustavo Santos Vargas Master en mercadeo
Mentor metodológico: Jose León León

Bogotá, Cundinamarca 01 de febrero de 2025

Página 9 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 10 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

Tabla de contenido

Resumen​ 7
Abstract​ 8
Preliminares​ 9
Declaración de originalidad y autonomía​ 9
Declaración de exoneración de responsabilidad​ 10
1 Introducción​ 12
2 Planteamiento del problema​ 13
2.1 Formulación o Pregunta de Investigación​ 14
3 Objetivos​ 15
3.1 Objetivo general​ 15
3.2 Objetivos específicos​ 15
4 Justificación​ 17
5 Alcances y Limitaciones del Proyecto​ 18
6 Marco Referencial​ 19
6.1 Antecedentes​ 22
6.2 Marco teórico​ 24
6.3 Marco Conceptual​ 25
6.4 Marco Contextual​ 26
6.5 Marco legal​ 27
51 ● Ley 1581 de 2012​ 27
● Ley 1266 de 2008​ 28
● Ley 388 de 1997​ 28
Metodología​ 29
6.1 Enfoque de investigación​ 30
Enfoque Cuantitativo​ 30
6.2 Tipos de investigación​ 30
Investigación Explicativa​ 30
6.3 Diseños de Investigación​ 34
Investigación No Experimental​ 34
6.4 Población y muestra​ 35
6.5 Plan de análisis de la información​ 35
6.5.1 Instrumentos de recolección de información​ 37
6.6 Cronograma​ 38
6.7 Presupuesto​ 38
7 Desarrollo de las fases del proyecto​ 39
8 Resultados y discusión​ 40

Página 10 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 11 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

9 Conclusiones​ 40
Referencias bibliográficas​ 42

Página 11 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 12 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

55 Lista de tablas

Tabla 1: Presupuesto​ 48

Página 12 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 13 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

Lista de figuras

Figura 1: Python librerias BeautifulSoup y Scrapy​ 39


Figura 2. Finca Raíz. (2025.). Elaboración [Link] Scraping.​ 40
Figura 3. Finca Raíz. (2025.). Elaboración [Link] Scraping.​ 40
Figura [Link] Raíz. (2025.). Elaboración [Link] Scraping.​ 41
Figura 5 Código fuente de limpieza de datos​ 42
Figura 6 Código fuente para desarrollar funciones con Plotly​ 43
Figura 7 Código fuente para desarrollar funciones con Plotly​ 44
Figura 8 Código fuente para interfaz mediante streamlit​ 45
Figura 9 Código fuente para interfaz mediante streamlit​ 46
Figura 10 Modelo de regresión lineal​ 47
Figura 11 Análisis exploratorio interfaz gráfica​ 53
Figura 12 Análisis exploratorio interfaz gráfica​ 53
Figura 13 Análisis exploratorio interfaz gráfica​ 53
28 Figura 14 Resultados del Modelo de regresión lineal​ 55
28 Figura 15 Interfaz de usuario para manejo del modelo de regresión lineal​ 56
Figura 16 - Arquitectura de datos​ 60

Página 13 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 14 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

Resumen

Los diferentes cambios en la valoración exacta de los precios de vivienda es uno de los
53 grandes retos para las personas que buscan realizar la compra o venta de vivienda en la ciudad de
Medellín, esto hace que la búsqueda y consulta de este tipo de información se torne de forma
1 compleja lo que puede generar la toma de malas decisiones en el sector inmobiliario. Este
22 proyecto tiene como objetivo crear un modelo de predicción de precios de vivienda en la ciudad
36 de Medellín usando técnicas de aprendizaje automático con la finalidad de apoyar la toma de
decisiones en el mercado inmobiliario, recolectando la información de las publicaciones y
anuncios de las inmobiliarias, creando de esta forma un aplicativo interactivo que proporcione
estimaciones precisas y que facilite las decisiones financieras, esto teniendo en cuenta que en
investigaciones previas realizadas en Bogotá y Valencia se ha aplicado métodos similares y Web
Scraping para estimar los precios de vivienda con éxito, lo que beneficiará a compradores,
vendedores y profesionales del sector fomentando así un alto rendimiento en los trámites del
mercado inmobiliario.

Palabras clave: python, aprendizaje automático, raspado web, vivienda, inmobiliaria,


regresión lineal

Página 14 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 15 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 8

Abstract

The various changes in the accurate valuation of housing prices present a significant
63 challenge for individuals looking to buy or sell property in the city of Medellín. This complexity
46 in searching for and consulting this type of information can lead to poor decision-making in the
real estate sector. This project aims to create a predictive model for housing prices in Medellín
43 using machine learning techniques, with the goal of supporting decision-making in the real estate
market. The model will gather information for real estate listings and advertisements, thereby
creating an interactive application that provides precise estimates and facilitates financial
decisions. Previous research conducted in Bogotá and Valencia has successfully applied similar
methods and web scraping to estimate housing prices. This approach will benefit buyers, sellers,
and professionals in the sector, promoting higher efficiency in real estate market transactions

Keywords: python, machine learning, web scraping, apartment, real state, linear regression

Página 15 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 16 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 9

Preliminares

Declaración de originalidad y autonomía

Declaramos bajo la gravedad del juramento, que hemos escrito el presente proyecto, en la
propuesta de solución a una problemática en el campo de conocimientos del programa de
Especialización en Analítica de Datos por nuestra propia cuenta y que, por lo tanto, su contenido
es original.

Declaramos que hemos indicado clara y precisamente todas las fuentes directas e indirectas de
información y que no ha sido entregado a ninguna otra institución con fines de calificación o
publicación.

_______________________________
Nicolas Steven Gutierrez Castiyejo

_______________________________
Eily Sharine Angarita Castañeda

_______________________________
Angela Marcela Cucaita Alvarez

11 Firmado en Bogotá, Cundinamarca 04 de Enero de 2025

Página 16 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 17 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 10

Declaración de exoneración de responsabilidad

Declaramos que la responsabilidad intelectual del presente trabajo es exclusivamente de sus


autores. La Corporación Unificada Nacional de Educación Superior – CUN no se hace
responsable de contenidos, opiniones o ideologías expresadas total o parcialmente en él.

_______________________________
Nicolas Steven Gutierrez Castiyejo

_______________________________
Eily Sharine Angarita Castañeda

_______________________________
Angela Marcela Cucaita Alvarez

Firmado en Bogotá, Cundinamarca 04 de enero de 2025

Página 17 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 18 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 11

1​ Introducción

La valoración precisa de bienes raíces es fundamental en el mercado inmobiliario, no solo


para compradores y vendedores, sino también para profesionales y entidades que requieren
23 estimaciones exactas para la toma de decisiones. En Medellín, la evaluación de precios de
viviendas enfrenta desafíos debido a fluctuaciones económicas y urbanísticas que a menudo
resultan en datos desactualizados. La falta de información precisa puede llevar a decisiones
financieras inadecuadas y a la especulación en el mercado inmobiliario (Giraldo, 2018).
Además, el uso de técnicas tradicionales para la valoración de propiedades a menudo
57 resulta insuficiente para capturar la complejidad del mercado inmobiliario. En este contexto, la
aplicación de técnicas de aprendizaje automático ofrece una alternativa prometedora,
proporcionando evaluaciones más objetivas y precisas (Marrugo, 2020).
1 Este proyecto tiene como objetivo desarrollar un modelo de predicción de precios de
viviendas basado en datos reales de propiedades en Medellín. Utilizando herramientas de análisis
de datos y técnicas avanzadas de aprendizaje automático, se busca construir un modelo que
29 facilite la estimación precisa de los precios, apoyando así la toma de decisiones informadas en el
mercado inmobiliario.

7 ​En el caso de Colombia, García et al. (2019) utilizan un modelo estructural para analizar
los principales determinantes del precio de la vivienda nueva en Medellín. García et al., (2018)
hallaron evidencia de una relación negativa entre la tasa de interés hipotecaria y el precio de la
vivienda nueva, y una relación positiva entre variables crediticias como los desembolsos de
crédito y la cartera hipotecaria y el precio de demanda de la vivienda nueva. Además, Aristizábal
y Vargas (2009) encontraron que, ante un aumento de 1% en el salario real, los créditos
desembolsados para adquisición de este tipo de vivienda se incrementan en 1,84%. También,
Bonilla (2010), Clavijo et al., (2004) y Peña et al., (2004) pudieron detectar una relación negativa
entre la tasa de interés de colocación y la demanda de vivienda nueva. (Garcia & Posada, 2022)

Página 18 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 19 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 12

2​ Planteamiento del problema

El mercado inmobiliario de Medellín es dinámico y complejo, caracterizado por una alta


47 variabilidad en los precios de las propiedades. Factores como la ubicación, el tamaño y las
características específicas de las viviendas influyen significativamente en su valor. Sin embargo,
la falta de herramientas precisas para la valoración de propiedades puede conducir a decisiones
financieras inadecuadas y a la especulación (Palacios & César, 2021).

El problema específico que este proyecto aborda es la necesidad de un modelo predictivo que
16 pueda estimar con precisión los precios de las viviendas en Medellín. La ausencia de información
precisa y actualizada sobre el valor de las propiedades dificulta la toma de decisiones acertadas,
lo que puede resultar en pérdidas económicas para los actores del mercado (Reyes Feris, 2022).

2 En términos de economía una burbuja consiste en el aumento injustificado de precios en algun


activo o producto, el cual se da por razones netamente especulativas y que luego cuando se
produce un cambio en las expectativas de los inversores y estos pierden la confianza en el
mercado, los precios comienzan a caer generando un pánico financiero que hace que los
inversores salgan a vender dichos productos y su precio caiga repentinamente y bruscamente
ocasionando una crisis.(Pelaez Roldan, 2014)

2 Otro ejemplo de burbuja inmobiliaria fue la que tuvo lugar en España en el 2008 la personas
comenzaron a optar invertir en el sector inmobiliario como un activo de refugio dada la
incertidumbre que se tenía de invertir en acciones en los años 2001 y 2004 debido a la tensión
generada por el atentado a las torres gemelas y una posible guerra en Irak. Las viviendas
comenzaron a valorizarse rápidamente y el poco control crediticio y las facilidades de préstamo
que brindaban los bancos además de la guerra de tasas que comenzó a formarse entre las
entidades financieras, género que las personas se endeudan cada día más. (Pelaez Roldan, 2014)

Página 19 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 20 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 13

2 Otro aspecto importante que contribuyó en el aumento de los bienes fue el incremento de
inmigrantes lo que aumenta el número de posibles compradores de vivienda al cual la oferta no
fue capaz de responder aumentando a la misma tasa y por lo que los precios comenzaron a
aumentar de manera desproporcionada (Pelaez Roldan, 2014)

Impacto: La falta de una herramienta de predicción precisa de precios afecta tanto a


59 compradores como a vendedores, impidiendo la transparencia y la eficiencia en las transacciones
inmobiliarias. Un modelo predictivo robusto mejoraría la precisión de las estimaciones de precios
y, por ende, facilitaría la toma de decisiones más informadas y seguras.

2.1​ Formulación o Pregunta de Investigación

52 ¿Cómo puede desarrollarse un modelo predictivo que permita la estimación de precios de


viviendas en Medellín partiendo de los datos de las inmobiliarias, con resultados actualizados y
13 datos precisos que permitan la toma de buenas decisiones financieras y mitiguen la especulación
de precios?

Página 20 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 21 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 14

13 3​ Objetivos

3.1​ Objetivo general

Desarrollar un modelo predictivo basado en técnicas de aprendizaje automático para


16 estimar con precisión los precios de las viviendas en Medellín, facilitando la toma de decisiones
en el mercado inmobiliario.

3.2​ Objetivos específicos

Recolectar y Analizar Datos de Propiedades: Obtener datos relevantes sobre las

propiedades en Medellín mediante técnicas de web scraping desde plataformas inmobiliarias. Se

utilizará Python con librerías como BeautifulSoup, Scrapy y extensiones Web Scraper - Free

Web Scraping para la extracción de datos.

Preparar y Limpiar los Datos: Realizar un proceso exhaustivo de limpieza y

preprocesamiento de datos utilizando Python y librerías como Pandas. Este proceso incluirá la

eliminación de datos duplicados, la corrección de errores y la normalización de las variables.

Desarrollar el Modelo Predictivo: Implementar y entrenar modelos predictivos utilizando

técnicas de aprendizaje automático con Python y librerías como Scikit-learn. Se evaluarán

modelos como la regresión lineal y el Random Forest para determinar el más adecuado para

predecir los precios de las viviendas.

13 Evaluar y Optimizar el Modelo: Validar el modelo utilizando métricas de precisión, como

el error cuadrático medio (MSE) y el coeficiente de determinación (R²), y ajustar sus parámetros

para mejorar su rendimiento. Se llevarán a cabo pruebas cruzadas y optimización de hiper

parámetros para asegurar la robustez del modelo.

Página 21 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 22 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 15

Implementar una Aplicación Interactiva: Desarrollar una aplicación interactiva utilizando

Python y Streamlit que permita a los usuarios ingresar características de una vivienda y obtener

una estimación de su precio de forma inmediata.

Página 22 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 23 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 16

4​ Justificación

La necesidad de este proyecto radica en la creciente demanda de herramientas que

faciliten la valoración precisa de propiedades inmobiliarias en Medellín. La implementación de

12 un modelo predictivo no solo contribuirá a la transparencia y eficiencia en el mercado, sino que

también proporcionará una base sólida para futuras investigaciones y desarrollos en el campo de

la ciencia de datos aplicada a la inmobiliaria (Pellicer, 2021-2022).

58 Pertinencia: La precisión en la valoración de propiedades es esencial para la estabilidad y el

crecimiento del mercado inmobiliario en Medellín. Un modelo predictivo basado en datos

12 permitirá una mejor planificación y toma de decisiones tanto para individuos como para empresas

(Reyes Feris, 2022).

Beneficios:

12 ●​ Para Compradores: Acceso a estimaciones precisas de precios que ayudarán en la toma de

decisiones de compra.

●​ Para vendedores: Herramienta para fijar precios competitivos y justos.

●​ Para Profesionales del Sector: Mejora en la evaluación de inversiones y en la planificación de

proyectos.

●​ Viabilidad: El proyecto es realizable dentro del marco de una especialización en Analitica de

Datos, contando con la disponibilidad de datos y herramientas de análisis necesarias. La

experiencia previa en el uso de bibliotecas como Pandas, Plotly y Scikit-Learn facilita la

implementación del modelo y la validación de sus resultados.

Página 23 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 24 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 17

5​ Alcances y Limitaciones del Proyecto

Alcance:
El proyecto abarca el desarrollo de un modelo predictivo para estimar los precios de
viviendas en Medellín utilizando técnicas de aprendizaje automático. Las actividades incluyen la
48 recolección de datos de propiedades, la limpieza y preprocesamiento de los datos, la
implementación y evaluación de modelos predictivos, y el desarrollo de una aplicación
interactiva para la estimación de precios. Los procesos abordados incluyen:

Obtención de datos a través de web scraping de plataformas inmobiliarias.


Preprocesamiento y limpieza de datos utilizando herramientas como Python y sus librerías
(Pandas, NumPy).
Entrenamiento y evaluación de modelos predictivos (regresión lineal, Random Forest).
Desarrollo de una aplicación interactiva con Streamlit para la estimación de precios.

Limitaciones:
62 Tiempo: El proyecto debe completarse en un plazo determinado, lo que puede limitar la
cantidad de datos que se pueden recolectar y procesar.

Recursos: La disponibilidad de recursos técnicos y financieros puede restringir el alcance


del proyecto.

Factores externos: Cambios en el mercado inmobiliario o en las políticas de acceso a


39 datos pueden afectar la recolección y validez de los datos.

Precisión de los datos: La calidad y precisión de los datos recolectados a través de web
scraping pueden variar, afectando la exactitud del modelo predictivo.

Página 24 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 25 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 18

6​ Marco Referencial

Web Scraping

4 La automatización de recolección de datos de páginas web, se ha ido convirtiendo en una


necesidad debido a la gran cantidad de información a ser procesada. Esto ha llevado a desarrollar
técnicas para dichos procedimientos. Uno de los focos principales de esta propuesta se encuentra
en una técnica denominada como “web scraping”.
Esta técnica de automatización permite ingresar, manipular y extraer información de
sitios web por medio de algoritmos, programas o librerías que simulan la navegación humana a
través de las páginas de los mencionados sitios.
Web scraping es el proceso de recolectar datos contenidos en páginas web mediante
técnicas automatizadas. Lo distintivo del web scraping es que en principio los datos parecen poco
estructurados. Corresponde por tanto al analista de datos identificar cuál es el patrón que siguen
los datos, para luego crear y ejecutar un algoritmo de extracción y procesamiento de estos. En la
práctica lo que se hace es escribir un programa que envía consultas a un servidor web, recibe las
respuestas (usualmente en forma de páginas web) y examina los datos para extraer la información
necesaria (Mitchell, 2015).

Aprendizaje automático
6 Son muchos los tipos de algoritmos de aprendizaje automatizado, entre todos ellos
destacan especialmente dos: aprendizaje supervisado y no supervisado. Sin lugar a duda, el
aprendizaje supervisado es el uso más común en el ámbito del machine learning. Este tipo de
aprendizaje es un enfoque de aprendizaje automático que se define por el uso de conjuntos de
datos etiquetados. Estos conjuntos de datos están diseñados para poder ser entrenados o
supervisados mediante algoritmos que clasifiquen todos estos datos o predigan resultados con
precisión. (Pellicer, Martinez Laura, 2021-2022)

6 Por otro lado, el aprendizaje no supervisado utiliza algoritmos de aprendizaje automático


para analizar y agrupar conjuntos de datos no etiquetados. Este tipo de algoritmos descubren

Página 25 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 26 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 19

patrones ocultos en los datos sin necesidad de intervención humana, de ahí su nombre
(Supervised vs. Unsupervised Learning 2021). Por tanto, la principal diferencia entre ambos
enfoques es el uso o no de conjuntos de datos etiquetados. Sintetizando, el aprendizaje
supervisado utiliza datos de entrada y salida etiquetados, mientras que un algoritmo de
aprendizaje no supervisado no lo hace. (Pellicer, Martinez Laura, 2021-2022)

8 Python
Cuenta con facilidades para la programación orientada a objetos, imperativa y funcional,
por lo que se considera un lenguaje multi-paradigmas. Fue basado en el lenguaje ABC y se dice
que fue influenciado por otros como C, Algol 60, Modula-3 e Icon según su propio autor. Es un
lenguaje de alto nivel ya que contiene implícitas algunas estructuras de datos como listas,
diccionarios, conjuntos y tuplas, que permiten realizar algunas tareas complejas en pocas líneas
de código y de manera legible.

Limpieza de datos
10 El éxito del proceso de la limpieza de datos está en la determinación de qué es necesario
limpiar, por ello, el primer paso es sumamente importante. Con él se determinan los problemas
fundamentales de los datos y podrá determinarse qué métodos y herramientas emplear para
realizar la limpieza. En una primera aproximación al problema de la creación de herramientas de
limpieza para nuestro medio, también este análisis general resulta importante, pues dará cuales
son los problemas fundamentales que presentan los datos en los sistemas operacionales y por lo
tanto brindará una guía de cómo atacar el problema de la creación de
herramientas para la limpieza de los datos.
Plotly
8 Plotly contiene funciones y métodos necesarios para la representación gráfica de
funciones tanto en dos como en tres dimensiones. Permiten la creación de todo tipo de gráficos,
desde rectas de regresión hasta histogramas. (Fraguas, 2021)

Página 26 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 27 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 20

1 Pandas
Es una librería de Python para la manipulación de datos y el análisis de datos, Pandas es
una de las librerías de Python más útiles para los científicos de datos. Las estructuras de datos
principales en pandas son Series para datos en una dimensión y DataFrame para datos en dos
dimensiones. Estas son las estructuras de datos más usadas en muchos campos tales como
finanzas, estadística, ciencias sociales y muchas áreas de ingeniería. (Martinez & Tellez, 2021)

31 Numpy
Es una biblioteca de código abierto de Python que se utiliza ampliamente en ciencia e
ingeniería. La biblioteca NumPy contiene estructuras de datos de matriz multidimensionales,
como la homogénea, N-dimensional ndarray una gran biblioteca de funciones que operan de
manera eficiente en estas estructuras de datos.

Streamlit
Es un marco de trabajo de código abierto de Python para científicos de datos e ingenieros
de IA/ML que les permite crear aplicaciones de datos dinámicas con solo unas pocas líneas de
código.

Regresión Lineal
19 La regresión lineal es una técnica estadística utilizada para modelar la relación entre una
variable dependiente y una o más variables independientes. En la predicción de precios de
viviendas, la fórmula general de la regresión lineal es:

17 Y=β0+β1X1+β2X2+...+βnXn+ϵY = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n +


\epsilonY=β0​+β1​X1​+β2​X2​+...+βn​Xn​+ϵ

25 donde YYY es el precio de la vivienda, β0\beta_0β0​es la intersección, β1,β2,...,βn\beta_1,


17 \beta_2, ..., \beta_nβ1​,β2​,...,βn​son los coeficientes, X1,X2,...,XnX_1, X_2, ..., X_nX1​,X2​,...,Xn​
son las características de la vivienda y ϵ\epsilonϵ es el error residual. (Montgomery, Peck, &
Vining, 2012).

Página 27 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 28 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 21

Random Forest
5 Es una técnica de aprendizaje automático perteneciente a la familia de algoritmos de
bagging, ya que está basada en el ensamblaje de árboles de decisión. (Sicilia Gomez, 2024)
9 Es una combinación de árboles predictivos (clasificadores débiles); es decir, una
modificación del Bagging, el cual trabaja con una colección de árboles incorrelacionados y los
promedia (Hastie, Friedman y Tibshirani, 2001), en el cual se tiene que cada árbol depende de los
valores de un vector aleatorio de la muestra de manera independiente y con la misma distribución
de todos los árboles en el bosque. La generalización de error para los bosques converge a un
límite en cuanto el número de árboles en el bosque sea grande. El error de generalización de un
bosque de árboles de clasificación depende de la fuerza de los árboles individuales en el bosque y
la correlación entre ellos. (Medina, 2017)
5 En este método, se construyen múltiples árboles de decisión independientes, cada uno
entrenado en una submuestra aleatoria del conjunto de datos. Después de que cada árbol en el
bosque ha realizado una predicción para un determinado punto de datos, se cuenta el voto de cada
árbol. En el caso de la clasificación, la clase con más votos se considera la predicción final. En el
caso de la regresión, se promedian las predicciones de todos los árboles para obtener un valor
final. Esta combinación de predicciones de múltiples árboles ayuda a reducir el sesgo y la
varianza del modelo, resultando en una predicción más precisa y robusta. (Sicilia Gomez, 2024)
Sus ventajas incluyen la capacidad de manejar conjuntos de datos grandes y complejos, la
reducción del riesgo de sobreajuste gracias a su naturaleza de ensamblaje, y la capacidad de
proporcionar estimaciones de la importancia de las características para la predicción. (Sicilia
Gomez, 2024)

6.1 Antecedentes

Para la siguiente investigación, que corresponde a (Palacios & César, 2021.) quien se
1 centró en crear un método automatizado para la predicción del avalúo comercial de inmuebles en
40 Bogotá haciendo uso de técnicas de machine learning y resaltando los algoritmos de aprendizaje

Página 28 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 29 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 22

automático, para el manejo de grandes volúmenes de datos sino también la importancia de la


segmentación y análisis detallado de las características de los inmuebles.

60 En búsqueda de herramientas que permitan la valoración y predicción de precios en el


30 ambiente inmobiliario, el trabajo de grado “Análisis y predicción de precios en alquiler de
vivienda en la ciudad de Valencia” de Laura Pellicer Martínez, realizado en la Universidad
Politécnica de Valencia entre el año 2020 y 2021, se evidencian grandes aportes relacionados con
información precisa sobre el alquiler de los inmuebles, esto con base en los datos recolectados y
en la implementación de herramientas como scraping y modelos de aprendizaje automático.

La metodología utilizada por Pellicer, se enmarca en la recolección de datos a través de


scraping, teniendo en cuenta que son publicados por inmobiliarias en diferentes plataformas
1 comerciales. Los datos recolectados permitían identificar características de las viviendas, como
64 cantidad de habitaciones, baños, metros cuadrados, ubicación, entre otros que son relevantes en la
determinación del precio de la vivienda. Por consiguiente, los datos fueron depurados, verificados
19 y llevados a la herramienta de análisis estadístico y la construcción de modelos predictivos de R
32 Studio. Los resultados obtenidos demostraron una alta precisión en la predicción de precios, lo
que resalta la efectividad de estos modelos para captar las dinámicas del mercado inmobiliario y
proporcionar estimaciones confiables.

De conformidad con lo establecido en el trabajo de grado de Pellicer y con los resultados


obtenidos, podemos concluir que la metodología utilizada puede adaptarse para abordar la
14 predicción de precios de vivienda en la ciudad de Medellín, lo que permitiría el desarrollo de un
65 modelo estándar de mucha importancia para la toma de decisiones informadas por el mercado
inmobiliario.

Es así como este antecedente nos muestra la importancia de contar con herramientas de
modelos predictivos, actualizadas y que hagan uso de técnicas avanzadas de análisis, lo cual
garantiza una efectividad y veracidad en la consulta de información que serviría como fuente
principal en la toma de decisiones. . (Pellicer, 2021-2022)

Página 29 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 30 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 23

56 Por otra parte, de acuerdo con la investigación de Reyes Feria la cual se enfoca en la
16 creación de un sistema automatizado que utiliza técnicas avanzadas de web scraping y
45 aprendizaje automático para la estimar los precios de venta de propiedades inmobiliarias. Por
medio de la recolección de datos de las principales plataformas inmobiliarias de chile, México y
Colombia, el proyecto logró construir una base de datos robusta que alimenta modelos de
regresión predictiva, desarrollando una interfaz web que permite a los usuarios obtener
recomendaciones de precios basadas en las características de los inmuebles como la ubicación,
número de habitaciones y número de baños y demás amenidades disponibles. Reyes Feris, A.
(2022).

6.2 Marco teórico

1 6.2.1 Finca Raiz

1 Es un portal web en colombia que ofrece inmuebles en venta y arriendo en donde se


puede encontrar anuncios de constructoras, inmobiliarias o particulares como vivienda usada,
locales comerciales, proyectos de vivienda nuevos y usados, es importante mencionar que dia a
dia este portal se va actualizando con mas anuncios sobre arriendo o venta, este página es
amigable con el cliente ya que se encuentra compuesta con diferentes filtros de acuerdo a la
1 necesidad del cliente algunos de ellos son el número de habitaciones, el área del inmueble, el
1 numero de baños, el estrato del inmueble, la antigüedad del inmueble entre otros.
Otra de las funcionalidades de estos filtros es que permite filtrar para buscar solamente inmuebles
usados filtrando por apartamentos y casas permitiendo filtrar por la antigüedad 1

34
49
1
Venta y Arriendo de Apartamentos, Casas y otros Inmuebles en Colombia. (s/f). Fincaraíz. Recuperado
el 4 de enero de 2025, de [Link]

Página 30 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 31 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 24

6.2.2 Metro Cuadrado

35 Es un portal web con más de 22 años en el mercado que ofrece una amplia oferta de
inmuebles nuevos y usados para la venta y arriendo de inmuebles donde tiene la facilidad de
contactar con el anunciante, adicionalmente también ofrece servicios como simulación, solicitud
de crédito y compra de cartera.
2
Este portal cuenta con una serie de filtros que permiten realizar la búsqueda por tipo de
inmueble, si es usado o nuevo y la ubicación donde se desea adquirir el inmueble.

6.2.3 Mercado libre

Es un portal web que ofrece diferentes categorías al cliente como: vehículos,


moda,belleza, cuidado personal, construcción y el que nos interesa es el sector de inmuebles
contando con una serie de filtros que permiten realizar la búsqueda por venta o arriendo, tipo de
inmueble y la ciudad o barrio donde desea realizar la adquisición.3

1 6.2.4 Excel

Es un programa informático desarrollado por Microsoft y forma parte de office y una


1 suite informática,excel es un programa muy esencial hoy en dia para el análisis y tratamiento de
1 datos gracias a sus numerosas funciones ofreciendo un set de herramientas para el análisis de
1 datos numéricos y categóricos incluyendo un espacio para la programación de visual basic por
1 medio del lenguaje de macros de Microsoft, por otra parte excel ofrece la oportunidad de realizar
una limpieza y transformación de los datos de manera manual para el tratamiento de grandes
volúmenes de datos .4

18 2
Apartamentos, Casas y Otros Inmuebles en Venta o Arriendo en Colombia – Metrocuadrado.
(s/f). [Link]. Recuperado el 4 de enero de 2025, de [Link]
3
Inmuebles. (s/f). [Link]. Recuperado el 4 de enero de 2025, de
[Link]
4
Ortiz, M. (2021, marzo 10). Qué es Excel y para qué sirve. Excel Total.
[Link]

Página 31 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 32 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 25

6.3 Marco Conceptual

6.3.1 Inmuebles

Un bien inmueble se define como aquel bien que está permanentemente adherido al suelo
1 y no puede ser trasladado sin alterar su [Link]ún Perez y Gardey estos bienes forman
parte de lo que se conoce como bienes raíces, dada su naturaleza arraigada al suelo en donde se
puede encontrar lo que son las casas, los edificios o terrenos.

1 Actualmente existen dos tipos de inmueble el rústico y el inmueble urbano, el inmueble


1 rustico puede identificarse por ser rudimentario y agrario, estos son aquellos que son utilizados
para el desarrollo de actividades agrí[Link] otro lado el inmueble urbano se puede encontrar en
zonas más de ciudad como casas, edificios y locales.5

1 6.3.2 Vivienda
Segun Perez y Gardey, se define vivienda como aquel lugar cerrado y cubierto que es
construido para que habiten personas, ofreciendo refugio y protegiendo de condiciones
1 climá[Link] casa, apartamento entre otros son usados como sinónimo de vivienda, la
utilización de cada concepto depende generalmente de características asociadas a su
6
construcción.

20 6.3.3 Mercado Inmobiliario


El mercado inmobiliario es el conjunto de las acciones de oferta y demanda de bienes
inmuebles,la naturaleza de estos bienes puede ser distinta diferenciándose por bienes de

15 5
Pérez Porto Julian y Gardey Ana. Actualizado el 7 de octubre de 2021. Vivienda - Qué es,
definición y concepto. Disponible en ([Link] )

15 6
Pérez Porto Julián y Gardey Ana . Actualizado el 22 de septiembre de 2022. Inmueble - Qué es,
clasificación, definición y concepto. Disponible en ([Link] )

Página 32 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 33 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 26

1 naturaleza residencial, comercial, industrial y urbano.7 Todas las operaciones que se produzcan
relacionadas con la compra y venta de este tipo de inmuebles forman el sector inmobiliario,
esencial para el desarrollo de una economía sostenible.

6.4 Marco Contextual

3 En Medellín, según Camacol y La Lonja, esa misma relación inversa indica que la venta
de vivienda para estrenar bajó más de 25% y, en contraste, la toma de casa en alquiler se
incrementó 27%. Como quien dice, aumenta más la gente que vive en casa ajena que la que
reside en techo propio.

3 Datos del mercado indican que la compra de vivienda nueva en Colombia cayó 45% el
año pasado, mientras que los nuevos contratos de arrendamiento aumentaron 11%.

3 En el caso de la capital antioqueña hay una particularidad adicional: la llegada de


nómadas digitales que trabajan remotamente y buscan alojamientos más largos que pueden
superar los siete meses en promedio cuya estancia se traduce en una demanda adicional que
estimula los contratos de arrendamientos.

Alberto Rodríguez, CEO de la inmobiliaria Century 21, reveló que para esta compañía la
firma de nuevos arriendos creció 30% el año pasado en Medellín y estuvo de acuerdo con que esa
dinámica obedece a las capacidades financieras de los hogares.

3 Según las proyecciones del Dane, antes del censo publicado en 2018, los nuevos hogares
en Antioquia crecerían a una tasa superior al 10%. Este último es un factor a tener en cuenta,
pues a juicio de los especialistas en vivienda, es claro que no todas las familias recién

23
7
¿Qué es el mercado inmobiliario? (2019, septiembre 24). Realia.
[Link]

Página 33 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 34 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 27

3 conformadas pueden comprar casa propia inmediatamente y su vida como unidad comienza
pagando arriendo.

27 6.5 Marco legal

●​ Ley 1581 de 2012

“Por la cual se dictan disposiciones generales para la protección de datos personales.”

1 En este proyecto no se vulnera información ni los datos privados de los individuos que
hayan publicado sus viviendas a la venta dentro de las páginas web utilizadas para realizar la
extracción de la data, ya que las personas deben de ser conscientes de que la información
1 publicadas en las páginas web son de manejo público y cualquier persona puede acceder a ella, es
responsabilidad de la persona que publica la oferta saber que publicar y que no. 8

1 ●​ Ley 1266 de 2008

“Por la cual se dictan las disposiciones generales del hábeas data y se regula el manejo de la
información contenida en bases de datos personales, en especial la financiera, crediticia,
comercial, de servicios y la proveniente de terceros países y se dictan otras disposiciones.”

1 En este proyecto, se tiene en cuenta que existe la ley que regula el manejo de la
información por parte de todas las entidades financieras, sin embargo los datos obtenidos a lo
largo de este proyecto no compromete la integridad de las personas, ya que son publicadas en
plataformas públicas y no son datos personales de personas en específico.9

11 8
Ley 1581 de 2012 - Gestor Normativo. (s/f). [Link]. Recuperado el 4 de enero de 2025,
de [Link]
9
Ley 1266 de 2008 - Gestor Normativo. (s/f). [Link]. Recuperado el 4 de enero de
2025, de
[Link]

Página 34 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 35 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 28

1 ●​ Ley 388 de 1997

“Reglamentada por los Decretos Nacionales 150 y 507 de 1999; 932 y 1337 de 2002; 975 y
1788 de 2004; 973 de 2005; 3600 de 2007; 4065 de 2008; 2190de 2009; Reglamentada
parcialmente por el Decreto Nacional 1160 de 2010”

“Por la cual se modifica la Ley 9 de 1989, y la Ley 2 de 1991 y se dictan otras disposiciones”

1 Dentro de los objetivos de esta ley se encuentran

●​ Armonizar y actualizar las disposiciones contenidas en la Ley 9 de 1989 con las nuevas
normas establecidas en la Constitución Política, la Ley Orgánica del Plan de Desarrollo, la
Ley Orgánica de Áreas Metropolitanas y la Ley por la que se crea el Sistema Nacional
Ambiental.
●​ El establecimiento de los mecanismos que permitan al municipio, en ejercicio de su
autonomía, promover el ordenamiento de su territorio, el uso equitativo y racional del
suelo, la preservación y defensa del patrimonio ecológico y cultural localizado en su
ámbito territorial y la prevención de desastres en asentamientos de alto riesgo, así como la
ejecución de acciones urbanísticas eficientes.
●​ Garantizar que la utilización del suelo por parte de sus propietarios se ajuste a la función
social de la propiedad y permita hacer efectivos los derechos constitucionales a la
vivienda y a los servicios públicos domiciliarios, y velar por la creación y la defensa del
espacio público, así como por la protección del medio ambiente y la prevención de
desastres.
10
Metodología

Diseño de la investigación: El enfoque general del proyecto será cuantitativo, utilizando


26 técnicas de aprendizaje automático para la predicción de precios de viviendas.

Recogida de datos: Los datos serán recolectados mediante técnicas de web scraping de
plataformas inmobiliarias. Se utilizarán librerías de Python como BeautifulSoup y Scrapy para
extraer información relevante sobre las propiedades, incluyendo ubicación, tamaño, número de
habitaciones, entre otros.

11 Ley 388 de 1997 - Gestor Normativo. (s/f). [Link]. Recuperado el 4 de enero de 2025,
10

de [Link] =339

Página 35 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 36 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 29

Análisis de datos: Los datos recolectados serán procesados y analizados utilizando Python
y librerías como Pandas para la limpieza y normalización, y Scikit-learn para el entrenamiento y
14 evaluación de modelos predictivos. Se emplearán métricas como el error cuadrático medio (MSE)
y el coeficiente de determinación (R²) para evaluar el rendimiento de los modelos.

Plan de ejecución:

Recolección de datos: Obtener datos relevantes sobre propiedades en Medellín.

Limpieza de datos: Preprocesar los datos recolectados para eliminar duplicados y corregir errores.

Desarrollo del modelo: Entrenar y evaluar modelos predictivos.

Implementación de la aplicación: Desarrollar una aplicación interactiva para la estimación de


precios.

Evaluación de la aplicación: Evaluar la funcionalidad y usabilidad de la aplicación mediante


encuestas a usuarios.

6.1​ Enfoque de investigación

Enfoque Cuantitativo

Este enfoque utiliza datos numéricos estructurados y está diseñado para:

●​ Objetividad: Emplea métodos estadísticos y matemáticos para analizar relaciones.


●​ Generalización: Los resultados obtenidos son extrapolables al mercado inmobiliario de
Medellín.
26 ●​ Precisión: Al utilizar técnicas de aprendizaje automático (como regresión lineal y Random
Forest), se minimizan errores humanos en el análisis y predicción.

Metodología:
●​ Obtención de datos: A través de plataformas web confiables como Finca Raíz y Metro
Cuadrado.

Página 36 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 37 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 30

●​ Validación de datos: Implementar técnicas como análisis de correlación para garantizar su


relevancia y calidad.
●​ Predicción y análisis: Uso de algoritmos avanzados para establecer patrones y tendencias
en el mercado.

6.2​ Tipos de investigación

Investigación Explicativa

Busca identificar y comprender las relaciones causales entre las características de las
propiedades y su precio en el mercado inmobiliario. Esto es clave para un modelo predictivo
robusto, ya que permite determinar qué factores tienen mayor impacto en el precio de una
vivienda y por qué.

Preguntas clave y justificación

1.​ ¿Qué tan relevante es la ubicación en el precio?

Justificación:
La ubicación es un factor crítico en el mercado inmobiliario. La cercanía a servicios
(colegios, transporte público, centros comerciales), la seguridad del barrio y el desarrollo
urbanístico impactan significativamente el valor de una propiedad.

2.​ ¿Cuánto influye el número de baños o habitaciones?

Justificación:
Estas características suelen ser indicadores de comodidad y funcionalidad en una
vivienda. Un mayor número de baños puede ser particularmente atractivo para familias
grandes o compradores de alto estrato, mientras que las habitaciones son fundamentales
en el precio de propiedades familiares.

Página 37 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 38 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 31

3.​ ¿Qué influencia tiene el tamaño en metros cuadrados?


Justificación:
El tamaño de la propiedad es una métrica directa del espacio disponible y, generalmente,
está correlacionado con el precio. Sin embargo, el impacto del tamaño puede variar según
el estrato y la ubicación.

4.​ ¿Cómo impacta el estrato socioeconómico en el valor?


Justificación:
En Medellín, el estrato está asociado con acceso a servicios públicos subsidiados,
infraestructura y percepción de estatus. Las propiedades en estratos más altos suelen ser
más costosas debido al entorno y los servicios ofrecidos.

5.​ ¿Qué efecto tienen las características secundarias (antigüedad, tipo de inmueble,
amenidades)?
Justificación:
Características como la antigüedad de la propiedad, si cuenta con piscina o parqueadero, o
si es nueva o usada, también influyen en la decisión de compra y, por ende, en el precio.

Herramientas

Regresión lineal: Útil para entender relaciones causales claras y lineales entre las
variables (ejemplo: el tamaño en metros cuadrados y el precio).
Random Forest: Ideal para capturar relaciones complejas y no lineales, además de
identificar la importancia relativa de cada característica.

Investigación Exploratoria

Página 38 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 39 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 32

La investigación exploratoria es clave en la etapa inicial del proyecto porque permite


desarrollar una comprensión profunda del problema y su contexto. Además, ayuda a sentar las
bases para fases posteriores al identificar variables, relaciones y posibles patrones en los datos
recolectados.

Objetivo
Entender el contexto del mercado inmobiliario en Medellín y definir los elementos más
relevantes para el análisis predictivo.

●​ Identificar variables no contempladas inicialmente que puedan tener un impacto


significativo en el precio de las propiedades (como antigüedad, tipo de vendedor,
disponibilidad de parqueadero, etc.).
●​ Explorar patrones iniciales en los datos para guiar la limpieza, transformación y
modelado predictivo.

Importancia:
Una investigación exploratoria robusta permite evitar sesgos y maximizar la utilidad del
modelo al incluir todas las variables significativas y descartar las irrelevantes o redundantes.

Métodos
Se realiza un análisis preliminar utilizando herramientas y técnicas de ciencia de datos,
tales como:

Exploración inicial de datos:


●​ Descripción de las variables: Uso de Pandas para generar estadísticas básicas (medias,
medianas, desviaciones estándar) que permitan entender la distribución de cada variable.
●​ Distribución de datos: Visualización de variables clave (precios, tamaños, ubicación)
usando histogramas y boxplots para detectar valores atípicos.

Página 39 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 40 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 33

Identificación de correlaciones:
●​ Análisis estadístico: Uso de Matplotlib y Seaborn para generar heatmaps que muestran
correlaciones entre variables como tamaño, estrato, precio, y antigüedad.
●​ Detección de multicolinealidad: Identificar variables altamente correlacionadas entre sí
que puedan ser redundantes.

Visualización de patrones:
●​ Uso de Plotly para generar gráficos interactivos que permitan observar tendencias por
barrio, estrato, etc.

Justificación del enfoque exploratorio


●​ Flexibilidad: Permite ajustar el modelo en función de los descubrimientos iniciales.
●​ Reducción de errores: Identifica inconsistencias en los datos y asegura que las variables
seleccionadas sean relevantes.
●​ Guía para futuras fases: Informa las decisiones sobre qué modelos utilizar y cómo
estructurar las predicciones.

6.3​ Diseños de Investigación

Investigación No Experimental

La investigación no experimental es un diseño que se enfoca en observar, analizar y describir


fenómenos sin intervenir directamente en ellos. Este diseño es ideal para proyectos donde el
objetivo principal es analizar datos existentes y establecer relaciones entre variables de manera
objetiva.

Justificación del Diseño No Experimental


●​ Naturaleza del problema: El mercado inmobiliario es un sistema complejo donde las
variables están influenciadas por múltiples factores externos (demanda, oferta, políticas

Página 40 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 41 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 34

económicas). Manipular estas variables directamente sería impráctico y poco ético en un


contexto real.
●​ Por lo tanto, este diseño permite trabajar con datos recolectados de manera pasiva,
respetando la dinámica del mercado.

Objetivo del proyecto:

●​ El objetivo es desarrollar un modelo predictivo basado en datos reales obtenidos de


plataformas como Finca Raíz, Metro Cuadrado, Mercado Libre, sin modificar los
valores o las características de las propiedades observadas.
●​ Esto asegura que los resultados sean representativos del mercado inmobiliario actual.
Ventajas del Diseño No Experimental
●​ Realismo: Los datos recolectados reflejan el mercado inmobiliario tal como es, sin
introducir sesgos por manipulación.
●​ Viabilidad: Es práctico y accesible, ya que los datos ya están disponibles en plataformas
públicas.
●​ Flexibilidad: Permite analizar una gran cantidad de datos y ajustar el enfoque según las
tendencias observadas durante el análisis.
●​ Aplicación inmediata: Los hallazgos se pueden implementar directamente en el modelo
predictivo, ofreciendo resultados relevantes y accionables.

6.4​ Población y muestra

Población
Todas las propiedades residenciales listadas en plataformas inmobiliarias relevantes de
Medellín.
Características:
●​ Viviendas de todos los estratos, tamaños y ubicaciones dentro del perímetro urbano de
Medellín.
●​ Se incluyen viviendas nuevas y usadas.

Página 41 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 42 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 35

Exclusiones:
Propiedades en arriendo y aquellas con información incompleta o inconsistente.
Muestra
Todas las propiedades disponibles en las plataformas inmobiliarias al momento de la
recolección de datos.

6.5​ Plan de análisis de la información

Un enfoque sistemático para recolectar, procesar, analizar y modelar datos, garantizando


que los resultados sean precisos, relevantes y accionables.

1. Recolección de Datos
Herramientas utilizadas:
●​ Librerías de Python: BeautifulSoup y Scrapy: Para scraping estructurado de páginas
estáticas.
●​ Selenium: Para interactuar con contenido dinámico.
●​ Extensión Web Scraper - Free Web Scraping.

2. Limpieza y Preprocesamiento de Datos

Herramientas:
●​ Pandas: Para manejar tablas y transformar datos.
●​ NumPy: Para operaciones matemáticas y manejo de datos numéricos.

Tareas clave:
●​ Normalización de variables: Convertir unidades a formatos estándar (ejemplo: metros
cuadrados).
●​ Homogeneizar categorías (ejemplo: "Estrato 2" y "estrato 2" deben unificarse).

Página 42 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 43 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 36

●​ Eliminación de duplicados: Identificar propiedades repetidas en diferentes plataformas


mediante campos clave (dirección, tamaño, precio).
●​ Tratamiento de valores nulos: Rellenar valores faltantes con la mediana o media según la
variable, o eliminar registros incompletos si es necesario.

3. Exploración Inicial de Datos


Entender el comportamiento de los datos y encontrar patrones o relaciones preliminares.

Herramientas:
●​ Plotly y Matplotlib: Para crear gráficos interactivos y visualizaciones claras.

Tareas clave:
●​ Identificar correlaciones entre variables (ejemplo: precio y tamaño, precio y estrato).
●​ Graficar distribución de precios según barrios y estratos.
●​ Crear histogramas y gráficos de densidad para observar tendencias generales.
●​
4. Modelado Predictivo
Predecir precios de propiedades con alta precisión, utilizando algoritmos de aprendizaje
automático.

Modelos evaluados:
●​ Regresión lineal: Para relaciones lineales simples entre variables.
37 ●​ Random Forest: Para capturar relaciones no lineales y complejas.
Tareas clave:
24 ●​ Dividir los datos en conjuntos de entrenamiento y prueba (ejemplo: 80%-20%).
●​ Realizar validación cruzada para evaluar la robustez de los modelos.
24 ●​ Seleccionar el modelo más adecuado basado en las métricas de rendimiento.

5. Evaluación y Optimización
Garantizar que el modelo final sea robusto, preciso y generalizable.

Página 43 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 44 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 37

Métricas clave:

21 ●​ MSE (Error cuadrático medio): Para medir la precisión global del modelo.
●​ R² (Coeficiente de determinación): Para evaluar qué tan bien se explica la variabilidad
del precio por las variables seleccionadas.

6.5.1​ Instrumentos de recolección de información

1.​ Web Scraping

38 El proceso de recolección de datos se realizó a través de técnicas de Web Scraping,


extrayendo información de plataformas inmobiliarias mediante el uso de herramientas
especializadas.

●​ BeautifulSoup y Scrapy para extraer datos​


16 Se utilizaron estas librerías de Python para la extracción de información de las páginas
web de anuncios inmobiliarios.
1 ○​ BeautifulSoup facilitó el análisis y parseo de estructuras HTML para obtener
1 datos como precios, ubicación y características de las viviendas.
○​ Scrapy permitió la automatización del proceso de scraping a gran escala,
estructurando los datos de múltiples fuentes de manera eficiente.

Se muestra la siguiente imagen donde se evidencia el código desarrollado

Página 44 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 45 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 38

Figura 1: Python librerias BeautifulSoup y Scrapy

Página 45 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 46 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 39

●​ Extensión Web Scraper - Free Web Scraping

El desarrollo de la extracción de información se dio por medio de las páginas web como
finca raíz, metro cuadrado y mercado libre, utilizando filtros con la ubicación de la ciudad de
Medellín, seleccionando las variables de interés para la generación de la data, es nuestro caso se
tuvo en cuenta la ubicación, precio, metros cuadrados, cantidad de baños y habitaciones.

Figura 2. Finca Raíz. (2025.). Elaboración [Link] Scraping.

Figura 3. Finca Raíz. (2025.). Elaboración [Link] Scraping.

Página 46 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 47 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 40

Figura [Link] Raíz. (2025.). Elaboración [Link] Scraping.

1.​ Limpieza de datos:


●​ Una vez obtenidos los datos mediante Web Scraping, fue necesario aplicar un proceso
41 de limpieza y estructuración para garantizar la calidad y consistencia de la información
16 mediante pandas para la transformación de datos.

Página 47 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 48 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 41

Figura 5 Código fuente de limpieza de datos

2.​ Análisis:
●​ Matplotlib y Plotly para visualización.
​ Código fuente desarrollado en la siguientes imágenes, se desarrolló en dos archivos
​ plotly_functions.py se crean distintas funciones para poder trabajar las gráficas con plotly

Página 48 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 49 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 42


Figura 6 Código fuente para desarrollar funciones con Plotly

Página 49 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 50 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 43

Figura 7 Código fuente para desarrollar funciones con Plotly

Se creo un archivo Main_Visual.py para la interfaz del usuario y el análisis exploratorio

Página 50 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 51 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 44

Figura 8. Código fuente para interfaz mediante Streamlit

Página 51 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 52 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 45

Figura 9. Código fuente para interfaz mediante Streamlit

Página 52 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 53 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 46

Figura 10. Código fuente para interfaz mediante Streamlit

●​ Scikit-learn para modelado predictivo.


​ Se creo un archivo modelo_regresion.py donde se maneja todo lo del código y el código
fuente es el siguiente:

Página 53 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 54 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 47

​ ​
Figura 11. Modelo de regresión lineal

Página 54 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 55 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 48

6.6​ Cronograma

Figura 12. Modelo de regresión lineal

6.7​ Presupuesto

Componentes Costo
estimado

Equipos (3 portátiles, internet) 8.400.000

Mano de obra (3 analistas de datos) 22.500.000

Materiales (Encuestas, consultas internet) Gratuito

Software (Python y librerías) Gratuito

Otros (mantenimiento de equipos, adquirir licencias o software) 4.000.000

Total 34.900.000

Tabla 1: Presupuesto

Página 55 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 56 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 49

7​ Desarrollo de las fases del proyecto

67 El proyecto se divide en varias fases claramente definidas para garantizar un enfoque


sistemático y metodológico. Estas fases abarcan desde la planificación inicial hasta la
implementación final, alineándose con los objetivos de la especialización en analítica de datos.

Fase 1: Planificación y Definición del Proyecto

Objetivo: Establecer los fundamentos del proyecto y definir sus límites.


Actividades:
●​ Identificación del problema central: Falta de herramientas predictivas precisas
para precios de viviendas en Medellín.
●​ Revisión de literatura y antecedentes relacionados con predicción de precios
inmobiliarios y técnicas de aprendizaje automático.
●​ Planteamiento de objetivos generales y específicos.
●​ Selección del enfoque de investigación (cuantitativo) y diseño del estudio (no
experimental).
Resultado esperado:​
Documento inicial con objetivos claros, marco teórico y metodológico.

Fase 2: Recolección y Preparación de los Datos


Objetivo: Obtener y estructurar un conjunto de datos representativo del mercado
inmobiliario de Medellín.
Actividades:
●​ Recolección: Implementar web scraping mediante herramientas como Web
Scraper y librerías de Python (BeautifulSoup, Scrapy, Selenium) para extraer datos
de plataformas inmobiliarias.
●​ Validación: Asegurar la calidad y consistencia de los datos recolectados mediante
verificaciones manuales y estadísticas.
Preprocesamiento:

Página 56 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 57 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 50

●​ Limpieza de datos: Eliminar duplicados, tratar valores faltantes y normalizar


variables.
●​ Enriquecimiento: Incorporar datos geográficos y contextuales (proximidad a
servicios, nivel de seguridad del barrio).

22 Resultado esperado:
Conjunto de datos estructurado, limpio y listo para el análisis.

Fase 3: Exploración y Análisis Preliminar


Objetivo: Comprender el comportamiento de los datos y determinar variables clave.
Actividades:
12 ●​ Análisis descriptivo para identificar patrones y tendencias generales en los precios.
●​ Visualización de datos mediante herramientas como Plotly y Matplotlib para
identificar correlaciones y distribuciones.
●​ Identificación de variables relevantes mediante técnicas estadísticas (correlación
de Pearson, análisis de varianza).
Resultado esperado:
Insights iniciales sobre las relaciones entre variables y su impacto en el precio.

Fase 4: Desarrollo del Modelo Predictivo


66 Objetivo: Crear un modelo predictivo capaz de estimar los precios de las viviendas con
alta precisión.
Actividades:
●​ Selección de modelos a evaluar: Regresión lineal, Random Forest.
13 ●​ División de los datos en conjuntos de entrenamiento y prueba.
●​ Entrenamiento y validación de los modelos mediante técnicas como validación
cruzada.
54 ●​ Optimización de hiperparámetros para mejorar el rendimiento del modelo
seleccionado.

Página 57 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 58 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 51

Resultado esperado:
Modelo predictivo optimizado, listo para ser implementado.

Fase 5: Implementación de la Solución


18 Objetivo: Desarrollar una aplicación interactiva que permita a los usuarios estimar precios
de vivienda.
Actividades:
●​ Diseño de la interfaz de usuario utilizando herramientas como Streamlit.
●​ Integración del modelo predictivo con la aplicación.
●​ Pruebas de usabilidad con usuarios para garantizar que la herramienta sea intuitiva
y funcional.
Resultado esperado:
Aplicación interactiva funcional que ofrece predicciones precisas basadas en las
características ingresadas por el usuario.

Fase 6: Evaluación y Documentación


Objetivo: Validar la solución desarrollada y generar conclusiones sobre su impacto.
Actividades:
●​ Evaluación del modelo y la aplicación mediante métricas técnicas (MSE, R²) y
encuestas de satisfacción a usuarios.
●​ Análisis del impacto del modelo en la toma de decisiones del mercado
inmobiliario.
●​ Documentación completa del proyecto, destacando aprendizajes, limitaciones y
recomendaciones futuras.

Resultado esperado:
Informe final con conclusiones, limitaciones y posibilidades de mejora.

Página 58 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 59 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 52

8​ Resultados y discusión

Este proyecto logró desarrollar un modelo para predecir precios de viviendas en Medellín
utilizando técnicas de aprendizaje automático. Al recolectar y analizar datos de plataformas
inmobiliarias mediante web scraping, se creó un modelo que ha mostrado ser preciso en sus
predicciones. Además, se implementó una aplicación interactiva que ayuda a los usuarios a
obtener estimaciones confiables del valor de una propiedad a través de características que se
29 proporcione, facilitando así la toma de decisiones en el mercado inmobiliario.

Mediante el instrumento de Web Scraping y las librerías BeautifulSoup y Scrapy


logramos consolidar la data necesaria para la implementación de modelo predictivo de precios de
2 vivienda en la ciudad de Medellín, la utilización de este método nos permitió poder hacer la
selección de las variables más significativas o de mayor relevancia para nuestro proyecto, además
de la interacción por las diferentes páginas inmobiliarias para la recolección e identificación de
los datos, pues entrar a validar y realizar todo el análisis para la selección de datos específicos
hace que nuestro proyecto está encaminado siempre a brindar ayuda a los usuarios que utilicen
nuestro modelo predictivo para la toma de decisiones.

Del mismo modo, mediante la librería de Pandas se realiza la limpieza de los datos, es
decir eliminar o depurar esa información que no da valores significativos o de relevancia para la
5 construcción de la data que será el insumo principal para el desarrollo del modelo de predicción
de precios de vivienda.

Luego de consolidar y realizar la limpieza de la data, a través de la librería Matplotlib y


Plotly se logra obtener el análisis exploratorio, identificando donde se da la concentración de los
resultados, por ejemplo se identifica que la mayoría de las viviendas cuentan con un total de 4
habitaciones.​

Página 59 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 60 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 53


​ Figura 13. Análisis exploratorio interfaz gráfica

Figura 14. Análisis exploratorio interfaz gráfica

Figura 15. Análisis exploratorio interfaz gráfica

33 Finalmente, la implementación del modelo predictivo permitió realizar un análisis


33 detallado de los datos recolectados y procesados. Para evaluar la eficacia del modelo, se

Página 60 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 61 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 54

realizaron diversas pruebas y visualizaciones que nos permitieron validar su precisión y


confiabilidad.

61 Mediante la utilización de la librería Scikit-Learn, se implementó un modelo de regresión


lineal que permitió predecir los precios de vivienda con base en las variables seleccionadas. La
21 precisión del modelo se evaluó a través de métricas estadísticas como:

Error Cuadrático Medio (MSE): Se obtuvo un MSE de 529791365485946176.00, lo que


indica la desviación promedio entre los valores reales y los predichos.

50 Coeficiente de Determinación (R²): Se obtuvo un valor de 80.17 %, lo que refleja qué porcentaje
14 de la variabilidad en los precios de las viviendas es explicado por el modelo.

Además, se realizaron gráficos de dispersión y distribuciones de datos mediante las


librerías Matplotlib y Plotly para visualizar patrones en las predicciones. En la Figura 16, se
presentan los resultados del modelo, incluyendo la relación entre los precios reales y los
predichos, así como histogramas de las principales variables.

Asimismo, se verificaron los supuestos del modelo de regresión, analizando la


distribución de los residuos para validar la normalidad y homocedasticidad, asegurando así la
validez del modelo para su aplicación en predicción de precios.

Página 61 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 62 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 55

Figura 16. Resultados del Modelo de regresión lineal

Por último, con base en los resultados obtenidos, se desarrolló una aplicación interactiva
que permite a los usuarios ingresar los datos de una vivienda y recibir una estimación del precio
12 con base en el modelo. Esto representa una herramienta útil para compradores y vendedores en el
mercado inmobiliario, facilitando la toma de decisiones basada en datos.

Página 62 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 63 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 56

12 Figura 17. Interfaz de usuario para interactuar con el modelo de regresión lineal

28 Figura 18. Código para la interfaz de usuario para interactuar con el modelo de regresión lineal

Página 63 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 64 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 57

9​ Conclusiones

La implementación de un sistema predictivo de valoración de precios de vivienda,

mediante la utilización de la Web Scraping y las técnicas de aprendizaje automatizado, nos indica

44 resultados efectivos que arrojan una estimación precisa de los precios de vivienda en la ciudad de

Medellín, lo que permite a los diferentes usuarios la toma decisiones más asertivas en el mercado

inmobiliario el cual presenta bastantes cambios o actualizaciones.

La implementación de un sistema predictivo tiene implicaciones bastantes satisfactorias

para para todos los usuarios, compradores o vendedores del sector inmobiliario, pues de esta

forma se obtienen datos reales y actualizados que permiten el desarrollo de nuevas estrategias

para la planificación de proyectos de inversión, compra o venta de viviendas en la ciudad de

Medellín.

42 En este tipo de proyectos se recomienda la mejora continua y actualización de los

sistemas de información, así como la implementación de nuevas tecnologías que abarquen la

mayor cantidad de datos y características, para que de esta forma los usuarios puedan determinar

la mejor opción de acuerdo con sus necesidades y la estimación de precios de vivienda

Finalmente la implementación de este modelo predictivo demuestra que es necesario

contar con una herramienta que arroje resultados precisos en la estimación de precios de

12 vivienda, acabando así con la desinformación en el sector inmobiliario y aportando de forma

eficiente en la toma de decisiones financieras

Página 64 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 65 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 58

Referencias bibliográficas

(n.d.). Streamlit documentation. Retrieved July 20, 2024, from [Link]


Bedoya Marin, A. E. (2023, 11 1). Automatización de procesos en sitios web y generación de
informes. universidad de antioquia. Retrieved 07 14, 2024, from
[Link]
[Link]
Challenger Perez, I., Diaz, R., & Becerra Garcia, R. A. (2014). El lenguaje de programación
Python. Ciencias Holguín, XX(2), 1-13.
[Link]
Copyright. (2008). NumPy: the absolute basics for beginners — NumPy v2.1.dev0 Manual.
NumPy -. Retrieved July 20, 2024, from
[Link]
Fraguas, E. (2021, 10 06). Comparativa de métodos de aprendizaje automático aplicados a la
predicción del precio del mercado eléctrico diario. Comparativa de métodos de aprendizaje
automático aplicados a la predicción del precio del mercado eléctrico diario. Retrieved 07
20, 2024, from [Link]
Garcia, J., & Posada, C. (2022, diciembre 10). Determinantes de los precios relativos de la
vivienda: Bogotá versus Medellín. Coyuntura Económica: Investigación Económica y
Social, 1(1), pp. 93-105. Retrieved 07 14, 2024, from
[Link]
Lopez Porrero, B., Perez Vasquez, R., & Batule Dominguez, M. (2010). Las reglas de asociación
ordinales en la detección de errores en los datos. Revista Cubana de Ciencias Informáticas,
4(1-2), 47-52. [Link]
Marrugo, C. (2020, 01 10). Aplicación de técnicas de machine learning en la predicción de
precios de viviendas. Activos: Revista de la Facultad de Ciencias Económicas,
Administrativas y Contables. Revista Apuntes de Ciencia e ingeniería, 33-49.
[Link]
Martinez, D., & Tellez, V. (2021). Método automático para la predicción del avalúo comercial de
un inmueble en la ciudad de Bogotá. Trabajo de Grado. Universidad Católica de Colombia.
Facultad de Ingeniería. Programa de Ingeniería de Sistemas. Retrieved 07 20, 2024, from
[Link]
2b6
Medina, R. F. (2017). Bosques aleatorios como extensión de los árboles de clasificación con los
programas R y Python. Dialnet, 165-189.
[Link]
Montgomery, D., Peck, E., & Vining, G. (2012). Introduction to Linear Regression Analysi. John
Wiley & Sons.

Página 65 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 66 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 59

[Link]
[Link]
Palacios, G., & César, C. (2021). Modelo basado en redes neuronales para la predicción de
precios de inmuebles Piura - 2021. Repositorio de la Universidad César Vallejo. Retrieved
June 19, 2024, from [Link]
Pelaez Roldan, S. (2014). Modelo para determinar la probabilidad de la existencia de una burbuja
inmobiliaria en Medellín. Modelo para determinar la probabilidad de la existencia de una
burbuja inmobiliaria en Medellín.
[Link]
95cf/content
Pellicer, Martinez Laura. (2021-2022). Análisis y predicción del precio en alquiler de vivienda en
la ciudad de Valencia. Universidad Politécnica de Valencia, 1(1), 71.
[Link]
Pérez Porto Julian y Gardey Ana. Actualizado el 7 de octubre de 2021. Vivienda - Qué es,
definición y concepto. Disponible en ([Link] )

Pérez Porto Julián y Gardey Ana . Actualizado el 22 de septiembre de 2022. Inmueble - Qué es,
clasificación, definición y concepto. Disponible en ([Link] )

Ramírez, J. C. Q. (2024, febrero 21). La compra de vivienda nueva en Medellín cayó 25% y los
arrendamientos aumentaron 27%. El Colombiano.
[Link]
a-compra-de-casa-nueva-CJ23802770
Reyes, F. (2022, noviembre 1). Desarrollo de un servicio de predicción de precios de venta y
arriendo para inmuebles en Chile, Colombia y México. Desarrollo de un servicio de
predicción de precios de venta y arriendo para inmuebles en Chile, Colombia y México.
Retrieved 06 20, 2024, from [Link]
Sicilia Gomez, B. (2024). Desarrollo de Modelos de Predicción de Precios Inmobiliarios
mediante Machine Learning. Un Enfoque Comparativo. Retrieved 07 20, 2024, from
[Link]
z%2C%[Link]?sequence=2
Soto Lopez, A. A. (2022, 06 07). Desafío en la toma de decisiones de inversión inmobiliaria
mediante crédito hipotecario en Colombia. Desafío en la toma de decisiones de inversión
inmobiliaria mediante crédito hipotecario en Colombia.
[Link]

Página 66 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 67 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 60

10. Anexos – Justificación y Soporte del Desarrollo del Producto

Explicación del Diagrama de Arquitectura de Datos

El diagrama ilustra las siguientes fases principales del proyecto:

1.​ Recolección de datos: Se extraen datos de plataformas inmobiliarias mediante Web


Scraping con herramientas como BeautifulSoup y Scrapy.
2.​ Limpieza de datos: Se eliminan valores nulos, duplicados y se convierten variables a
formatos adecuados utilizando Pandas.
3.​ Exploración y visualización: Se analiza la distribución de los datos y relaciones entre
variables con Matplotlib y Plotly.
4.​ Modelado de datos: Se implementa el modelo de regresión lineal utilizando
Scikit-Learn, aplicando métricas de evaluación como MSE y R².
5.​ Implementación de interfaz interactiva: Se desarrolla una aplicación donde los usuarios
pueden ingresar características de una vivienda para obtener una predicción de precio.
6.​ Evaluación del modelo: Se validan los resultados mediante análisis de los residuos y
comparación con valores reales.

Diagrama arquitectura de datos: Proyecto predicción de precios vivienda en Medellín

Figura 19. Arquitectura de datos

10.1​ Resultados Obtenidos

En el desarrollo de este proyecto, logramos implementar un modelo predictivo basado en


regresión lineal utilizando la librería Scikit-learn, obteniendo una precisión del 80.17% en la
predicción de precios de vivienda en Medellín.

En la siguiente imagen, se observan los resultados obtenidos tras la optimización del modelo,
donde el coeficiente de determinación (R²) y el error cuadrático medio (MSE) reflejan mejoras en
la precisión de las predicciones:
Figura 16: Modelo ajustado y final con precisión del 80.17%

Página 67 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 68 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 61

Figura 20. Primera versión del modelo con menor precisión (71.96%)

Figura 20. Resultados iniciales modelo regresión lineal

Después de los ajustes en la limpieza y procesamiento de datos, logramos reducir el error del
modelo, mejorando su capacidad de generalización y precisión en la estimación de precios.

10.2​ Cumplimiento de los Objetivos

Para validar el desarrollo del modelo predictivo y justificar su implementación, describimos


cómo cumplimos con cada uno de los objetivos específicos planteados en el proyecto:
1.​ Recolectar información mediante Web Scraping
●​ Se implementaron técnicas de Web Scraping utilizando BeautifulSoup y Scrapy
para la extracción de datos desde plataformas inmobiliarias.

Página 68 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 69 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 62

●​ Se complementa con extensiones de Google Chrome (Web Scraper - Free Web


Scraping) para la recolección de datos de diferentes fuentes.
●​ El código utilizado para el cumplimiento del primer objetivo se encuentra en las
figuras 1 a 4.
2.​ Limpieza y Preparación de Datos
●​ Se diseñó un proceso automatizado de limpieza utilizando Pandas para eliminar
valores nulos, duplicados y datos inconsistentes.
●​ Se normalizaron variables y se categorizaron atributos como el número de
habitaciones y el tamaño de las viviendas para mejorar la calidad del dataset.
●​ El Código utilizado para el cumplimiento del primer objetivo se encuentra en la
figura 5.
3.​ Desarrollo del Modelo Predictivo
●​ Se implementó un modelo de regresión lineal utilizando Scikit-learn, evaluando su
rendimiento con métricas como MSE y R².
●​ Se probó la influencia de diferentes variables en la predicción, seleccionando las
más relevantes para mejorar el desempeño del modelo.
●​ El Código utilizado para el cumplimiento del primer objetivo se encuentra en la
figura 11.
4.​ Evaluación y Optimización del Modelo
●​ Se validó el modelo con técnicas estadísticas, asegurando que cumpliera con los
supuestos de la regresión lineal.
●​ Se realizaron ajustes en los hiperparámetros y en la selección de variables,
logrando reducir el error y mejorar la precisión.
●​ La comparación entre la primera y la última versión del modelo mostró una
reducción significativa en el MSE, evidenciando una mejora en las predicciones.
●​ Comparación de dos resultados distintos mostrando resultados en las figuras 16 y
20.
5.​ Implementación de una Aplicación Interactiva

Página 69 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67


Página 70 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

​ ​ 63

●​ Se diseñó una interfaz gráfica con Streamlit que permite a los usuarios ingresar las
características de una vivienda y obtener una predicción estimada del precio del
apartamento. El resultado y código se encuentra en las figuras 17 y 18.
●​ Se incorporaron gráficos interactivos con Plotly, facilitando el análisis exploratorio de los
datos, el código fuente para observar lo que se realizó en las figuras 6 y 7.
●​ Se creó una herramienta accesible y visualmente amigable que permite la toma de
decisiones basada en datos reales y precisos para un análisis exploratorio. El código
fuente del análisis exploratorio se encuentra en las figuras 8, 9 y 10, y los resultados en
las figuras 13, 14, 15 y 16.

10.3​ Explicación General del Proyecto


Esta estructura sugiere que el proyecto está dividido en tres partes principales:
●​ Web Scraping y Recolección de Datos (web_scrap.py) → Extrae datos y los almacena en
data/datos_casas.csv.
●​ Procesamiento y Modelado ([Link], modelo_regresion.py) → Limpia los datos y
entrena el modelo de regresión.
●​ Visualización e Interfaz Interactiva (Main_Visual.py, plotly_functions.py,
house_price_calculator.py) → Genera gráficos y permite a los usuarios obtener
predicciones y análisis exploratorio.

Página 70 of 70 - Engrega de integridad Identificador de la entrega trn:oi[Link]67

Common questions

Con tecnología de IA

El desarrollo de un modelo predictivo de precios de viviendas con técnicas de aprendizaje automático incluye los siguientes pasos: primero, la recolección de datos a través de web scraping utilizando herramientas como BeautifulSoup y Scrapy; segundo, la limpieza y preprocesamiento de los datos con la ayuda de librerías como Pandas, para eliminar valores nulos y duplicados y convertir variables a formatos adecuados . A continuación, se debe proceder con el entrenamiento y evaluación de modelos predictivos, utilizando algoritmos como regresión lineal y Random Forest, evaluando métricas como el error cuadrático medio (MSE) y el coeficiente de determinación (R²). Por último, se implementa una aplicación interactiva con herramientas como Streamlit, permitiendo a los usuarios ingresar características de la vivienda para obtener una predicción de precio .

Al validar la efectividad de un modelo predictivo en el contexto del mercado inmobiliario, se deben considerar varios factores clave. La precisión del modelo es crucial, lo cual se evalúa mediante métricas estadísticas como el error cuadrático medio (MSE) y el coeficiente de determinación (R²). También es importante realizar pruebas cruzadas y optimización de hiperparámetros para garantizar la robustez del modelo . Además, se debe evaluar la capacidad del modelo para generalizar a nuevos datos y su resistencia a cambios en las condiciones del mercado . La validez de las variables seleccionadas y la calidad de los datos utilizados también son críticos para asegurar un modelo efectivo .

La recolección y limpieza de datos juegan un papel fundamental en la creación de un modelo predictivo robusto para el mercado de viviendas. El proceso de recolección debe garantizar que los datos sean relevantes y de alta calidad, lo cual se logra mediante técnicas de web scraping utilizando herramientas como BeautifulSoup y Scrapy para extraer datos precisos de plataformas inmobiliarias . La limpieza de datos implica eliminar duplicados, corregir errores y normalizar variables para asegurar que el modelo pueda interactuar correctamente con los datos, evitar sesgos y mejorar su precisión . En resumen, la calidad del input de datos determina en gran medida la precisión y efectividad del modelo predictivo .

Desarrollar modelos predictivos basados en datos es relevante para el mercado inmobiliario de Medellín porque mejora la transparencia y eficiencia del mercado al proporcionar estimaciones precisas de precios, lo cual es crucial para la toma de decisiones informadas por parte de compradores, vendedores y profesionales del sector . Estos modelos permiten fijar precios competitivos y justos, mejorar la evaluación de inversiones y fomentar la planificación de proyectos inmobiliarios . Además, contribuyen a mitigar la especulación de precios, lo cual es vital para la estabilidad y el crecimiento económico del sector .

La privacidad de los datos personales en el proceso de recolección para un modelo predictivo del mercado inmobiliario se asegura adhiriéndose a regulaciones como la Ley 1581 de 2012, que estipula cómo los datos deben ser manejados y protegidos . Los datos recogidos generalmente no vulneran la privacidad ya que se extraen de plataformas públicas, donde los usuarios han consentido su publicación . Sin embargo, es crucial implementar medidas de seguridad para garantizar que los datos procesados no incluyan información personal identificable, respetando las disposiciones generales del hábeas data .

La relación entre las dinámicas del mercado inmobiliario en Medellín y la necesidad de un modelo predictivo de precios es directa, ya que estas dinámicas, especialmente cambios bruscos en oferta y demanda, requieren herramientas que ayuden a estabilizar el mercado . El incremento en contratos de arrendamiento y la disminución en la compra de vivienda reflejan una volatilidad que puede ser mitigada con modelos predictivos, que facilitarían estimaciones precisas y decisiones informadas . Además, con la llegada de nuevos actores como nómadas digitales, la capacidad de predecir cambios en el mercado es esencial para ajustarse a las nuevas condiciones .

Para evaluar el rendimiento de un modelo predictivo de precios, se utilizan métricas como el error cuadrático medio (MSE) y el coeficiente de determinación (R²). El MSE mide la media de las diferencias al cuadrado entre los valores predichos y los valores reales, proporcionando una indicación de la precisión del modelo . Es importante porque ayuda a identificar la desviación del modelo respecto a los datos reales. El coeficiente de determinación (R²) expresa qué tanto de la variabilidad en los precios de las viviendas está explicado por el modelo, indicando su capacidad predictiva . Juntas, estas métricas permiten determinar tanto la exactitud como la eficacia del modelo en representar la realidad del mercado inmobiliario .

El desarrollo de un modelo predictivo de precios en Medellín enfrenta varios desafíos y limitaciones. Uno de los principales es la calidad y precisión de los datos recolectados a través de web scraping, que puede variar y afectar la exactitud del modelo . Adicionalmente, el proyecto debe completarse en un tiempo limitado, lo que puede restringir la cantidad de datos que se pueden recolectar y procesar. Otro desafío es la disponibilidad de recursos técnicos y financieros y los cambios en el mercado inmobiliario o políticas de acceso a datos, que pueden afectar la validez de los datos .

Las leyes de protección de datos personales, como la Ley 1581 de 2012 y la Ley 1266 de 2008, impactan la implementación de sistemas de predicción de precios inmobiliarios al regular el uso de datos publicados en plataformas públicas, asegurando que estos modelos no vulneren la privacidad de los individuos . Aunque los datos utilizados son de acceso público, la normativa obliga a implementar medidas de seguridad que aseguren que los datos personales no sean manipulados indebida o ilegalmente . Así, estos sistemas deben ser diseñados teniendo en cuenta las disposiciones legales para evitar el mal uso de la información y cumplir con las normativas vigentes .

Un modelo predictivo de precios puede ofrecer múltiples beneficios a diferentes actores del mercado inmobiliario de Medellín. Para compradores, proporciona acceso a estimaciones precisas que facilitan la toma de decisiones de compra . Para vendedores, ayuda a fijar precios competitivos y justos, contribuyendo a la transparencia en el mercado . Para profesionales del sector, mejora la evaluación de inversiones y permite la planificación de proyectos de manera más eficiente . Además, el uso de herramientas de predicción basadas en datos robustos puede mejorar la estabilidad del mercado y fomentar un crecimiento sostenible .

También podría gustarte