Proyecto II PDF
Temas abordados
Proyecto II PDF
Temas abordados
Proyecto 2
Identificador de la entrega
trn:oi[Link]67 63 Páginas
Fecha de descarga
Nombre de archivo
Proyecto_II.[Link]
Tamaño de archivo
2.9 MB
Fuentes principales
4% Publicaciones
Marcas de integridad
N.º de alerta de integridad para revisión
Los algoritmos de nuestro sistema analizan un documento en profundidad para
Caracteres reemplazados buscar inconsistencias que permitirían distinguirlo de una entrega normal. Si
advertimos algo extraño, lo marcamos como una alerta para que pueda revisarlo.
21 caracteres sospechosos en N.º de páginas
Las letras son intercambiadas por caracteres similares de otro alfabeto. Una marca de alerta no es necesariamente un indicador de problemas. Sin embargo,
recomendamos que preste atención y la revise.
Fuentes principales
4% Publicaciones
Fuentes principales
Las fuentes con el mayor número de coincidencias dentro de la entrega. Las fuentes superpuestas no se mostrarán.
1 Internet
[Link] 9%
2 Internet
[Link] 3%
3 Internet
[Link] 3%
4 Internet
[Link] 2%
5 Internet
[Link] 2%
6 Internet
[Link] 2%
7 Internet
[Link] 2%
8 Internet
[Link] 1%
9 Internet
[Link] 1%
10 Internet
[Link] 1%
11 Trabajos del
estudiante
CORPORACIÓN UNIVERSITARIA IBEROAMERICANA <1%
12 Internet
[Link] <1%
13 Trabajos del
estudiante
Universidad Europea de Madrid <1%
14 Trabajos del
estudiante
Universidad Internacional de la Rioja <1%
15 Internet
[Link] <1%
16 Internet
[Link] <1%
17 Trabajos del
estudiante
Universidad TecMilenio <1%
18 Internet
[Link] <1%
19 Internet
[Link] <1%
20 Internet
[Link] <1%
21 Trabajos del
estudiante
Infile <1%
22 Trabajos del
estudiante
Universidad Nacional Abierta y a Distancia, UNAD,UNAD <1%
23 Internet
[Link] <1%
24 Trabajos del
estudiante
Universidad de Deusto <1%
25 Trabajos del
estudiante
Universidad Estatal Amazonica- <1%
26 Internet
[Link] <1%
27 Internet
[Link] <1%
28 Internet
[Link] <1%
29 Internet
[Link] <1%
30 Trabajos del
estudiante
TecnoCampus <1%
31 Trabajos del
estudiante
ipn <1%
32 Trabajos del
estudiante
Universidad Cesar Vallejo <1%
33 Internet
[Link] <1%
34 Internet
[Link] <1%
35 Internet
[Link] <1%
36 Internet
[Link] <1%
37 Trabajos del
estudiante
imfice <1%
38 Internet
[Link] <1%
39 Internet
[Link] <1%
40 Internet
[Link] <1%
41 Internet
[Link] <1%
42 Internet
[Link] <1%
43 Internet
[Link] <1%
44 Internet
[Link] <1%
45 Internet
[Link] <1%
46 Internet
[Link] <1%
47 Internet
[Link] <1%
48 Internet
[Link] <1%
49 Internet
[Link] <1%
50 Internet
[Link] <1%
51 Internet
[Link] <1%
52 Trabajos del
estudiante
Colegio Universitario de Estudios Financiero <1%
53 Internet
[Link] <1%
54 Internet
[Link] <1%
55 Internet
[Link] <1%
56 Internet
[Link] <1%
57 Internet
[Link] <1%
58 Internet
[Link] <1%
59 Internet
[Link] <1%
60 Internet
[Link] <1%
61 Internet
[Link] <1%
62 Internet
[Link] <1%
63 Internet
[Link] <1%
64 Internet
[Link] <1%
65 Internet
[Link] <1%
66 Publicación
67 Internet
[Link] <1%
Presentado por:
Presentado por:
Tabla de contenido
Resumen 7
Abstract 8
Preliminares 9
Declaración de originalidad y autonomía 9
Declaración de exoneración de responsabilidad 10
1 Introducción 12
2 Planteamiento del problema 13
2.1 Formulación o Pregunta de Investigación 14
3 Objetivos 15
3.1 Objetivo general 15
3.2 Objetivos específicos 15
4 Justificación 17
5 Alcances y Limitaciones del Proyecto 18
6 Marco Referencial 19
6.1 Antecedentes 22
6.2 Marco teórico 24
6.3 Marco Conceptual 25
6.4 Marco Contextual 26
6.5 Marco legal 27
51 ● Ley 1581 de 2012 27
● Ley 1266 de 2008 28
● Ley 388 de 1997 28
Metodología 29
6.1 Enfoque de investigación 30
Enfoque Cuantitativo 30
6.2 Tipos de investigación 30
Investigación Explicativa 30
6.3 Diseños de Investigación 34
Investigación No Experimental 34
6.4 Población y muestra 35
6.5 Plan de análisis de la información 35
6.5.1 Instrumentos de recolección de información 37
6.6 Cronograma 38
6.7 Presupuesto 38
7 Desarrollo de las fases del proyecto 39
8 Resultados y discusión 40
9 Conclusiones 40
Referencias bibliográficas 42
55 Lista de tablas
Tabla 1: Presupuesto 48
Lista de figuras
Resumen
Los diferentes cambios en la valoración exacta de los precios de vivienda es uno de los
53 grandes retos para las personas que buscan realizar la compra o venta de vivienda en la ciudad de
Medellín, esto hace que la búsqueda y consulta de este tipo de información se torne de forma
1 compleja lo que puede generar la toma de malas decisiones en el sector inmobiliario. Este
22 proyecto tiene como objetivo crear un modelo de predicción de precios de vivienda en la ciudad
36 de Medellín usando técnicas de aprendizaje automático con la finalidad de apoyar la toma de
decisiones en el mercado inmobiliario, recolectando la información de las publicaciones y
anuncios de las inmobiliarias, creando de esta forma un aplicativo interactivo que proporcione
estimaciones precisas y que facilite las decisiones financieras, esto teniendo en cuenta que en
investigaciones previas realizadas en Bogotá y Valencia se ha aplicado métodos similares y Web
Scraping para estimar los precios de vivienda con éxito, lo que beneficiará a compradores,
vendedores y profesionales del sector fomentando así un alto rendimiento en los trámites del
mercado inmobiliario.
8
Abstract
The various changes in the accurate valuation of housing prices present a significant
63 challenge for individuals looking to buy or sell property in the city of Medellín. This complexity
46 in searching for and consulting this type of information can lead to poor decision-making in the
real estate sector. This project aims to create a predictive model for housing prices in Medellín
43 using machine learning techniques, with the goal of supporting decision-making in the real estate
market. The model will gather information for real estate listings and advertisements, thereby
creating an interactive application that provides precise estimates and facilitates financial
decisions. Previous research conducted in Bogotá and Valencia has successfully applied similar
methods and web scraping to estimate housing prices. This approach will benefit buyers, sellers,
and professionals in the sector, promoting higher efficiency in real estate market transactions
Keywords: python, machine learning, web scraping, apartment, real state, linear regression
9
Preliminares
Declaramos bajo la gravedad del juramento, que hemos escrito el presente proyecto, en la
propuesta de solución a una problemática en el campo de conocimientos del programa de
Especialización en Analítica de Datos por nuestra propia cuenta y que, por lo tanto, su contenido
es original.
Declaramos que hemos indicado clara y precisamente todas las fuentes directas e indirectas de
información y que no ha sido entregado a ninguna otra institución con fines de calificación o
publicación.
_______________________________
Nicolas Steven Gutierrez Castiyejo
_______________________________
Eily Sharine Angarita Castañeda
_______________________________
Angela Marcela Cucaita Alvarez
10
_______________________________
Nicolas Steven Gutierrez Castiyejo
_______________________________
Eily Sharine Angarita Castañeda
_______________________________
Angela Marcela Cucaita Alvarez
11
1 Introducción
7 En el caso de Colombia, García et al. (2019) utilizan un modelo estructural para analizar
los principales determinantes del precio de la vivienda nueva en Medellín. García et al., (2018)
hallaron evidencia de una relación negativa entre la tasa de interés hipotecaria y el precio de la
vivienda nueva, y una relación positiva entre variables crediticias como los desembolsos de
crédito y la cartera hipotecaria y el precio de demanda de la vivienda nueva. Además, Aristizábal
y Vargas (2009) encontraron que, ante un aumento de 1% en el salario real, los créditos
desembolsados para adquisición de este tipo de vivienda se incrementan en 1,84%. También,
Bonilla (2010), Clavijo et al., (2004) y Peña et al., (2004) pudieron detectar una relación negativa
entre la tasa de interés de colocación y la demanda de vivienda nueva. (Garcia & Posada, 2022)
12
El problema específico que este proyecto aborda es la necesidad de un modelo predictivo que
16 pueda estimar con precisión los precios de las viviendas en Medellín. La ausencia de información
precisa y actualizada sobre el valor de las propiedades dificulta la toma de decisiones acertadas,
lo que puede resultar en pérdidas económicas para los actores del mercado (Reyes Feris, 2022).
2 Otro ejemplo de burbuja inmobiliaria fue la que tuvo lugar en España en el 2008 la personas
comenzaron a optar invertir en el sector inmobiliario como un activo de refugio dada la
incertidumbre que se tenía de invertir en acciones en los años 2001 y 2004 debido a la tensión
generada por el atentado a las torres gemelas y una posible guerra en Irak. Las viviendas
comenzaron a valorizarse rápidamente y el poco control crediticio y las facilidades de préstamo
que brindaban los bancos además de la guerra de tasas que comenzó a formarse entre las
entidades financieras, género que las personas se endeudan cada día más. (Pelaez Roldan, 2014)
13
2 Otro aspecto importante que contribuyó en el aumento de los bienes fue el incremento de
inmigrantes lo que aumenta el número de posibles compradores de vivienda al cual la oferta no
fue capaz de responder aumentando a la misma tasa y por lo que los precios comenzaron a
aumentar de manera desproporcionada (Pelaez Roldan, 2014)
14
13 3 Objetivos
utilizará Python con librerías como BeautifulSoup, Scrapy y extensiones Web Scraper - Free
preprocesamiento de datos utilizando Python y librerías como Pandas. Este proceso incluirá la
modelos como la regresión lineal y el Random Forest para determinar el más adecuado para
el error cuadrático medio (MSE) y el coeficiente de determinación (R²), y ajustar sus parámetros
15
Python y Streamlit que permita a los usuarios ingresar características de una vivienda y obtener
16
4 Justificación
también proporcionará una base sólida para futuras investigaciones y desarrollos en el campo de
12 permitirá una mejor planificación y toma de decisiones tanto para individuos como para empresas
Beneficios:
decisiones de compra.
proyectos.
17
Alcance:
El proyecto abarca el desarrollo de un modelo predictivo para estimar los precios de
viviendas en Medellín utilizando técnicas de aprendizaje automático. Las actividades incluyen la
48 recolección de datos de propiedades, la limpieza y preprocesamiento de los datos, la
implementación y evaluación de modelos predictivos, y el desarrollo de una aplicación
interactiva para la estimación de precios. Los procesos abordados incluyen:
Limitaciones:
62 Tiempo: El proyecto debe completarse en un plazo determinado, lo que puede limitar la
cantidad de datos que se pueden recolectar y procesar.
Precisión de los datos: La calidad y precisión de los datos recolectados a través de web
scraping pueden variar, afectando la exactitud del modelo predictivo.
18
6 Marco Referencial
Web Scraping
Aprendizaje automático
6 Son muchos los tipos de algoritmos de aprendizaje automatizado, entre todos ellos
destacan especialmente dos: aprendizaje supervisado y no supervisado. Sin lugar a duda, el
aprendizaje supervisado es el uso más común en el ámbito del machine learning. Este tipo de
aprendizaje es un enfoque de aprendizaje automático que se define por el uso de conjuntos de
datos etiquetados. Estos conjuntos de datos están diseñados para poder ser entrenados o
supervisados mediante algoritmos que clasifiquen todos estos datos o predigan resultados con
precisión. (Pellicer, Martinez Laura, 2021-2022)
19
patrones ocultos en los datos sin necesidad de intervención humana, de ahí su nombre
(Supervised vs. Unsupervised Learning 2021). Por tanto, la principal diferencia entre ambos
enfoques es el uso o no de conjuntos de datos etiquetados. Sintetizando, el aprendizaje
supervisado utiliza datos de entrada y salida etiquetados, mientras que un algoritmo de
aprendizaje no supervisado no lo hace. (Pellicer, Martinez Laura, 2021-2022)
8 Python
Cuenta con facilidades para la programación orientada a objetos, imperativa y funcional,
por lo que se considera un lenguaje multi-paradigmas. Fue basado en el lenguaje ABC y se dice
que fue influenciado por otros como C, Algol 60, Modula-3 e Icon según su propio autor. Es un
lenguaje de alto nivel ya que contiene implícitas algunas estructuras de datos como listas,
diccionarios, conjuntos y tuplas, que permiten realizar algunas tareas complejas en pocas líneas
de código y de manera legible.
Limpieza de datos
10 El éxito del proceso de la limpieza de datos está en la determinación de qué es necesario
limpiar, por ello, el primer paso es sumamente importante. Con él se determinan los problemas
fundamentales de los datos y podrá determinarse qué métodos y herramientas emplear para
realizar la limpieza. En una primera aproximación al problema de la creación de herramientas de
limpieza para nuestro medio, también este análisis general resulta importante, pues dará cuales
son los problemas fundamentales que presentan los datos en los sistemas operacionales y por lo
tanto brindará una guía de cómo atacar el problema de la creación de
herramientas para la limpieza de los datos.
Plotly
8 Plotly contiene funciones y métodos necesarios para la representación gráfica de
funciones tanto en dos como en tres dimensiones. Permiten la creación de todo tipo de gráficos,
desde rectas de regresión hasta histogramas. (Fraguas, 2021)
20
1 Pandas
Es una librería de Python para la manipulación de datos y el análisis de datos, Pandas es
una de las librerías de Python más útiles para los científicos de datos. Las estructuras de datos
principales en pandas son Series para datos en una dimensión y DataFrame para datos en dos
dimensiones. Estas son las estructuras de datos más usadas en muchos campos tales como
finanzas, estadística, ciencias sociales y muchas áreas de ingeniería. (Martinez & Tellez, 2021)
31 Numpy
Es una biblioteca de código abierto de Python que se utiliza ampliamente en ciencia e
ingeniería. La biblioteca NumPy contiene estructuras de datos de matriz multidimensionales,
como la homogénea, N-dimensional ndarray una gran biblioteca de funciones que operan de
manera eficiente en estas estructuras de datos.
Streamlit
Es un marco de trabajo de código abierto de Python para científicos de datos e ingenieros
de IA/ML que les permite crear aplicaciones de datos dinámicas con solo unas pocas líneas de
código.
Regresión Lineal
19 La regresión lineal es una técnica estadística utilizada para modelar la relación entre una
variable dependiente y una o más variables independientes. En la predicción de precios de
viviendas, la fórmula general de la regresión lineal es:
21
Random Forest
5 Es una técnica de aprendizaje automático perteneciente a la familia de algoritmos de
bagging, ya que está basada en el ensamblaje de árboles de decisión. (Sicilia Gomez, 2024)
9 Es una combinación de árboles predictivos (clasificadores débiles); es decir, una
modificación del Bagging, el cual trabaja con una colección de árboles incorrelacionados y los
promedia (Hastie, Friedman y Tibshirani, 2001), en el cual se tiene que cada árbol depende de los
valores de un vector aleatorio de la muestra de manera independiente y con la misma distribución
de todos los árboles en el bosque. La generalización de error para los bosques converge a un
límite en cuanto el número de árboles en el bosque sea grande. El error de generalización de un
bosque de árboles de clasificación depende de la fuerza de los árboles individuales en el bosque y
la correlación entre ellos. (Medina, 2017)
5 En este método, se construyen múltiples árboles de decisión independientes, cada uno
entrenado en una submuestra aleatoria del conjunto de datos. Después de que cada árbol en el
bosque ha realizado una predicción para un determinado punto de datos, se cuenta el voto de cada
árbol. En el caso de la clasificación, la clase con más votos se considera la predicción final. En el
caso de la regresión, se promedian las predicciones de todos los árboles para obtener un valor
final. Esta combinación de predicciones de múltiples árboles ayuda a reducir el sesgo y la
varianza del modelo, resultando en una predicción más precisa y robusta. (Sicilia Gomez, 2024)
Sus ventajas incluyen la capacidad de manejar conjuntos de datos grandes y complejos, la
reducción del riesgo de sobreajuste gracias a su naturaleza de ensamblaje, y la capacidad de
proporcionar estimaciones de la importancia de las características para la predicción. (Sicilia
Gomez, 2024)
6.1 Antecedentes
Para la siguiente investigación, que corresponde a (Palacios & César, 2021.) quien se
1 centró en crear un método automatizado para la predicción del avalúo comercial de inmuebles en
40 Bogotá haciendo uso de técnicas de machine learning y resaltando los algoritmos de aprendizaje
22
Es así como este antecedente nos muestra la importancia de contar con herramientas de
modelos predictivos, actualizadas y que hagan uso de técnicas avanzadas de análisis, lo cual
garantiza una efectividad y veracidad en la consulta de información que serviría como fuente
principal en la toma de decisiones. . (Pellicer, 2021-2022)
23
56 Por otra parte, de acuerdo con la investigación de Reyes Feria la cual se enfoca en la
16 creación de un sistema automatizado que utiliza técnicas avanzadas de web scraping y
45 aprendizaje automático para la estimar los precios de venta de propiedades inmobiliarias. Por
medio de la recolección de datos de las principales plataformas inmobiliarias de chile, México y
Colombia, el proyecto logró construir una base de datos robusta que alimenta modelos de
regresión predictiva, desarrollando una interfaz web que permite a los usuarios obtener
recomendaciones de precios basadas en las características de los inmuebles como la ubicación,
número de habitaciones y número de baños y demás amenidades disponibles. Reyes Feris, A.
(2022).
34
49
1
Venta y Arriendo de Apartamentos, Casas y otros Inmuebles en Colombia. (s/f). Fincaraíz. Recuperado
el 4 de enero de 2025, de [Link]
24
35 Es un portal web con más de 22 años en el mercado que ofrece una amplia oferta de
inmuebles nuevos y usados para la venta y arriendo de inmuebles donde tiene la facilidad de
contactar con el anunciante, adicionalmente también ofrece servicios como simulación, solicitud
de crédito y compra de cartera.
2
Este portal cuenta con una serie de filtros que permiten realizar la búsqueda por tipo de
inmueble, si es usado o nuevo y la ubicación donde se desea adquirir el inmueble.
1 6.2.4 Excel
18 2
Apartamentos, Casas y Otros Inmuebles en Venta o Arriendo en Colombia – Metrocuadrado.
(s/f). [Link]. Recuperado el 4 de enero de 2025, de [Link]
3
Inmuebles. (s/f). [Link]. Recuperado el 4 de enero de 2025, de
[Link]
4
Ortiz, M. (2021, marzo 10). Qué es Excel y para qué sirve. Excel Total.
[Link]
25
6.3.1 Inmuebles
Un bien inmueble se define como aquel bien que está permanentemente adherido al suelo
1 y no puede ser trasladado sin alterar su [Link]ún Perez y Gardey estos bienes forman
parte de lo que se conoce como bienes raíces, dada su naturaleza arraigada al suelo en donde se
puede encontrar lo que son las casas, los edificios o terrenos.
1 6.3.2 Vivienda
Segun Perez y Gardey, se define vivienda como aquel lugar cerrado y cubierto que es
construido para que habiten personas, ofreciendo refugio y protegiendo de condiciones
1 climá[Link] casa, apartamento entre otros son usados como sinónimo de vivienda, la
utilización de cada concepto depende generalmente de características asociadas a su
6
construcción.
15 5
Pérez Porto Julian y Gardey Ana. Actualizado el 7 de octubre de 2021. Vivienda - Qué es,
definición y concepto. Disponible en ([Link] )
15 6
Pérez Porto Julián y Gardey Ana . Actualizado el 22 de septiembre de 2022. Inmueble - Qué es,
clasificación, definición y concepto. Disponible en ([Link] )
26
1 naturaleza residencial, comercial, industrial y urbano.7 Todas las operaciones que se produzcan
relacionadas con la compra y venta de este tipo de inmuebles forman el sector inmobiliario,
esencial para el desarrollo de una economía sostenible.
6.4 Marco Contextual
3 En Medellín, según Camacol y La Lonja, esa misma relación inversa indica que la venta
de vivienda para estrenar bajó más de 25% y, en contraste, la toma de casa en alquiler se
incrementó 27%. Como quien dice, aumenta más la gente que vive en casa ajena que la que
reside en techo propio.
3 Datos del mercado indican que la compra de vivienda nueva en Colombia cayó 45% el
año pasado, mientras que los nuevos contratos de arrendamiento aumentaron 11%.
Alberto Rodríguez, CEO de la inmobiliaria Century 21, reveló que para esta compañía la
firma de nuevos arriendos creció 30% el año pasado en Medellín y estuvo de acuerdo con que esa
dinámica obedece a las capacidades financieras de los hogares.
3 Según las proyecciones del Dane, antes del censo publicado en 2018, los nuevos hogares
en Antioquia crecerían a una tasa superior al 10%. Este último es un factor a tener en cuenta,
pues a juicio de los especialistas en vivienda, es claro que no todas las familias recién
23
7
¿Qué es el mercado inmobiliario? (2019, septiembre 24). Realia.
[Link]
27
3 conformadas pueden comprar casa propia inmediatamente y su vida como unidad comienza
pagando arriendo.
1 En este proyecto no se vulnera información ni los datos privados de los individuos que
hayan publicado sus viviendas a la venta dentro de las páginas web utilizadas para realizar la
extracción de la data, ya que las personas deben de ser conscientes de que la información
1 publicadas en las páginas web son de manejo público y cualquier persona puede acceder a ella, es
responsabilidad de la persona que publica la oferta saber que publicar y que no. 8
“Por la cual se dictan las disposiciones generales del hábeas data y se regula el manejo de la
información contenida en bases de datos personales, en especial la financiera, crediticia,
comercial, de servicios y la proveniente de terceros países y se dictan otras disposiciones.”
1 En este proyecto, se tiene en cuenta que existe la ley que regula el manejo de la
información por parte de todas las entidades financieras, sin embargo los datos obtenidos a lo
largo de este proyecto no compromete la integridad de las personas, ya que son publicadas en
plataformas públicas y no son datos personales de personas en específico.9
11 8
Ley 1581 de 2012 - Gestor Normativo. (s/f). [Link]. Recuperado el 4 de enero de 2025,
de [Link]
9
Ley 1266 de 2008 - Gestor Normativo. (s/f). [Link]. Recuperado el 4 de enero de
2025, de
[Link]
28
“Reglamentada por los Decretos Nacionales 150 y 507 de 1999; 932 y 1337 de 2002; 975 y
1788 de 2004; 973 de 2005; 3600 de 2007; 4065 de 2008; 2190de 2009; Reglamentada
parcialmente por el Decreto Nacional 1160 de 2010”
“Por la cual se modifica la Ley 9 de 1989, y la Ley 2 de 1991 y se dictan otras disposiciones”
● Armonizar y actualizar las disposiciones contenidas en la Ley 9 de 1989 con las nuevas
normas establecidas en la Constitución Política, la Ley Orgánica del Plan de Desarrollo, la
Ley Orgánica de Áreas Metropolitanas y la Ley por la que se crea el Sistema Nacional
Ambiental.
● El establecimiento de los mecanismos que permitan al municipio, en ejercicio de su
autonomía, promover el ordenamiento de su territorio, el uso equitativo y racional del
suelo, la preservación y defensa del patrimonio ecológico y cultural localizado en su
ámbito territorial y la prevención de desastres en asentamientos de alto riesgo, así como la
ejecución de acciones urbanísticas eficientes.
● Garantizar que la utilización del suelo por parte de sus propietarios se ajuste a la función
social de la propiedad y permita hacer efectivos los derechos constitucionales a la
vivienda y a los servicios públicos domiciliarios, y velar por la creación y la defensa del
espacio público, así como por la protección del medio ambiente y la prevención de
desastres.
10
Metodología
Recogida de datos: Los datos serán recolectados mediante técnicas de web scraping de
plataformas inmobiliarias. Se utilizarán librerías de Python como BeautifulSoup y Scrapy para
extraer información relevante sobre las propiedades, incluyendo ubicación, tamaño, número de
habitaciones, entre otros.
11 Ley 388 de 1997 - Gestor Normativo. (s/f). [Link]. Recuperado el 4 de enero de 2025,
10
de [Link] =339
29
Análisis de datos: Los datos recolectados serán procesados y analizados utilizando Python
y librerías como Pandas para la limpieza y normalización, y Scikit-learn para el entrenamiento y
14 evaluación de modelos predictivos. Se emplearán métricas como el error cuadrático medio (MSE)
y el coeficiente de determinación (R²) para evaluar el rendimiento de los modelos.
Plan de ejecución:
Limpieza de datos: Preprocesar los datos recolectados para eliminar duplicados y corregir errores.
Enfoque Cuantitativo
Metodología:
● Obtención de datos: A través de plataformas web confiables como Finca Raíz y Metro
Cuadrado.
30
Investigación Explicativa
Busca identificar y comprender las relaciones causales entre las características de las
propiedades y su precio en el mercado inmobiliario. Esto es clave para un modelo predictivo
robusto, ya que permite determinar qué factores tienen mayor impacto en el precio de una
vivienda y por qué.
Justificación:
La ubicación es un factor crítico en el mercado inmobiliario. La cercanía a servicios
(colegios, transporte público, centros comerciales), la seguridad del barrio y el desarrollo
urbanístico impactan significativamente el valor de una propiedad.
Justificación:
Estas características suelen ser indicadores de comodidad y funcionalidad en una
vivienda. Un mayor número de baños puede ser particularmente atractivo para familias
grandes o compradores de alto estrato, mientras que las habitaciones son fundamentales
en el precio de propiedades familiares.
31
5. ¿Qué efecto tienen las características secundarias (antigüedad, tipo de inmueble,
amenidades)?
Justificación:
Características como la antigüedad de la propiedad, si cuenta con piscina o parqueadero, o
si es nueva o usada, también influyen en la decisión de compra y, por ende, en el precio.
Herramientas
Regresión lineal: Útil para entender relaciones causales claras y lineales entre las
variables (ejemplo: el tamaño en metros cuadrados y el precio).
Random Forest: Ideal para capturar relaciones complejas y no lineales, además de
identificar la importancia relativa de cada característica.
Investigación Exploratoria
32
Objetivo
Entender el contexto del mercado inmobiliario en Medellín y definir los elementos más
relevantes para el análisis predictivo.
Importancia:
Una investigación exploratoria robusta permite evitar sesgos y maximizar la utilidad del
modelo al incluir todas las variables significativas y descartar las irrelevantes o redundantes.
Métodos
Se realiza un análisis preliminar utilizando herramientas y técnicas de ciencia de datos,
tales como:
33
Identificación de correlaciones:
● Análisis estadístico: Uso de Matplotlib y Seaborn para generar heatmaps que muestran
correlaciones entre variables como tamaño, estrato, precio, y antigüedad.
● Detección de multicolinealidad: Identificar variables altamente correlacionadas entre sí
que puedan ser redundantes.
Visualización de patrones:
● Uso de Plotly para generar gráficos interactivos que permitan observar tendencias por
barrio, estrato, etc.
Investigación No Experimental
34
Población
Todas las propiedades residenciales listadas en plataformas inmobiliarias relevantes de
Medellín.
Características:
● Viviendas de todos los estratos, tamaños y ubicaciones dentro del perímetro urbano de
Medellín.
● Se incluyen viviendas nuevas y usadas.
35
Exclusiones:
Propiedades en arriendo y aquellas con información incompleta o inconsistente.
Muestra
Todas las propiedades disponibles en las plataformas inmobiliarias al momento de la
recolección de datos.
1. Recolección de Datos
Herramientas utilizadas:
● Librerías de Python: BeautifulSoup y Scrapy: Para scraping estructurado de páginas
estáticas.
● Selenium: Para interactuar con contenido dinámico.
● Extensión Web Scraper - Free Web Scraping.
Herramientas:
● Pandas: Para manejar tablas y transformar datos.
● NumPy: Para operaciones matemáticas y manejo de datos numéricos.
Tareas clave:
● Normalización de variables: Convertir unidades a formatos estándar (ejemplo: metros
cuadrados).
● Homogeneizar categorías (ejemplo: "Estrato 2" y "estrato 2" deben unificarse).
36
Herramientas:
● Plotly y Matplotlib: Para crear gráficos interactivos y visualizaciones claras.
Tareas clave:
● Identificar correlaciones entre variables (ejemplo: precio y tamaño, precio y estrato).
● Graficar distribución de precios según barrios y estratos.
● Crear histogramas y gráficos de densidad para observar tendencias generales.
●
4. Modelado Predictivo
Predecir precios de propiedades con alta precisión, utilizando algoritmos de aprendizaje
automático.
Modelos evaluados:
● Regresión lineal: Para relaciones lineales simples entre variables.
37 ● Random Forest: Para capturar relaciones no lineales y complejas.
Tareas clave:
24 ● Dividir los datos en conjuntos de entrenamiento y prueba (ejemplo: 80%-20%).
● Realizar validación cruzada para evaluar la robustez de los modelos.
24 ● Seleccionar el modelo más adecuado basado en las métricas de rendimiento.
5. Evaluación y Optimización
Garantizar que el modelo final sea robusto, preciso y generalizable.
37
Métricas clave:
21 ● MSE (Error cuadrático medio): Para medir la precisión global del modelo.
● R² (Coeficiente de determinación): Para evaluar qué tan bien se explica la variabilidad
del precio por las variables seleccionadas.
38
39
El desarrollo de la extracción de información se dio por medio de las páginas web como
finca raíz, metro cuadrado y mercado libre, utilizando filtros con la ubicación de la ciudad de
Medellín, seleccionando las variables de interés para la generación de la data, es nuestro caso se
tuvo en cuenta la ubicación, precio, metros cuadrados, cantidad de baños y habitaciones.
40
41
2. Análisis:
● Matplotlib y Plotly para visualización.
Código fuente desarrollado en la siguientes imágenes, se desarrolló en dos archivos
plotly_functions.py se crean distintas funciones para poder trabajar las gráficas con plotly
42
Figura 6 Código fuente para desarrollar funciones con Plotly
43
44
45
46
47
Figura 11. Modelo de regresión lineal
48
6.6 Cronograma
6.7 Presupuesto
Componentes Costo
estimado
Total 34.900.000
Tabla 1: Presupuesto
49
50
22 Resultado esperado:
Conjunto de datos estructurado, limpio y listo para el análisis.
51
Resultado esperado:
Modelo predictivo optimizado, listo para ser implementado.
Resultado esperado:
Informe final con conclusiones, limitaciones y posibilidades de mejora.
52
8 Resultados y discusión
Este proyecto logró desarrollar un modelo para predecir precios de viviendas en Medellín
utilizando técnicas de aprendizaje automático. Al recolectar y analizar datos de plataformas
inmobiliarias mediante web scraping, se creó un modelo que ha mostrado ser preciso en sus
predicciones. Además, se implementó una aplicación interactiva que ayuda a los usuarios a
obtener estimaciones confiables del valor de una propiedad a través de características que se
29 proporcione, facilitando así la toma de decisiones en el mercado inmobiliario.
Del mismo modo, mediante la librería de Pandas se realiza la limpieza de los datos, es
decir eliminar o depurar esa información que no da valores significativos o de relevancia para la
5 construcción de la data que será el insumo principal para el desarrollo del modelo de predicción
de precios de vivienda.
53
Figura 13. Análisis exploratorio interfaz gráfica
54
50 Coeficiente de Determinación (R²): Se obtuvo un valor de 80.17 %, lo que refleja qué porcentaje
14 de la variabilidad en los precios de las viviendas es explicado por el modelo.
55
Por último, con base en los resultados obtenidos, se desarrolló una aplicación interactiva
que permite a los usuarios ingresar los datos de una vivienda y recibir una estimación del precio
12 con base en el modelo. Esto representa una herramienta útil para compradores y vendedores en el
mercado inmobiliario, facilitando la toma de decisiones basada en datos.
56
12 Figura 17. Interfaz de usuario para interactuar con el modelo de regresión lineal
28 Figura 18. Código para la interfaz de usuario para interactuar con el modelo de regresión lineal
57
9 Conclusiones
mediante la utilización de la Web Scraping y las técnicas de aprendizaje automatizado, nos indica
44 resultados efectivos que arrojan una estimación precisa de los precios de vivienda en la ciudad de
Medellín, lo que permite a los diferentes usuarios la toma decisiones más asertivas en el mercado
para para todos los usuarios, compradores o vendedores del sector inmobiliario, pues de esta
forma se obtienen datos reales y actualizados que permiten el desarrollo de nuevas estrategias
Medellín.
mayor cantidad de datos y características, para que de esta forma los usuarios puedan determinar
contar con una herramienta que arroje resultados precisos en la estimación de precios de
58
Referencias bibliográficas
59
[Link]
[Link]
Palacios, G., & César, C. (2021). Modelo basado en redes neuronales para la predicción de
precios de inmuebles Piura - 2021. Repositorio de la Universidad César Vallejo. Retrieved
June 19, 2024, from [Link]
Pelaez Roldan, S. (2014). Modelo para determinar la probabilidad de la existencia de una burbuja
inmobiliaria en Medellín. Modelo para determinar la probabilidad de la existencia de una
burbuja inmobiliaria en Medellín.
[Link]
95cf/content
Pellicer, Martinez Laura. (2021-2022). Análisis y predicción del precio en alquiler de vivienda en
la ciudad de Valencia. Universidad Politécnica de Valencia, 1(1), 71.
[Link]
Pérez Porto Julian y Gardey Ana. Actualizado el 7 de octubre de 2021. Vivienda - Qué es,
definición y concepto. Disponible en ([Link] )
Pérez Porto Julián y Gardey Ana . Actualizado el 22 de septiembre de 2022. Inmueble - Qué es,
clasificación, definición y concepto. Disponible en ([Link] )
Ramírez, J. C. Q. (2024, febrero 21). La compra de vivienda nueva en Medellín cayó 25% y los
arrendamientos aumentaron 27%. El Colombiano.
[Link]
a-compra-de-casa-nueva-CJ23802770
Reyes, F. (2022, noviembre 1). Desarrollo de un servicio de predicción de precios de venta y
arriendo para inmuebles en Chile, Colombia y México. Desarrollo de un servicio de
predicción de precios de venta y arriendo para inmuebles en Chile, Colombia y México.
Retrieved 06 20, 2024, from [Link]
Sicilia Gomez, B. (2024). Desarrollo de Modelos de Predicción de Precios Inmobiliarios
mediante Machine Learning. Un Enfoque Comparativo. Retrieved 07 20, 2024, from
[Link]
z%2C%[Link]?sequence=2
Soto Lopez, A. A. (2022, 06 07). Desafío en la toma de decisiones de inversión inmobiliaria
mediante crédito hipotecario en Colombia. Desafío en la toma de decisiones de inversión
inmobiliaria mediante crédito hipotecario en Colombia.
[Link]
60
En la siguiente imagen, se observan los resultados obtenidos tras la optimización del modelo,
donde el coeficiente de determinación (R²) y el error cuadrático medio (MSE) reflejan mejoras en
la precisión de las predicciones:
Figura 16: Modelo ajustado y final con precisión del 80.17%
61
Figura 20. Primera versión del modelo con menor precisión (71.96%)
Después de los ajustes en la limpieza y procesamiento de datos, logramos reducir el error del
modelo, mejorando su capacidad de generalización y precisión en la estimación de precios.
62
63
● Se diseñó una interfaz gráfica con Streamlit que permite a los usuarios ingresar las
características de una vivienda y obtener una predicción estimada del precio del
apartamento. El resultado y código se encuentra en las figuras 17 y 18.
● Se incorporaron gráficos interactivos con Plotly, facilitando el análisis exploratorio de los
datos, el código fuente para observar lo que se realizó en las figuras 6 y 7.
● Se creó una herramienta accesible y visualmente amigable que permite la toma de
decisiones basada en datos reales y precisos para un análisis exploratorio. El código
fuente del análisis exploratorio se encuentra en las figuras 8, 9 y 10, y los resultados en
las figuras 13, 14, 15 y 16.
El desarrollo de un modelo predictivo de precios de viviendas con técnicas de aprendizaje automático incluye los siguientes pasos: primero, la recolección de datos a través de web scraping utilizando herramientas como BeautifulSoup y Scrapy; segundo, la limpieza y preprocesamiento de los datos con la ayuda de librerías como Pandas, para eliminar valores nulos y duplicados y convertir variables a formatos adecuados . A continuación, se debe proceder con el entrenamiento y evaluación de modelos predictivos, utilizando algoritmos como regresión lineal y Random Forest, evaluando métricas como el error cuadrático medio (MSE) y el coeficiente de determinación (R²). Por último, se implementa una aplicación interactiva con herramientas como Streamlit, permitiendo a los usuarios ingresar características de la vivienda para obtener una predicción de precio .
Al validar la efectividad de un modelo predictivo en el contexto del mercado inmobiliario, se deben considerar varios factores clave. La precisión del modelo es crucial, lo cual se evalúa mediante métricas estadísticas como el error cuadrático medio (MSE) y el coeficiente de determinación (R²). También es importante realizar pruebas cruzadas y optimización de hiperparámetros para garantizar la robustez del modelo . Además, se debe evaluar la capacidad del modelo para generalizar a nuevos datos y su resistencia a cambios en las condiciones del mercado . La validez de las variables seleccionadas y la calidad de los datos utilizados también son críticos para asegurar un modelo efectivo .
La recolección y limpieza de datos juegan un papel fundamental en la creación de un modelo predictivo robusto para el mercado de viviendas. El proceso de recolección debe garantizar que los datos sean relevantes y de alta calidad, lo cual se logra mediante técnicas de web scraping utilizando herramientas como BeautifulSoup y Scrapy para extraer datos precisos de plataformas inmobiliarias . La limpieza de datos implica eliminar duplicados, corregir errores y normalizar variables para asegurar que el modelo pueda interactuar correctamente con los datos, evitar sesgos y mejorar su precisión . En resumen, la calidad del input de datos determina en gran medida la precisión y efectividad del modelo predictivo .
Desarrollar modelos predictivos basados en datos es relevante para el mercado inmobiliario de Medellín porque mejora la transparencia y eficiencia del mercado al proporcionar estimaciones precisas de precios, lo cual es crucial para la toma de decisiones informadas por parte de compradores, vendedores y profesionales del sector . Estos modelos permiten fijar precios competitivos y justos, mejorar la evaluación de inversiones y fomentar la planificación de proyectos inmobiliarios . Además, contribuyen a mitigar la especulación de precios, lo cual es vital para la estabilidad y el crecimiento económico del sector .
La privacidad de los datos personales en el proceso de recolección para un modelo predictivo del mercado inmobiliario se asegura adhiriéndose a regulaciones como la Ley 1581 de 2012, que estipula cómo los datos deben ser manejados y protegidos . Los datos recogidos generalmente no vulneran la privacidad ya que se extraen de plataformas públicas, donde los usuarios han consentido su publicación . Sin embargo, es crucial implementar medidas de seguridad para garantizar que los datos procesados no incluyan información personal identificable, respetando las disposiciones generales del hábeas data .
La relación entre las dinámicas del mercado inmobiliario en Medellín y la necesidad de un modelo predictivo de precios es directa, ya que estas dinámicas, especialmente cambios bruscos en oferta y demanda, requieren herramientas que ayuden a estabilizar el mercado . El incremento en contratos de arrendamiento y la disminución en la compra de vivienda reflejan una volatilidad que puede ser mitigada con modelos predictivos, que facilitarían estimaciones precisas y decisiones informadas . Además, con la llegada de nuevos actores como nómadas digitales, la capacidad de predecir cambios en el mercado es esencial para ajustarse a las nuevas condiciones .
Para evaluar el rendimiento de un modelo predictivo de precios, se utilizan métricas como el error cuadrático medio (MSE) y el coeficiente de determinación (R²). El MSE mide la media de las diferencias al cuadrado entre los valores predichos y los valores reales, proporcionando una indicación de la precisión del modelo . Es importante porque ayuda a identificar la desviación del modelo respecto a los datos reales. El coeficiente de determinación (R²) expresa qué tanto de la variabilidad en los precios de las viviendas está explicado por el modelo, indicando su capacidad predictiva . Juntas, estas métricas permiten determinar tanto la exactitud como la eficacia del modelo en representar la realidad del mercado inmobiliario .
El desarrollo de un modelo predictivo de precios en Medellín enfrenta varios desafíos y limitaciones. Uno de los principales es la calidad y precisión de los datos recolectados a través de web scraping, que puede variar y afectar la exactitud del modelo . Adicionalmente, el proyecto debe completarse en un tiempo limitado, lo que puede restringir la cantidad de datos que se pueden recolectar y procesar. Otro desafío es la disponibilidad de recursos técnicos y financieros y los cambios en el mercado inmobiliario o políticas de acceso a datos, que pueden afectar la validez de los datos .
Las leyes de protección de datos personales, como la Ley 1581 de 2012 y la Ley 1266 de 2008, impactan la implementación de sistemas de predicción de precios inmobiliarios al regular el uso de datos publicados en plataformas públicas, asegurando que estos modelos no vulneren la privacidad de los individuos . Aunque los datos utilizados son de acceso público, la normativa obliga a implementar medidas de seguridad que aseguren que los datos personales no sean manipulados indebida o ilegalmente . Así, estos sistemas deben ser diseñados teniendo en cuenta las disposiciones legales para evitar el mal uso de la información y cumplir con las normativas vigentes .
Un modelo predictivo de precios puede ofrecer múltiples beneficios a diferentes actores del mercado inmobiliario de Medellín. Para compradores, proporciona acceso a estimaciones precisas que facilitan la toma de decisiones de compra . Para vendedores, ayuda a fijar precios competitivos y justos, contribuyendo a la transparencia en el mercado . Para profesionales del sector, mejora la evaluación de inversiones y permite la planificación de proyectos de manera más eficiente . Además, el uso de herramientas de predicción basadas en datos robustos puede mejorar la estabilidad del mercado y fomentar un crecimiento sostenible .