0% encontró este documento útil (0 votos)
34 vistas20 páginas

Evaluación Primer Parcial Sistemas

El documento presenta una evaluación sobre técnicas avanzadas de minería de datos en el contexto de la Ingeniería en Sistemas, enfocándose en redes neuronales, algoritmos de aprendizaje supervisado y no supervisado, así como modelos matemáticos para la toma de decisiones. Se analizan conceptos como el perceptrón, redes neuronales feedforward, algoritmos de clasificación como ID3 y C4.5, y técnicas de Clustering, destacando su importancia en la optimización de procesos y la generación de conocimiento a partir de grandes volúmenes de información.

Cargado por

diego gudiño
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
34 vistas20 páginas

Evaluación Primer Parcial Sistemas

El documento presenta una evaluación sobre técnicas avanzadas de minería de datos en el contexto de la Ingeniería en Sistemas, enfocándose en redes neuronales, algoritmos de aprendizaje supervisado y no supervisado, así como modelos matemáticos para la toma de decisiones. Se analizan conceptos como el perceptrón, redes neuronales feedforward, algoritmos de clasificación como ID3 y C4.5, y técnicas de Clustering, destacando su importancia en la optimización de procesos y la generación de conocimiento a partir de grandes volúmenes de información.

Cargado por

diego gudiño
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD POLITECNICA DE QUERETARO

INGENIERIA EN SISTEMAS

ACTIVIDAD: Evaluación Primer Parcial


ALUMNOS:
HECTOR TADEO MORALES RESENDIZ 122042661
JOSHUAR JARED PACHECO LOA 122043269
DIEGO ARIEL GUDINO CHAVEZ 122044456

S-194
Introducción
En el ámbito de la Ingeniería en Sistemas, el estudio y aplicación de técnicas avanzadas
de minería de datos se ha convertido en una herramienta fundamental para la extracción,
análisis e interpretación de información relevante. En esta evaluación se abordan
conceptos clave relacionados con redes neuronales, algoritmos de aprendizaje
supervisado y no supervisado, y modelos matemáticos empleados en la toma de
decisiones automatizada.
El propósito de este documento es presentar un análisis detallado sobre el
funcionamiento y aplicaciones de las redes neuronales, el perceptrón, los algoritmos de
clasificación como ID3 y C4.5, así como técnicas de Clustering y reglas de asociación. A
través de la exploración de estos temas, se busca comprender su importancia en la
resolución de problemas complejos y su impacto en la industria tecnológica.
Este informe también examina la regresión lineal como modelo predictivo, así como la
utilidad de los árboles de decisión en la segmentación y categorización de datos. La
combinación de estas técnicas proporciona una visión integral sobre el aprendizaje
automático y la minería de datos, demostrando su relevancia en la optimización de
procesos y la generación de conocimiento a partir de grandes volúmenes de información.
TENICAS DE MINERA DE DATOS
Redes Neuronales
Las redes neuronales se basan en el funcionamiento del órgano más complejo del ser
humano; el cerebro. Son modelos o programas de machine learning los cuales tratan de
imitar el funcionamiento de nuestro cerebro mediante neuronas artificiales
interconectadas, las cuales simulan las conexiones de las neuronas, con el objetivo de
poder en base a un estímulo o una entrada poder realizar acciones como identificar
patrones, tomar decisiones o llegar a conclusiones.
El funcionamiento de las redes neuronales se inspira en el comportamiento de las
neuronas en nuestro cerebro al ejecutar acciones. Una neurona recibe estímulos
eléctricos de otras neuronas, procesa esta información y, en algunos casos, activa otras
neuronas, siguiendo así un ciclo cuyo objetivo es llevar a cabo una acción específica.
La estructura de las redes neuronas consta de 3 capas principales:
• Capa de entrada: Recibe los datos iniciales o, de entrada.
• Capas ocultas: Procesan los datos a través de múltiples transformaciones.
• Capa de salida: Produce el resultado final o la predicción en base a lo anterior.
Las cuales funcionan como capas interconectadas donde una neurona artificial recibe
los estímulos de la capa anterior, procesa estos estímulos y transmite el resultado
(disparara) a la siguiente capa de neuronas hasta dar una conclusión. En este caso el
resultado se define mediante una función de activación y si se excede el valor del umbral
se dispara, además de influir factores como el peso y sesgo y además de tener la
capacidad de aprender de los errores gracias a la función del costo.
Perceptrón
Un perceptrón es una neurona artificial la cual efectúa cálculos en base a una función
matemática para procesar información y poder tomar decisiones. Se utiliza
principalmente para problemas de clasificación binario donde el objetivo es determinar a
qué categoría pertenece una entrada en base a los pesos. Este fue creado en 1957 por
Frank Rosenblatt en un laboratorio de Cornell.
Algo a tener en consideración son los términos de umbral y sesgo, el umbral define el
valor a partir del cual una neurona se activa, mientras que el sesgo es un parámetro
adicional que se ajusta junto con los pesos para permitir que el modelo realice
predicciones más precisas, debido que este sesgo aumenta la probabilidad que la
función de activación se active cuando se es necesario, ya que evita que la suma de las
entradas sea siempre cero.

El funcionamiento del perceptrón se basa en considerar x cantidad de entradas las cuales


cada uno cuenta con un peso distinto, el perceptrón toma estas entradas y lo multiplica
por su peso establecido y luego se suman (considerando el valor del sesgo), en caso de
que la suma supere el umbral establecido se dispara el resultado a la siguiente capa de
neuronas o por el contrario no se emite ningún resultado.
Existen dos tipos de perceptrones, con capa única y con multicapas:
• Perceptrón de capa única: Tiene una única capa de neuronas que conecta las
entradas con la salida. Solo puede resolver problemas linealmente separables.

• Perceptrón multicapa: Está compuesto por una o más capas ocultas entre la
entrada y la salida, lo que le permite aprender patrones más complejos.
El perceptrón aprende con base a la regla “Perceptrón Learning Rule” que consiste en
que el perceptrón pueda ajustar los pesos para así poder clasificar correctamente, este
se usa en aprendizajes supervisados. Lo que hace es comparar el resultado final
obtenido vs el valor esperado, en caso de ser incorrecto reajusta sus pesos y sesgo para
así aproximarse lo más posible al resultado esperado.
Feedforward Neural Network
Es uno de los tipos de redes neuronales más simples debido que la información solo se
mueve hacia una sola dirección, desde el nodo de entrada, pasando por x cantidad de
nodos ocultos y el nodo de salida. Este tipo de red neuronal fueron el primer tipo de red
neuronal artificial.
El funcionamiento de una red Feedforward se divide en 2 fases: la fase de Feedforward
y la retro propagación
Feedforward: Consiste en ingresar los datos de entrada a la red neuronal donde
inicialmente se asignan pesos aleatorios y donde se realizan las sumas ponderadas en
base a los pesos y pasan a través de la función de activación en donde si se supera el
umbral establecido se dispara hacia la siguiente capa y así con todas las capas ocultas
hasta llegar a la capa de salida donde se obtiene el resultado de la predicción
Retro propagación: En base al resultado obtenido de la red neuronal se calcula el error
en base a la diferencia entre el resultado obtenido vs el esperado y este error se propaga
hacia atrás a través de la red donde además se ajustan los pesos para minimizar el error
y seguir este proceso hasta que el porcentaje de error sea bajo, este proceso se conoce
como descenso de gradiente.
Principalmente el uso de este tipo de redes neuronales se utiliza en tareas de aprendizaje
automático, como el reconocimiento de patrones, reconocimiento de imágenes y tareas
de clasificación.
Cada neurona en una capa está conectada a todas las neuronas cada de la siguiente
capa, lo que la convierte en una red totalmente conectada. La fuerza de la conexión entre
las neuronas está representada por los pesos, y aprender en una red neuronal implica
actualizar estos pesos en función del error de la salida, con el fin de mejorar la precisión
de las predicciones.
Kohonen
Son un tipo de red neuronal que se denominan SOM (Self-Organizating Maps) que
consiste en realizar agrupaciones a un conjunto de datos en grupos diferentes aun
cuando el modelo no sabe lo que son al inicio.
Este tipo de red surgió con el objetivo de reconocer la voz para después poder convertir
de voz a texto. Este modelo es de aprendizaje no supervisado, es decir no requieren
datos etiquetados para aprender, estas son capaces de encontrar patrones en los datos
sin información previa. Estos modelos tienen una desventaja, debido que ante nuevos
datos nuevos esta tiene que repetir el proceso de aprendizaje.
Está conformada por 2 tipos de capas: la capa de entrada y capa de salida (capa de
competición) donde se tiene N cantidad de neuronas en la capa de entrada (por cada
variable de entrada) y M cantidad de neuronas en la capa de salida en la que además
están conectadas a otras neuronas adyacentes (vecinos). Todas las neuronas de entrada
están conectadas a las neuronas de salida, además de que cada neurona compite con
el resto para ganar el registro.

El funcionamiento de una red konohen consiste en primero colocar los datos en entrada
en la capa de entrada y después los valores se propagan a la capa de competición,
recordando que la dimensión de entrada debe ser la misma que la de las neuronas de
salida ósea si el dato de entrada es un vector de 3 la capa de competencia debe tener
también un vector de 3. Después la neurona en la capa de competencia inicializas sus
valores aleatoriamente posteriormente todas las neuronas compiten entre si para ver
quién es el dato más parecido y esto se logra gracias a la regla de cálculo de distancia
(distancia euclidiana) la cual consiste en restar el peso de los datos de entrada menos
los de la neurona de la capa de competición y la neurona con la menor distancia se
considera la ganadora del registro.
Cuando una neurona de la capa de competición gana el registro (tiene la menor distancia
respecto al dato de entrada) este ajusta sus pesos para parecerse mas al dato de entrada
además de actualizar las neuronas vecinas, esto lo que permite es lograr el mapa
topológico donde las neuronas que tienen patrones similares están cercanas entre ellas.
Un factor para tener en cuenta es la tasa de aprendizaje que es un valor entre el 0 y 1
que nos ayuda para ver que tanto cambian los pesos en cada iteración, donde
inicialmente los pesos cambian bastante pero conforme va avanzando este proceso la
tasa de aprendizaje va disminuyendo para al final solo realizar cambios precisos, esto se
hace con el objetivo de que al final se tengan pesos estables.
Árbol de decisión
Un árbol de decisión es un algoritmo de aprendizaje supervisado que su principal uso es
para tareas de clasificación (variable categórica) y regresión (variable dependiente). Esta
se caracteriza por tener una estructura jerárquica la cual esta conformada por 3
elementos: nodo raíz, nodos internos (nodos de decisión) y nodos hojas. El nodo raíz se
considera el inicio del árbol esta contiene la primera decisión basada en un atributo
importante, los nodos internos es el punto intermedio donde el árbol toma decisiones, en
esta parte se tratar de realizar subconjuntos homogéneos y los nodos hoja son todos los
resultados finales del árbol las cuales se pueden considerar como categorías.
Para poder dividir la información del nodo raíz es necesario generar subregiones
homogéneas precisas esto mediante una serie de decisiones, por lo que al final se basa
en buscar los puntos de división óptimos, este proceso se repite de manera recursiva
hasta que la mayoría de los registros se encuentren clasificados en clases específicas.
Para dividir los datos del nodo raíz existen 2 métodos comunes: Ganancia de información
e impureza de Gini. Estos métodos ayudan a evaluar que tan bien un atributo clasifica
las muestras. Un concepto para tener en cuenta es la entropía, que es una medida que
mide el desorden o impurezas de los datos ósea nos menciona que tan mescladas están
las clases en un grupo la cual por medio de una formula nos puede dar valores que
pueden estar entre 0 y 1. La entropía se considera 0 cuando el 100% de los datos
pertenecen a una única clase, mientras que 1 indica que el conjunto se encuentras
mezclado (ósea las clases están distribuidas en partes iguales), se elegirá los atributos
que reduzcan la entropía, aquellos que tengan subconjuntos más homogéneos.

• S: representa el conjunto de datos en el que se calcula la entropía


• C: representa las clases en el conjunto, S
• p(c) representa la proporción de puntos de datos que pertenecen a la clase c con
respecto al número total de puntos de datos del conjunto, S
La ganancia de información usa la entropía para medir cuando se reduce la entropía
después de dividir los datos con un atributo especifico, para esto es necesario usar la
formula

• D: es el conjunto de datos original.

• P: es el atributo que se está evaluando.

• Dj: son los subconjuntos generados después de dividir por el atributo a.

• ∣Nj∣/∣Np∣: es la proporción de datos en el subconjunto con respecto al total de


datos.
Tendremos que calcular la ganancia de información para cada atributo disponible en el
conjunto de datos, donde al final seleccionaremos el atributo con mayor ganancia, debido
que este será el que mejor separa los datos y se elige el primer punto de división
El índice de Gini sirve para medir la calidad de una división, donde en caso de tener un
índice bajo este significa que existe mayor homogeneidad (pertenecer a la misma
categoría) entre los datos y un índice alto nos indica que los datos se encuentran
mesclados lo que significa que la división no es lo suficientemente buena, por lo que se
buscara minimizar el índice de Gini en cada división para obtener los nodos más puros
posibles, esto con el objetivo de tener mayor precisión.

• Donde Pi es la probabilidad de que un ejemplo sea de la clase i.


Iterative Dichotomiser 3
En el ámbito del aprendizaje automático y la minería de datos, los árboles de decisión
son herramientas versátiles para tareas de clasificación y predicción. El algoritmo ID3
(Iterative Dichotomiser 3) es uno de los pilares fundamentales sobre los que se construye
el aprendizaje basado en árboles de decisión. Desarrollado por Ross Quinlan en la
década de 1980, ID3 sigue siendo un algoritmo fundamental que forma la base de
métodos posteriores basados en árboles como C4.5 y CART (Classification and
Regression Trees).
Un enfoque de árbol de decisión conocido para el aprendizaje automático es el algoritmo
Iterative Dichotomiser 3 (ID3). Al elegir la mejor característica en cada nodo para dividir
los datos en función de la ganancia de información, construye recursivamente un árbol.
El objetivo es hacer que los subconjuntos finales sean lo más homogéneos posible. Al
elegir las características que ofrecen la mayor reducción de entropía o incertidumbre, ID3
hace crecer el árbol de forma iterativa. El procedimiento continúa hasta que se satisface
un requisito de detención, como un tamaño mínimo de subconjunto o una profundidad
máxima de árbol. Aunque ID3 es un método fundamental, otras iteraciones como C4.5 y
CART han abordado este problema.
Cómo funciona ID3
El algoritmo ID3 está diseñado específicamente para construir árboles de decisión a
partir de un conjunto de datos determinado. Su objetivo principal es construir un árbol
que explique mejor la relación entre los atributos de los datos y sus etiquetas de clase
correspondientes.
1. Seleccionar el mejor atributo
• ID3 emplea el concepto de entropía y ganancia de información para determinar el
atributo que mejor separa los datos. La entropía mide la impureza o aleatoriedad
del conjunto de datos.
• El algoritmo calcula la entropía de cada atributo y selecciona el que produce la
ganancia de información más significativa cuando se utiliza para dividir los datos.
2. Creación de nodos de árbol
• El atributo elegido se utiliza para dividir el conjunto de datos en subconjuntos
según sus distintos valores.
• Para cada subconjunto, ID3 recurre para encontrar el siguiente mejor atributo para
dividir aún más los datos, formando ramas y nuevos nodos en consecuencia.
3. Criterios de detención
• La recursión continúa hasta que se cumple uno de los criterios de detención, como
cuando todas las instancias de una rama pertenecen a la misma clase o cuando
se han utilizado todos los atributos para dividir.
4. Manejo de valores faltantes
• ID3 puede manejar valores de atributos faltantes empleando varias estrategias
como la sustitución de media/modo de atributos o utilizando valores de clase
mayoritarios.
5. Poda de árboles
• La poda es una técnica que se utiliza para evitar el sobreajuste. Si bien no está
incluida directamente en ID3, las técnicas de posprocesamiento o variaciones
como C4.5 incorporan la poda para mejorar la generalización del árbol.
Ventajas y limitaciones de ID3
Ventajas
• Interpretabilidad: Los árboles de decisión generados por ID3 son fácilmente
interpretables, lo que los hace adecuados para explicar decisiones a partes
interesadas no técnicas.
• Maneja datos categóricos: ID3 puede manejar eficazmente atributos
categóricos sin requerir pasos explícitos de preprocesamiento de datos.
• Computacionalmente económico: el algoritmo es relativamente sencillo y
computacionalmente menos costoso en comparación con algunos modelos
complejos.
Limitaciones
• Sobreajuste: ID3 tiende a crear árboles complejos que pueden sobreajustar los
datos de entrenamiento, lo que afecta la generalización a instancias no vistas.
• Sensible al ruido: el ruido o los valores atípicos en los datos pueden provocar la
creación de divisiones no óptimas o incorrectas.
• Solo árboles binarios: ID3 construye árboles binarios, lo que limita su capacidad
para representar relaciones más complejas presentes en los datos directamente.
C4.5
C4.5 es un algoritmo usado para generar un árbol de decisión desarrollado por Ross
Quinlan. C4.5 es una extensión del algoritmo ID3 desarrollado anteriormente por Quinlan.
Los árboles de decisión generados por C4.5 pueden ser usados para clasificación, y por
esta razón, C4.5 está casi siempre referido como un clasificador estadístico.
C4.5 construye árboles de decisión desde un grupo de datos de entrenamiento de la
misma forma en que lo hace ID3, usando el concepto de entropía de información. Los
datos de entrenamiento son un grupo de ejemplos ya clasificados.

Cada ejemplo es un vector donde representan los atributos


o características del ejemplo. Los datos de entrenamiento son aumentados con un vector
donde representan la clase a la que pertenece cada
muestra.
En cada nodo del árbol, C4.5 elige un atributo de los datos que más eficazmente dividen
el conjunto de muestras en subconjuntos enriquecidos en una clase u otra. Su criterio es
el normalizado para ganancia de información (diferencia de entropía) que resulta en la
elección de un atributo para dividir los datos. El atributo con la mayor ganancia de
información normalizada se elige como parámetro de decisión. El algoritmo C4.5 divide
recursivamente en sublistas más pequeñas.
Este algoritmo tiene unos pocos casos base.

• Todas las muestras en la lista pertenecen a la misma clase. Cuando esto sucede,
simplemente crea un nodo de hoja para el árbol de decisión diciendo que elija esa
clase.

• Ninguna de las características proporciona ninguna ganancia de información. En


este caso, C4.5 crea un nodo de decisión más arriba del árbol utilizando el valor
esperado de la clase.

• Instancia de la clase previamente no vista encontrada. Una vez más, C4.5 crea
un nodo de decisión más arriba en el árbol con el valor esperado
Mejoras respecto al algoritmo ID3
En C4.5 se hicieron un número de mejoras a ID3. Algunas de ellas son:

• Manejo de ambos atributos continuos y discretos - A fin de manejar atributos


continuos, C4.5 crea un umbral y luego se divide la lista en aquellos cuyo valor de
atributo es superior al umbral y los que son menores o iguales a él.

• Manejo de los datos de formación con valores de atributos faltantes - C4.5 permite
valores de los atributos para ser marcado cómo? para faltantes. Los valores
faltantes de los atributos simplemente no se usan en los cálculos de la ganancia
y la entropía.

• Manejo de atributos con costos diferentes.

• Podando árboles después de la creación - C4.5 se remonta a través del árbol una
vez que ha sido creado e intenta eliminar las ramas que no ayudan,
reemplazándolos con los nodos de hoja.
¿Qué es la regresión lineal?
La regresión lineal es un modelo estadístico que relaciona una o varias variables
independientes con una variable dependiente. Es decir, la regresión lineal es una técnica
que sirve para encontrar una ecuación que aproxime la relación entre una o varias
variables explicativas y una variable respuesta.
Por ejemplo, la ecuación y=2+5x1-3x2+8x3 es un modelo de regresión lineal, ya que
relaciona matemáticamente tres variables independientes (x1, x2, x3) con una variable
dependiente (y) y, además, la relación entre las variables es lineal.
Tipos de regresión lineal
Existen dos tipo de regresión lineal:
Regresión lineal simple: se relaciona una única variable independiente con una variable
dependiente. Por lo tanto, la ecuación de este tipo de modelo de regresión lineal es de
la forma y=β0+β1x1.
Regresión lineal múltiple: el modelo de regresión tiene varias variables explicativas y una
variable respuesta. Por lo tanto, la ecuación de este tipo de modelo de regresión lineal
es de la forma y=β0+β1x1+β2x2…+βmxm.
Supuestos de la regresión lineal
En un modelo de regresión lineal, se deben cumplir los siguientes requisitos para que el
modelo tenga validez:
• Independencia: los residuos deben ser independientes entre sí. Una manera
común de garantizar la independencia del modelo es añadiendo aleatoriedad en
el proceso de muestreo.
• Homocedasticidad: debe haber homogeneidad en las varianzas de los residuos,
es decir, la variabilidad de los residuos debe ser constante.
• No multicolinealidad: las variables explicativas incluidas en el modelo no pueden
estar relacionadas entre sí o, al menos, su relación debe ser muy débil.
• Normalidad: los residuos deben estar distribuidos normalmente, o dicho de otra
forma, deben seguir una distribución normal de media 0.
• Linealidad: se supone que la relación entre la variable respuesta y las variables
explicativas es lineal.
¿Para qué sirve la regresión lineal?
La regresión lineal tiene dos usos básicamente: la regresión lineal sirve para explicar la
relación entre las variables explicativas y la variable respuesta y, asimismo, la regresión
lineal se utiliza para predecir el valor de la variable dependiente para una nueva
observación.
Al obtener la ecuación del modelo de regresión lineal, podemos saber qué tipo de relación
hay entre las variables del modelo. Si el coeficiente de regresión de una variable
independiente es positivo, la variable dependiente aumentará cuando esta aumente.
Mientras que, si el coeficiente de regresión de una variable independiente es negativo,
la variable dependiente disminuirá cuando esta aumente.
Por otro lado, la ecuación calculada en la regresión lineal también nos permite hacer
predicciones de valores. Así pues, introduciendo los valores de las variables explicativas
en la ecuación del modelo, podremos calcular el valor de la variable dependiente para
un dato nuevo.
Minería de datos
La minería de datos es el proceso de analizar grandes conjuntos de datos para describir
patrones, tendencias y relaciones significativas. Utiliza técnicas de aprendizaje
automático, estadísticas y reconocimiento de patrones para extraer información útil de
los datos.
Algunas de las principales técnicas de minería de datos son:

• Aprendizaje supervisado: Este modelo se entrena con datos etiquetados, es


decir, datos que ya tienen una respuesta conocida, el objetivo es predecir o
clasificar nuevos datos basados en ese entrenamiento.

• Aprendizaje No supervisado: El modelo trabaja con datos no etiquetados y


busca descubrir estructuras ocultas o patrones en los datos como por ejemplo el
Clustering y las reglas de asociación.
Clustering
El Clustering o agrupamiento, es una técnica de aprendizaje no supervisado que agrupa
datos en subconjuntos o “Clústeres” basados en similitudes inherentes. Cada clúster
contiene elementos que son más similares entre sí, que con los otros clústeres. Esta
técnica es útil para segmentación de clientes, análisis de patrones y reducción de
dimensionalidad.
¿Qué son los Clústeres?
Los clústeres son grupos de datos que comparten características similares dentro de
un conjunto de datos más grande. En el contexto de minería de datos y aprendizaje
automático, los clústeres se utilizan para agrupar objetos de manera que los elementos
dentro de un mismo clúster sean más parecidos entre sí que con los de otros clústeres.
Características de los clústeres
1. Similitud Interna Alta: Los elementos dentro de un mismo clúster son muy
parecidos entre sí.
2. Diferencia con Otros Clústeres: Los elementos de distintos clústeres son lo más
diferentes posible.
3. No hay etiquetas previas: En la mayoría de los casos, los clústeres se forman
sin conocer de antemano la clasificación de los datos (aprendizaje no
supervisado).
Tipos de Clustering
Entre los métodos más destacados se encuentran:

• Clustering exclusivo: Cada punto de datos pertenecen exclusivamente a un


clúster. Un ejemplo es el algoritmo K-means, que agrupa datos en K clústeres
basándose en la proximidad al centroide del clúster.

• Clustering Superpuesto: Los puntos de datos pueden pertenecer a múltiples


clústeres con diferentes grados de pertenencia, La versión difusa del K-means es
un ejemplo de este enfoque.

• Clustering Jerárquico: Crea una jerarquía de clústeres utilizando enfoques


aglomerativos (de abajo hacia arriba) o divisivos (de arriba hacia abajo), este se
representa comúnmente mediante dendogramas.

• Clustering Probabilístico: Asigna puntos de datos a clústeres basándose en la


probabilidad de pertenencia, estos modelos de mezclas gaussiana (GMM) son un
ejemplo, donde se asume que los datos provienen de una combinación de
distribuciones gaussianas.
Ejemplo de Clústeres
Imagina que tienes datos sobre clientes de una tienda con características como edad,
ingresos y hábitos de compra. Un algoritmo de Clustering puede agruparlos en
diferentes clústeres, como:
• Clúster 1: Jóvenes con ingresos bajos que compran productos tecnológicos.
• Clúster 2: Adultos con ingresos altos que compran artículos de lujo.
• Clúster 3: Personas mayores con ingresos medios que prefieren productos
básicos.
Cada clúster representa un segmento de clientes con comportamientos similares, lo
que permite personalizar estrategias de marketing.
Aplicación del Clustering
Algunos ejemplos de uso de las técnicas de Clustering son:
• Segmentación de clientes en grupos.
• Determinar los distintos patrones climáticos de una región.
• Agrupar artículos o noticias por temas.
• Descubrir zonas con elevadas tasas de criminalidad.
Aunque el uso más común del Clustering sea en tareas de segmentación de mercado,
donde se trata de agrupar una base de datos de clientes en distintos segmentos o grupos.
Cada uno de ellos está caracterizado por unas ciertas propiedades que ayudan a
describir cómo son, cómo se comportan y cuáles son sus intereses, para poder ofrecerles
productos y servicios personalizados y adecuados a sus gustos e intereses.
En resumen, el Clustering es un conjunto de técnicas utilizado para analizar el Big Data
y poder formar grupos, clústeres o segmentos de datos, muy utilizado para propósitos de
marketing y comerciales (segmentación de clientes).
¿Qué es k-means?
Es un método de Clustering no supervisado que agrupa los datos en k clústeres con base
en su similitud, funciona asignando cada punto al clúster con el centroide más cercano y
ajustando los centroides hasta que los grupos sean estables.

• ¿Cómo funciona el k-means?


1. Elige k clústeres: Se define el número de grupos en los que se quiere dividir los
datos.
2. Selecciona centroides aleatorios: Se eligen k puntos aleatorios como centros
iniciales de los clústeres.
3. Asigna puntos al clúster más cercano: Cada punto de datos se asigna al clúster
cuyo centroide está más cerca.
4. Actualiza centroides: Se recalculan los centroides como el promedio de los
puntos asignados a cada clúster.
5. Repite hasta convergencia: El proceso se repite hasta que los centroides ya no
cambien significativamente.
Limitaciones:

• Se debe definir k de antemano, lo que puede ser complicado.

• Puede quedar atrapado en mínimos locales, dependiendo de la inicialización


de los centroides.
¿Qué es un dendograma?
Es un diagrama en forma de árbol que representa las estructuras de agrupamientos en
un Clustering jerárquico, estos se utilizan para visualizar como se agrupan los datos en
diferentes niveles de similitud.
Reglas de asociación
Las reglas de asociación son técnicas de aprendizaje no supervisado que identifican
relaciones significativas entre variables en grandes conjuntos de datos, estos
generalmente se utilizan en el análisis de las cestas de la compra para descubrir patrones
de compras de los clientes. Por ejemplo, una regla podría ser: “Si un cliente compra pan,
es probable que también compre mantequilla”, el algoritmo Apriori es uno de los mas
utilizados para descubrir estas reglas.
A cada uno de los eventos o elementos que forman parte de una transacción se le conoce
como ítem y a un conjunto de ellos itemset. Una transacción puede estar formada por
uno o varios ítems, en el caso de ser varios, cada posible subconjunto de ellos es un
itemset distinto. Por ejemplo, la transacción T = {A,B,C} está formada por 3 ítems (A, B y
C) y sus posibles itemset son: {A,B,C}, {A,B}, {B,C}, {A,C}, {A}, {B} y {C}.
Apriori
Apriori fue uno de los primeros algoritmos desarrollados para la búsqueda de reglas de
asociación y sigue siendo uno de los más empleados, tiene dos etapas:
• Identificar todos los itemset que ocurren con una frecuencia por encima de un
determinado límite (itemset frecuentes).
• Convertir esos itemset frecuentes en reglas de asociación.
El funcionamiento del algoritmo es sencillo, se inicia identificando los ítems individuales
que aparecen en el total de transacciones con una frecuencia por encima de un mínimo
establecido por el usuario. A continuación, se sigue una estrategia bottom-up en la que
se extienden los candidatos añadiendo un nuevo ítem y se eliminan aquellos que
contienen un subconjunto infrecuente o que no alcanzan el soporte mínimo. Este proceso
se repite hasta que el algoritmo no encuentra más ampliaciones exitosas de
los itemset previos o cuando se alcanza un tamaño máximo.
El algoritmo Apriori hace una búsqueda exhaustiva por niveles de complejidad (de menor
a mayor tamaño de itemset). Para reducir el espacio de búsqueda aplica la norma de “si
un itemset no es frecuente, ninguno de sus supersets (itemset de mayor tamaño que
contengan al primero) puede ser frecuente”. Visto de otra forma, si un conjunto es
infrecuente, entonces, todos los conjuntos donde este último se encuentre, también son
infrecuentes. Por ejemplo, si el itemset {A,B} es infrecuente,
entonces, {A,B,C} y {A,B,E} también son infrecuentes ya que todos ellos contienen {A,B}.
Aprendizaje Supervisado y No supervisado
Aprendizaje supervisado:
Implica entrenar un modelo con datos etiquetados para predecir o clasificar nuevos
datos, las técnicas más comunes incluyen:

• Clasificación: Asigna etiquetas a las observaciones basándose en características


conocidas, algoritmos como máquinas de soporte vectorial, arboles de decisión y
redes neuronales son comunes en esta categoría.

• Regresión: Predice valores continuos basándose en variables independientes, la


regresión lineal es un ejemplo típico.

• Reconocimiento de patrones: El aprendizaje supervisado de reconocimiento de


patrones, como bien indica su nombre, se utiliza para identificar patrones en los
datos. Por ejemplo, se puede utilizar para reconocer la escritura a mano y
convertirla en texto.
Este tipo de aprendizaje se basa en un conjunto de datos de entrenamiento
etiquetados, lo que significa que cada muestra de datos del conjunto de
entrenamiento tiene una etiqueta que indica la respuesta correcta.
Para que te hagas una idea de su funcionamiento, el objetivo es que el modelo aprenda
a encontrar patrones y relaciones en los datos sin tener información previa sobre ellos.
En otras palabras, el modelo debe encontrar la estructura oculta en los datos sin ninguna
guía.
Una vez que el sistema ha sido entrenado con los datos de entrenamiento, se puede
utilizar para hacer predicciones precisas sobre los datos no etiquetados.
Esto te puede resultar muy útil en una gran variedad de aplicaciones del día a día, desde
la clasificación de correos electrónicos no deseados hasta la detección de fraudes
financieros.
Ventajas del aprendizaje supervisado
1. Precisión: El aprendizaje supervisado es capaz de proporcionar predicciones
altamente precisas y confiables, ya que utiliza un conjunto de datos etiquetados y
supervisados para entrenar un modelo. Esto significa que el modelo aprende a
partir de ejemplos claros y precisos.
2. Clasificación: También se puede utilizar para clasificar los datos en diferentes
categorías, lo que permite a los usuarios analizar y entender mejor los datos.
3. Eficiencia: Este método es más eficiente que otros métodos de aprendizaje
automático, ya que utiliza un conjunto de datos etiquetados y supervisados para
entrenar el modelo, lo que significa que el modelo aprende más rápido.
4. Mejora continua: Permite la mejora continua del modelo a medida que se le
proporcionan más datos de entrenamiento. Esto significa que el modelo puede
seguir mejorando y proporcionando predicciones más precisas con el tiempo.
5. Flexibilidad: El aprendizaje supervisado es muy flexible y se puede utilizar para
una amplia variedad de aplicaciones, desde el análisis de datos empresariales
hasta la detección de fraudes y la identificación de patrones.
Aprendizaje No supervisado:
El objetivo del aprendizaje no supervisado es descubrir patrones ocultos en los
datos y agruparlos en categorías o clústeres. Algunas de las técnicas más comunes de
aprendizaje no supervisado incluyen el Clustering, la reducción de dimensionalidad y la
detección de anomalías.
Clustering
El Clustering se utiliza para agrupar los datos en categorías o clústeres basados en
sus similitudes y diferencias. Por ejemplo, se puede utilizar para agrupar clientes en
diferentes categorías basadas en sus patrones de compra.
Reducción de Dimensionalidad:
Simplificar conjuntos de datos de alta dimensionalidad mientras preservara la
información esencial, este análisis de componentes principales es una técnica común en
esta categoría.
Asociación
La asociación es muy útil para descubrir patrones o asociaciones en los datos. Por
ejemplo, se puede utilizar para descubrir patrones de compra en un conjunto de
transacciones.
Detección de anomalías
Esta técnica se utiliza para identificar patrones anormales o inusuales en los datos.
Por ejemplo, se puede utilizar para identificar transacciones fraudulentas en una base de
datos de transacciones.
Ventajas del aprendizaje no supervisado
El aprendizaje no supervisado tiene varias ventajas, entre ellas:
1. Descubrimiento de patrones: El aprendizaje no supervisado puede ayudar
a descubrir patrones ocultos en los datos que no son evidentes a simple vista.
Esto puede ser útil para identificar tendencias, comportamientos o relaciones entre
variables.
2. Exploración de datos: también permite explorar y analizar grandes conjuntos
de datos de manera eficiente y efectiva. Esto puede ayudar a identificar
problemas y oportunidades que no se habían considerado anteriormente.
3. Reducción de costes: El aprendizaje no supervisado puede ser más rentable
que el aprendizaje supervisado, ya que no requiere la creación y etiquetado de
grandes conjuntos de datos de entrenamiento.
4. Flexibilidad: A su vez, es más flexible que el aprendizaje supervisado, ya que
no requiere la especificación de objetivos específicos de aprendizaje o la
definición de una función de pérdida.
5. Adaptabilidad a diferentes tipos de datos: Por último, el aprendizaje no
supervisado puede ser utilizado en una amplia gama de tipos de datos,
incluyendo imágenes, texto, audio y video.
Conclusión
Realizar esta investigación me pareció muy enriquecedor, ya que me permitió profundizar
en la minería de datos más allá de su concepto general. Aprendí cómo el Clustering
agrupa datos según su similitud y la importancia de elegir el tipo adecuado, como k-
means para agrupaciones rápidas o el Clustering jerárquico para visualizar relaciones.
También comprendí cómo las reglas de asociación identifican patrones entre variables y
cómo el aprendizaje supervisado y no supervisado impacta en el análisis de datos. En
general, esta exploración me dio un panorama más amplio sobre cómo estas técnicas
hacen posible el machine learning y su aplicación en el mundo real. -Joshuar
Existen muchas técnicas para la minería de datos, justo para la extracción de información
valiosa de grandes conjuntos de datos, en conjunto estas técnicas nos permiten
descubrir patrones, mejorar la toma de decisiones en base a los datos recopilados,
predecir eventos futuros y resolver problemas complejos en áreas que abarcan desde la
inteligencia artificial hasta la investigación científica y el análisis empresarial, por ello que
son importantes. -Diego
El realizar la investigación de estos conceptos la verdad me pareció muy bueno, debido
que profundice sobre el tema de redes neuronales más allá del concepto, asimismo
aprendí acerca de los tipos de redes neuronales y su funcionamiento un poco más a
detalle lo cual me da un panorama más amplio respecto a cómo funciona el machine
learning. -Tadeo
Referencias
IBM. (2023, 3 mayo). ¿Qué es el aprendizaje no supervisado? | IBM. IBM.
https://www.ibm.com/es-es/topics/unsupervised-learning
El Baúl del Programador. (2018, 21 marzo). Aprendizaje no Supervisado y Detección de
Anomalías: Reglas de Asociación. Aprendizaje No Supervisado y Detección de
Anomalías: Reglas de Asociación. https://elbauldelprogramador.com/aprendizaje-
nosupervisado-reglas/?
El Baúl del Programador. (2018a, marzo 5). Aprendizaje no Supervisado y Detección de
Anomalías: ¿Qué es el Clustering? Aprendizaje No Supervisado y Detección de
Anomalías: ¿Qué Es el Clustering? https://elbauldelprogramador.com/aprendizaje-
nosupervisado-clustering/?
Clustering: qué es y cuál es su uso en big data. (2021, 22 marzo). UNIR. Recuperado 4
de febrero de 2025, de https://www.unir.net/revista/ingenieria/clustering/
Rodrigo, J. A. (s. f.). Reglas de asociación y algoritmo Apriori con R.
https://cienciadedatos.net/documentos/43_reglas_de_asociacion
Perez, M. (2023, 25 octubre). Aprendizaje supervisado y no supervisado, ¿son lo mismo?
SMOWL Proctoring | Sistema de supervisión para exámenes online.
https://smowl.net/es/blog/aprendizaje-supervisado-no-supervisado/#elementor-
toc__heading-anchor-0
Estadística, P. Y. (2023, 10 marzo). Regresión lineal. Probabilidad y Estadística.
https://www.probabilidadyestadistica.net/regresion-lineal/
GeeksforGeeks. (2024, 2 enero). Iterative Dichotomiser 3 (ID3) algorithm from scratch.
GeeksforGeeks. https://www.geeksforgeeks.org/iterative-dichotomiser-3-id3-algorithm-
from-scratch/
C4.5 - Wikiwand. (s. f.). https://www.wikiwand.com/es/articles/C4.5
IBM. (s.f.). ¿Qué es una red neuronal? IBM. https://www.ibm.com/mx-es/topics/neural-
networks
IBM. (s.f.). Árboles de decisión. IBM. https://www.ibm.com/mx-es/topics/decision-trees

Máxima Formación. (s.f.). ¿Qué son los árboles de decisión y para qué sirven?
https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-decision-y-para-que-
sirven/
Numerentur. (s.f.). Red de Kohonen. https://numerentur.org/red-de-kohonen/
Udavinci. (s.f.). Compartiendo conocimiento: Redes neuronales.
https://udavinci.edu.mx/blog-educativo/compartiendo-conocimiento/redes-neuronales
DataScientest. (s.f.). ¿Qué es un perceptrón y para qué sirve?
https://datascientest.com/es/perceptron-que-es-y-para-que-sirve
IBM. (s.f.). Modelos Kohonen Node en SPSS Modeler 18.5.
https://www.ibm.com/docs/es/spss-modeler/18.5.0?topic=models-kohonen-node

También podría gustarte