MÉTODOS ESTADÍSTICOS
MODELOS NO SUPERVISADOS PCA
Algoritmos no supervisados: son algoritmos que no tienen en cuenta la variable
dependiente (Y), ya que el objetivo no es predecir dicha variable (como en los algoritmos
supervisados). Estos algoritmos buscan extraer información por medio de las variables
dependientes.
Identificación de subgrupos de variables (Componentes principales)
Identificación de subgrupos de observaciones (Clusters)
Problema principal: validar dichos resultados, ya que al no tener una variable respuesta, no
podemos contrastarlos.
ANÁLISIS COMPONENTES PRINCIPALES (ACP)
Objetivo inicial: Transformación de un conjunto de variables correlacionadas en un
conjunto menor de variables no correlacionadas, de modo que este nuevo grupo de
variables recoja mayor parte de la información existente en las variables iniciales.
Información que podemos extraer de las componentes principales:
Existencia de datos atípicos; multicolinealidad entre las variables; agrupación de obs en
subgrupos
Idea: describir la variación de un conjunto de datos multivariante, en términos de un
conjunto incorrelado de variables. Estas nuevas variables (denominadas “componentes
principales”), serán una combinación lineal particular de las variables originales y se
obtendrán en orden decreciente a su importancia, del siguiente modo, partimos de dos
variables (x_1 y x_2):
Componente principal 1: recoge la máxima información de los datos originales
Componente principal 2: recoge la mayor cantidad de información que no esté recogida en
CP1. La información que recogerá estará incorrelada con la primera componente principal.
La dirección entre ambas CP, es perpendicular u ortogonal.
¿Cómo se calculan las componentes principales?
Se calculan como combinación lineal determinada, de las variables originales. Dado un
conjunto de datos X, de n observaciones y p variables, el proceso de cálculo a seguir es:
[Link]ón de las variables: les restamos a cada valor la media de dicha variable, para
obtener todas las variables con media cero.
2.Cálculo del autovector-autovalor de la matriz de covarianzas: Optimizamos el valor de los
“loading”, ,(será el peso o relevancia que tiene cada variable, en las CP, con los que cada
variable maximiza su varianza.
La primera CP (Z1), de un grupo de variables (X1,…,Xp) es una combinación lineal
normalizada de dichas variables que maximizan la varianza:
La combinación lineal será normalizada cuando:
Repetimos el proceso para el resto de Zi, de forma iterativa. El orden de importancia de
cada componente, viene dado por la magnitud de cada autovalor-autovector.
PUNTOS A TENER EN CUENTA
1-Escalado de las variables: será necesario escalar las variables, para evitar que aquellas
variables que tiene un rango de valores superior al resto, domine al resto, a la hora de
crear CP. Para ello, normalizaremos las variables (media= 0 , desviación típica=1).
2-Replicabilidad de las CP: Este proceso va a generar siempre las mismas CP
3-Outliers: Las CP tienen una gran sensibilidad a valores outliers, por lo que es altamente
recomendable, realizar un estudio previo de los mismos.
Número óptimo de Componente Principales:
Proporción de la varianza explicada
¿Cuánta información de las variables iniciales perdemos al agrupar en componentes
principales?
Debemos de conocer la proporción de varianza explicada para componente principal:
(Asumimos normalización de variables: media=0, desv típica =1). La varianza de los
datos se define como:
La varianza explicada por la componente m es:
La proporción de varianza explicada, por la componente m, viene explicada en el siguiente
ratio:
El objetivo: utilizar la menor cantidad de CP, que expliquen una mayor cantidad de
información posible.
Proporción de varianza explicada acumulada:
Observaciones a tener en cuenta:
El ACP es apropiado cuando las variables se miden en unidades comparables y tienen
varianzas semejantes. Si las variables no se miden en las mismas unidades, cualquier
cambio de escala en alguna de las variables, generará un efecto sobre las CP.
Una variable con una varianza mucho mayor al resto, dominará la primera CP.
Los autovalores cercanos a 0, indican que las variables originales serán linealmente
dependientes de las otras. Esta información, nos ayuda a detectar relaciones de
multicolinealidad entre un conjunto de variables.
Las últimas CP elegidas, pueden identificar información muy relevante, por ejemplo, obs
atípicas o puntos aislados de la base de datos.
El objetivo final de CP, no es obtener “variables interpretables”, si no detectar la auténtica
dimensión del problema.
RESUMEN DE PASOS A SEGUIR:
1, Elección de las variables que se pretende estudiar.
2. Depuración de los datos (missing, atípicos...)
3. Determinación, a la vista de los datos, de cuál va a ser la matriz a factorizar: la matriz
de Covarianzas o la de Correlaciones (con datos estandarizados, coinciden las covarianzas
y correlaciones).
4. Obtención de autovalores y autovectores.
5. Determinación nº CP a retener
6. Interpretación de las CP a través de los coeficientes y autovectores respectivos
7. Obtención de las puntuaciones de los individuos en el espacio de las componentes
8. Representar las variables en el espacio de las CP
9. Representar las observaciones en el espacio de las CP.
Métodos de agrupación de variables alternativos,
en función del tipo de variable
1. Análisis factorial de correspondencias: Se utiliza con variables cualitativas
2. Análisis discriminante: Se utiliza para generar reglas con las que se pueda clasificar
a las obs de una población determinada
MODELOS NO SUPERVISADOS CLUSTER
Definición de cluster
[Link] objetivo es formar grupos de individuos con características muy similares respecto
determinadas variables.
2. Homogeneidad interna: Los individuos de cada grupo, deben ser lo más parecidos que
sea posible.
3. Heterogeneidad entre grupos: Los grupos deben ser lo más diferentes que sea posible.
4. Generalmente los grupos obtenidos son mutuamente excluyentes (cada observación
pertenece a un solo grupo).
5. Es importante tener en cuenta la representatividad de la muestra, así como si existe
multicolinealidad.
6. Podemos encontrarnos variables con unidad de medida distinta, por ello, es
conveniente normalizarlo de forma previa.
7. Es deseable tener variables incorreladas. De no ser así, deberemos de recurrir a alguna
técnica como el análisis de componentes principales.
8. Si existen datos atípicos, deberemos corregirlo
Formas más simples de obtener clusters:
Agrupación de observaciones próximas entre sí, por medio de la inspección gráfica.
Este método (gráfico) no es tan sencillo como parece, ya que puede haber demasiadas
variables que dificultan su representación.
Además, no existe una única forma de representación gráfica, y se deben de tener en
cuenta los diferentes procedimientos de agrupación.
TIPOS DE CLUSTERS
1. Clúster Jerárquico: No se conoce de antemano el número de clusters a formar
2. Clúster No Jerárquico: Se conoce de antemano el número de clusters a formar
¿QUÉ ES UN CENTROIDE?
Es la media de cada variable respecto las observaciones pertenecientes a cada clúster.
CLÚSTER JERÁQUICO
Pasos a seguir…
1. Evaluación del parecido entre 2 obs, utilizando medidas de distancia y
similitud
2. Elegir un método de agrupación de clusters
3. Tomar una decisión acerca del número óptimo de clusters
4. Solución elegida en el paso anterior debe ser interpretada
Medidas de Distancia y Similitud
Distancia euclídea:
Distancia de Minkoswski:
DENDROGRAMA: Es un diagrama que nos va a ayudar a determinar en qué punto de la
agrupación nos deberemos de detener.
Este tipo de diagrama, contiene ramas que unen puntos y muestran el orden en que se asignan
las obs respecto los agrupamientos.
Las longitudes de las ramas son proporcionales a las distancias entre los puntos y agrupamientos,
cuando los puntos y agrupamientos se combinan.
DISTANCIA ENTRE CLUSTER JERÁRQUICOS
¿Cómo calcular la distancia entre dos clusters?
TÉCNICA DEFINICIÓN FÓRMULA
Vecino más Distancia mínima entre grupos. La distancia entre dos grupos,
cercano es la distancia entre las dos obs más cercanas, pertenecientes
(SINGLE) cada una a un grupo disitinto.
Vecino más La distancia elegida entre los grupos, será la distancia entre
alejado las obs más alejadas. Tiende a formar grupos compactos
(COMPLETE)
Enlace medio Distancia media entre dos grupos. Es la distancia media entre
(AVERAGE) una y otra obs, pertenecientes cada una a un grupo distinto.
Distancia entre La distancia entre los grupos, será la distancia entre los
centroides centroides.
(CENTROID)
¿Con cuántos grupos nos quedamos?
Silhouette:
Gap-statistics:
Elbow:
CLÚSTER NO JERÁRQUICO:
K-means
Pasos a seguir…
1. Seleccioar K obs como centroides iniciales de los Clusters a construir,
siendo K el número deseado de Clusters.
2. Formación de los Clusters, asignando cada obs al centroide más próximo
3. Reasignar cada ob s a uno de los K Clusters de acuerdo con una regla de
parada determinada previamente.
4. Parar si no reasignan obs a un grupo distinto del de partida, o si la
reasignación la regla de parada. En caso contrario, volver a 2.
DESCRIPCIÓN GRÁFICA
Dada una base de datos, partimos de 3 centroides (k=3):
STEP1: Cada obs es asignada a un clúster de forma aleatoria
STEP2A: Se calculan los centroides. La asignación inicial del centroide, es al azar.
STEP2B: Se asigna cada obs a su centroide más cercano ; Se reposicionan los centroides
RESULTADO FINAL: Tras 10 iteraciones, los centroides se van repoiscionando.
TEORÍA DE JUEGOS
¿QUÉ ES UN JUEGO?
Cada jugador intenta conseguir el mejor resultado posible; maximizar la utilidad, pero dicho
resultado no depende solo de él, también intervienen las decisiones de otros jugadores.
Debe haber interacción entre jugadores, NO es necesario entretenimiento.
Teoría de Juegos: Se ocupa del análisis riguroso y sistemático de distintas situaciones.
TEORÍA DE JUEGOS = TEORÍA DE LA DECISIÓN (de forma iterativa)
TIPOS DE JUEGOS
COOPERATIVOS
TIPOS DE
JUEGOS
ESTÁTICOS
DINÁMICO
NO
COOPERATIVOS
INFO COMPLETA
INFO INCOMPLETA
ELEMENTOS PRINCIPALES DEL JUEGO
Jugadores: Participantes del juego que buscan maximizar su pago por medio de sus
acciones.
Acciones (de los jugadores): Decisiones que toma cada jugador cuando le toca jugar.
Pagos: Utilidad que recibe cada jugador al acabar el juego
Estrategias: Plan completo de acciones con las que cada jugador participa en dicho juego
Forma estratégica de representación de un juego: Organiza el juego de forma rectangular
(tabla)
Forma extensiva de representación de un juego: Resalta la secuencia del juego en la que
se desarrollan las acciones de los jugadores.
ELEMENTOS DE LA TEORÍA DE ELECCIÓN RACIONAL
X: conjunto de todas las estrategias (alternativas) de los jugadores
- Habrá tantas relaciones de preferencias racionales en X como jugadores
- ≥ (relación de preferencias) en X: (para x, y en X)
x ≥ y ⇔ “x es al menos tan bueno como y”
Definición: La relación de preferencia “≥” es racional en X si:
• es completa: para cualquier par de alternativas x, y en X, es
x≥yoy≥x
• es transitiva: si x ≥ y e y ≥ z entonces x ≥ z
La relación de preferencias “≥”, permite definir otras dos relaciones entre elementos de X:
• preferencia estricta: x > y ⇔ es x ≥ y pero no es y ≥ x
• indiferencia: x ∼ y ⇔ es x ≥ y, y también es y ≥ x
RELACIÓN DE PREFERENCIAS
MEDIANTE UNA FUNCIÓN DE UTILIDAD
Definición: una función U: X → R es una función de utilidad (ordinal) que representa la
relación de preferencias ≥ si para todo x, y en X
x ≥ y ⇔ U(x) ≥ U(y)
- Es más importante el orden (la relación) de los valores, que los valores en sí
- Las utilidades de cada jugador dependen siempre de un vector de alternativas Ui
(x1, x 2, ..., x n), se conoce como función de pagos del jugador i
Preferencias para U1 (J1): J1: (C, NC) > (NC, NC) > (C, C) > (NC, C)
Cualquier U1 que mantenga la relación de preferencias, del siguiente modo:
u 1(C, NC) = 8 > u 1(NC, NC) = 5 > u 1(C, C) = 0 > u 1(NC, C) = -5
Teorema: Si X es finito y si las preferencias de un agente sobre X son racionales
(completas y transitivas), existe una función U(x) en R compatible con tales preferencias,
tal que U(x) ≥ U(y) ⇔ x ≥ y.
TIPOS DE JUEGOS
[Link] DEL PRISIONERO
[Link] DE SEXOS; JUEGO
DE COORDINACIÓN
[Link] DE SUMA CERO:
“MONEDAS COINCIDENTES”
[Link] DE MOVIMIENTOS
SIMULTÁNEOS: “PIEDRA-PAPEL-
TIJERA”
REPRESENTACIÓN EXTENSIVA DE UN JUEGO
Elementos del juego
[Link]: ¿Quiénes juegan? J = {J1,...,JN} N número de jugadores
2. Nodos: ¿Qué situaciones se pueden producir?
N = conjunto de nodos
Cada nodo tiene un único antecesor y está conectado de una única manera con el nodo
raíz.
Tipos de nodos:
- Nodo raíz n 0 : Nodo inicial
- Nodos de decisión D(N): Hay acciones disponibles (algún jugador mueve)
- Nodos terminales T(N): Situaciones de fin del juego (nadie mueve), se corresponden
con una única secuencia de acciones, que se llaman “historias de juego”.
[Link]: ¿Cómo se pasa de una situación a otra?
A = conjunto de acciones
⇒ Cada nodo está conectado con su antecesor mediante una única rama, que
representa la acción que lleva del antecesor
a aquél.
La estructura (N, A) se llama árbol del juego
4. Partición de jugadores: ¿Quién mueve en cada nodo de D(N)?
N i = conjunto de nodos de decisión del jugador Ji, i=1,2,...,N
N = N 1 ∪ N 2 ∪...∪ N N y N i ∩ N j =∅, para cada i ≠j
A(n) = acciones disponibles en el nodo n
A i = conjunto de acciones disponibles del jugador J i=U n∈Ni A(n
[Link] (o nube) de información (I i ): ¿Qué saben los jugadores cuando
mueven?
Es un conjunto de nodos de decisión que J i no es capaz de distinguir (J i no sabe en cuál
de ellos se encuentra). Se representan en el árbol del juego uniéndose mediante una línea
discontinua.
Se debe cumplir:
1) Un conjunto de información de J i sólo contiene nodos de N i
2) Cada nodo de N i sólo pertenece a un conjunto de información I i
:
Partición de información del juego:
Hi ≡conjunto de los conjuntos de información de J i {H 1, H 2,..., H N} es una partición de
D(N)
3) Las acciones disponibles para cada conjunto de información, tienen que ser las
mismas!
A i (n)=A i (n’) si n, n’∈ I
Las acciones de un jugador se expresan: A i(I) para cada I∈H
6. Pagos del juego: ¿Qué incentivos tienen los jugadores?
Función de pagos del jugador J i:
:U i : T(N) → R función de utilidad
Cada nodo terminal (historia del juego) corresponde a un posible resultado del juego
El vector de pagos contiene los pagos de todos los jugadores para cada nodo terminal:
(U 1(n), U 2 (n),..., U N (n)), para cada n ∈ T(N), donde el orden de los pagos respeta
el orden de juego de los jugadores.
PERFIL DE ESTRATEGIAS Y EQUILIBRIO DE NASH
Perfil de Estrategias
Definción de equilibrio de NASH:
EQUILIRBRIO DE NASH
Si s* es EN ; NINGÚN jugador puede aumentar su utilidad, desviándose unilateralmente.
Si s* no es EN; ALGÚN jugador puede aumentar su utilidad, desviándose unilateralmente.
Como respuesta a la estrategia del resto de jugadores, todos juegan de forma simultánea
su mejor estrategia.
EFICIENCIA: OPTIMALIDAD DE PARETO
Def 1: Un perfil s es óptimo de pareto, si ninguna desviación puede mejorar a algún
jugador sin empeorar a algún otro. Es decir, no está dominado por ningún otro perfil
estratégico.
Def 2: Un perfil s está dominado en sentido de Pareto (es Pareto-inferior) por el perfil s’
si:
Y para al menos un jugador i, la desigualdad es estricta (<)
Equilibrio de Nash busca la eficiencia “individual”, y el óptimo de Pareto la eficiencia
“social”
.
EQUILIBRIO DE NASH Y ÓPTIMO DE PARETO
Monedas coincidentes: No hay Equilibrio de Nash!!