GRADO TURISMO
TEMA 3: ANÁLISIS DE DATOS
TURÍSTICOS BIDIMENSIONALES
Prof. Rosario Martínez Verdú
TEMA 3: ANÁLISIS DE DATOS
TURÍSTICOS BIDIMENSIONALES
1. Distribuciones bidimensionales de
frecuencias y diagrama de dispersión.
2. Covariación y correlación.
3. Regresión lineal.
4. Análisis de la Bondad del Ajuste y
predicción.
1.- Distribuciones bidimensionales de frecuencias y diagrama de dispersión
TIPOS DE DISTRIBUCIONES BIDIMENSIONALES CONJUNTAS:
• Distribuciones con frecuencias conjuntas no unitarias
Objetivo: Analizar dos variables simultáneamente o conjuntamente a partir de
la ordenación de los datos en tablas de doble entrada o de contingencia.
Familia X Y a) Obtener la distribución conjunta
nº miembros nº coches
de frecuencias de (X,Y).
1 1 0 b) Obtener las distribuciones
2 3 1 marginales.
3 1 1 c) ¿Son X e Y independientes?
4 5 2 d) Obtener la distribución de
5 5 2 frecuencias del nº de
6 3 2 miembros de las familias sin
7 1 0 automóvil.
8 3 0
e) Obtener la distribución de
frecuencias del nº de coches
9 5 1
de las familias de 3 miembros.
10 1 1
•Distribuciones con frecuencias conjuntas unitarias
Se dispone de información para 2009 sobre las N=17 Comunidades Autónomas sobre las
siguientes variables:
•X: Nº de Pernoctaciones, en miles.
•Y: Gasto total de los turistas, en millones de euros.
X Y
Nº Gasto total
CCAA pernoctaciones turistas
Andalucía 40916 7337,7
Aragón 4417 365,9
Asturias 2996 212,6
Baleares 48676 8790,7
Canarias 50132 9082,3
Cantabria 2500 323,2
Castilla-La Mancha 3495 216,9
Castilla y León 7178 680,7
Cataluña 45484 9643,0
Comunidad Valenciana 23950 4101,8
Extremadura 2065 118,5
Galicia 8196 682,8
Madrid 18561 5226,9
Murcia 2715 775,1
Navarra 1363 143,0
País Vasco 4184 498,0
Rioja 899 43,3
Fuente: Encuesta de ocupación hotelera 2009, INE
y Encuesta de Gasto Turístico (Egatur) 2009, IET.
•Distribuciones con frecuencias conjuntas unitarias
Se dispone de información para 2009 de las N=17 Comunidades Autónomas sobre las siguientes
variables:
•X: Nº de Pernoctaciones, en miles.
•Y: Gasto total de los turistas, en millones de euros.
X Y
Nº Gasto total
CCAA pernoctaciones turistas
Andalucía 40916 7337,7
Aragón 4417 365,9
Asturias 2996 212,6
Baleares 48676 8790,7
Canarias 50132 9082,3
Cantabria 2500 323,2
Castilla-La Mancha 3495 216,9
Castilla y León 7178 680,7
Cataluña 45484 9643,0
Comunidad Valenciana 23950 4101,8
Extremadura 2065 118,5
Galicia 8196 682,8
Madrid 18561 5226,9
Murcia 2715 775,1
Navarra 1363 143,0
País Vasco 4184 498,0
Rioja 899 43,3
Fuente: Encuesta de ocupación hotelera 2009, INE
y Encuesta de Gasto Turístico (Egatur) 2009, IET.
2.- COVARIACIÓN Y CORRELACIÓN
Objetivo: definir unas medidas estadísticas (covarianza y coeficiente de
correlación lineal) que pongan de manifiesto la existencia o no de relación de
tipo lineal entre dos variables. Para ello nos basamos en 2 características
importantes de la distribución conjunta de (X,Y):
⎛X⎞ ⎛ S2X SXY ⎞
Vector de Medias: ⎜ ⎟ Matriz de Varianzas-Covarianzas: ⎜ 2 ⎟
⎝Y⎠ ⎝ SXY SY ⎠
1 SXY sirve para medir la variación
Covarianza: SXY = ∑ (X i -X) (Yi -Y) conjunta entre X e Y. Más que su valor,
N interesa analizar su signo.
SXY>0 las variables varían SXY<0 las variables varían SXY=0 no hay variación
en el mismo sentido en sentido contrario conjunta (incorrelación)
Coeficiente de correlación lineal rXY
Está basado en la covarianza y mide el grado o intensidad de la relación lineal entre dos variables
como también determina el sentido de dicha relación. Interesa interpretar tanto su valor como su
signo. Se define como:
SXY
r =
XY -1 ≤ r ≤ 1
XY
Signo rXY = signo de SXY
SXSY
Interpretación del valor y del signo de rXY
Con la CaEst se pueden
calcular todas estas medidas:
Ejemplo anterior:
X: Nº de Pernoctaciones
Y: Gasto total de los turistas
⎛X⎞
Vector de Medias: ⎜ ⎟
⎝Y⎠
Matriz de
Resultados de cálculo de las Medidas con Caest
Indicadores Y X Varianzas-Covarianzas:
Media 2837.788 15748.647
Varianzas y covarianza 12704865.039 324983247.522 63324218.433 ⎛ S2X SXY ⎞
Desv.Típica 3564.388 18027.292 ⎜ 2 ⎟
[Link]ón 0.985 ⎝ SXY SY ⎠
rXY SXY
Si rXY=0, ¿son las variables independientes?
No necesariamente, lo único que se puede
concluir es que no hay relación lineal entre las
variables, pero las variables pueden tener otro
tipo de relación. rXY = 0
Correlaciones Espúreas o sin sentido
A veces es posible encontrar un coeficiente de correlación alto entre dos variables que
no tienen relación justificada por ninguna teoría. Es lo que se llama correlación
espúrea o sin sentido. Un ejemplo: Neyman en 1952 analizó la relación entre la tasa
de nacimientos de niños y niñas y la población de cigüeñas en varias regiones, y
encontró un alto coeficiente de correlación entre estas variables.
Correlación indirecta
A veces dos variables X e Y presentan un coeficiente de correlación lineal alto entre
ellas, pero esta relación es aparente o indirecta ya que ambas variables están en
realidad relacionadas con una tercera variable Z. Para medir la verdadera relación
entre X e Y se puede calcular el COEFICIENTE DE CORRELACIÓN PARCIAL.
X
Z
Y
COEFICIENTE DE CORRELACIÓN PARCIAL
Es un coeficiente de correlación lineal entre X e Y en el que se elimina la influencia
que ejerce una tercera variable Z sobre ambas variables.
rXZ = 0,945
EJEMPLO
rXY = 0,816 rYZ = 0,849
Y Z
X nº de Población
CCAA nº de reclusos Bibliotecas 2009 ¿Es real esta alta correlación
Andalucía 17495 869 8302923
Aragón 2644 374 1345473 positiva entre X e Y o hay una
Asturias 1547 159 1085289 tercera variable Z (Población
Baleares 1937 184 1095426
Canarias 3198 208 2103992
2009) que es la responsable?
Cantabria 724 71 589235 Calculamos el coeficiente de
Castilla-La Mancha 7021 453 2081313
Castilla y León 2227 609 2563521 correlación parcial entre X e Y:
Cataluña 10531 830 7475420
Comunidad Valenciana 8240 624 5094675 p rXY -rXZ rYZ
r =
( XZ )( YZ )
Extremadura 1408 501 1102410
XY
Galicia 4904 550 2796089 2 2
Madrid 10515 513 6386932 1-r 1-r
Murcia 967 129 1446520
Navarra
País Vasco
250 131 630578
0,816 - 0,945 × 0,849
1472 323 2172175
= =0,079
(1-0,945 )(1-0,849 )
Rioja 405 51 321702
2 2
Fuente: INE y Ministerio del Interior.
Si se elimina la influencia de la variable población (Z), casi no hay relación lineal entre el nº de
reclusos (X) y el nº de bibliotecas (Y).
3.- REGRESIÓN LINEAL
Vamos a suponer que entre las variables X e Y existe una relación de
causa-efecto. Es decir, una variable (la X) es la causa y la otra (la Y) es el
efecto. Variaciones en X (la causa) van a provocar variaciones en Y (el
efecto).
Ejemplo: Para un conjunto de hogares, las variables Ingresos y Gasto en
Turismo, ¿cuál sería X (la causa) y cuál sería Y (el efecto)?
Regresión Y/X (de Y respecto a X): Es una función matemática que nos
va a explicar los valores de la Y a partir de los valores de la X: Y= f(X)
• X será la variable independiente o explicativa.
•Y será la variable dependiente o explicada.
Utilidades de la regresión:
• Medir el efecto que una variación (aumento o disminución) de X provoca
en Y.
• Hacer predicciones para la variable Y a partir de valores de X.
Modelo de Regresión Y/X (deRegresión no lineala X): función
Y respecto
matemática que nos va a explicar los valores de la Y a partir de
los valores de la X: Y= f(X)
EJEMPLOS DE MODELOS DE REGRESIÓN
El diagrama de dispersión nos ayuda a determinar el tipo de
relación existente entre 2 variables:
Y Y
Y
X X X
Regresión Lineal: Regresión Parabólica: Regresión Exponencial:
Y* = a + bX Y* = a + bX + cX 2 Y* = a b X
Es la que veremos
MODELO DE REGRESIÓN LINEAL
PROBLEMAS DEL MODELO DE REGRESIÓN:
-1º Elegir una función matemática que relacione ambas variables.
Elegimos una función lineal (una recta) por Sencillez
Más se usa
-2º ¿Cuál es la recta que mejor se ajusta a los puntos del diagrama de dispersión?
Ecuación de una recta: Y* =a+bX
En definitiva, determinar los valores de los coeficientes a y b de la recta de
regresión.
El método minimocuadrático permite determinar los valores de los coeficientes
a y b de la recta de regresión:
SXY
b= 2 a=Y-bX
SX
¿Interpretación de los coeficientes a y b de la recta de regresión? lo veremos
con un ejemplo.
•EJEMPLO:
Gasto
Ingresos anual en
mensuales Turismo en Diagrama de dispersión
Hogar en € (X) € (Y)
2000
1 1880 650
1800
2 2300 900 1600
G a s to a n u a l e n T u ris m o (Y )
3 3700 1900 1400
4 2760 1200 1200
5 3400 1600 1000
800
6 2900 1300
600
7 1320 250
400
8 1500 400 200
9 2520 1100 0
0 500 1000 1500 2000 2500 3000 3500 4000
10 3100 1400
Ingresos mensuales (X)
Diagrama de dispersión
•EJEMPLO :
2000
Gasto
1800
Ingresos anual en 1600
G a s to a n u a l e n T u ris m o (Y )
mensuales Turismo en 1400
Hogar en € (X) € (Y) 1200
1 1880 650 1000
800
2 2300 900
600
3 3700 1900
400
4 2760 1200 200
5 3400 1600 0
0 500 1000 1500 2000 2500 3000 3500 4000
6 2900 1300 Ingresos mensuales (X)
7 1320 250 Diagrama de dispersión. Recta de regresión Y/X
8 1500 400 2000
9 2520 1100 1800
10 3100 1400 1600
G a s to a n u a l e n T u ris m o (Y )
1400
⎛ X = 2538 ⎞
Vector de Medias: ⎜ ⎟
1200
⎝ Y = 1070 ⎠
1000
800
Matriz de Varianzas-Covarianzas: 600
400
⎛ S =564036 SXY =372940 ⎞
2
X
200
⎜ 2 ⎟ 0
⎝ XY
S =372940 SY =247600 ⎠ 0 500 1000 1500 2000 2500
Ingresos mensuales (X)
3000 3500 4000
Matriz de Varianzas-Covarianzas:
⎛ X = 2538 ⎞ ⎛ S2X =564036 SXY =372940 ⎞
Vector de Medias: ⎜ ⎟ ⎜ 2 ⎟
⎝ Y = 1070 ⎠ ⎝ SXY =372940 SY =247600 ⎠
SXY 372940
b= 2 = = 0,661
SX 564036
a = Y - b X = 1070 - 0,661× 2538 = -607,618
El Modelo de Regresión lineal de Y/X es: Diagrama de dispersión. Recta de regresión Y/X
2000
Y* = -607,618 + 0,661 X 1800
1600
•¿Qué es el coeficiente a?
G a s to a n u a l e n T u ris m o (Y )
1400
1200
Si X=0⇒ Y* = -607,618 1000
800
¿Tiene sentido económico? 600
•¿Qué es el coeficiente b? 400
200
0
La pendiente de la recta 0 500 1000 1500 2000 2500 3000 3500 4000
Ingresos mensuales (X)
¿Qué significa?
Aparte de X y de Y, se crean dos nuevas variables:
• Y* : La Y teórica o explicada. Son los valores estimados de Y que nos
proporciona el modelo de regresión lineal. La parte de los valores de Y que
podemos explicar a partir de los valores de X.
Y* = a + b X = -607,618 + 0,661 X
• e : La variable error o residuo. Son los errores que se cometen al ajustar la
recta de regresión. Lo que no explica el modelo de regresión.
e = Y – Y*
Gasto
Ingresos anual en
mensuales Turismo en Y* teórica error
Hogar en € (X) € (Y) Y*=a+bX e=Y-Y*
1 1880 650 635.1 14.9
2 2300 900 912.7 -12.7
3 3700 1900 1838.1 61.9
4 2760 1200 1216.7 -16.7
5 3400 1600 1639.8 -39.8
6 2900 1300 1309.3 -9.3
7 1320 250 264.9 -14.9
8 1500 400 383.9 16.1
9 2520 1100 1058.1 41.9
10 3100 1400 1441.5 -41.5
Σ suma 10700 10700 0
4.- ANÁLISIS DE LA BONDAD DEL AJUSTE Y PREDICCIÓN
Y observada Y* teórica e error
Media * e=0
Y Y =Y
Varianza S 2
Y
S2Y* S 2
e
Varianza Varianza
explicada residual
Relación entre las 3 varianzas: S2Y = S2Y* + Se2
2
S
Coeficiente de determinación: R = 2 Y*
2
0 ≤ R2 ≤ 1
S Y
• R2 es la parte de la varianza de Y que explica el modelo de regresión.
• 1- R2 es la parte de la varianza de Y que no explica el modelo, que se debe a
los errores que se cometen.
2
S
Propiedad de la regresión lineal: R 2 = 2 XY 2 = rXY
2
SX SY
Resultados de la CaEst 1.5:
Indicadores Y X
Media 1070 2538
Varianzas y covarianza 247600 564036 372940
Desv.Típica 497.594 751.023
REGRESIÓN
[Link]ón 0.998
[Link]ón 0.996
Varianza Explicada 246609.6
Varianza Residual 990.4
Coeficiente a -607.618
Coeficiente b 0.661
Y*= -607.618 + 0.661X
RECTA
Regresión lineal del Ejemplo de la diapositiva 4
A partir de la información de 2009 para las N=17 Comunidades Autónomas sobre
las siguientes variables:
•Nº de Pernoctaciones, en miles.
•Gasto total de los turistas, en millones de euros.
Se ha calculado, con ayuda de la CaEst (ver diaposotiva 8), las siguientes
características de la distribución bidimensional de ambas variables:
⎛15749 ⎞ Matriz de ⎛ 324983248 63323918 ⎞
Vector de Medias: ⎜ ⎟ ⎜ ⎟
⎝ 2838 ⎠ Varianzas-Covarianzas: ⎝ 63323918 12704865 ⎠
a) Si se desea realizar una regresión lineal de una variable en función de la otra, suponiendo
una relación de causa-efecto, ¿qué variable tendría más sentido que fuera la dependiente
(la Y) y qué variable la independiente (la X)? Sol: Y: Gasto Turistas X: Pernoctaciones
b) Obtén los coeficientes de la recta de regresión minimocuadrática de Y respecto a X e
interpreta el valor de la pendiente. Sol: Y*= -233,1 + 0,195 X
c) Calcula e interpreta una medida de la bondad del ajuste efectuado. Sol: R2= 0,97
d) ¿Qué porcentaje de la variación de la variable Y no puede explicarse a partir del modelo
de regresión ajustado? Sol: 3%
e) Si para el siguiente año una CCAA piensa que el nº de pernoctaciones, en miles, será de
25000, ¿cuál sería el correspondiente gasto total de los turistas? ¿Es fiable este resultado?
Sol: 4641,9 millones de €. Fiabilidad del 97% ceteris paribus
Más información sobre este tema en:
- PARRA, E; CALERO, F.J.: Estadística para Turismo. Ed. McGraw-Hill, Madrid, 2007.
Capítulo 7.
- ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabilidad”, Ed.
Thomson, segunda impresión 2006. Capítulos 3 y 4.
- MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: Elementos básicos de Estadística
Económica y Empresarial. Ed. Prentice Hall, Madrid, 1997. Capítulos 5 y 6.
- RONQUILLO, A: Estadística Aplicada al Sector Turístico, Ed Ramón Areces,
Madrid, 1997. Capítulo 6.
- [Link]
[Link]
- [Link]