MATEMTICA APLICADA
(MAESTRA EN TELEMTICA)
Abril de 2012
MATEMTICA APLICADA
(FUNDAMENTOS DE ESTADISTICA )
Abril
de 2012
Matemtica Aplicada
OBJETIVO GENERAL Dotar al estudiante de los fundamentos matemticos - estadsticos que le permitan la conduccin de experimentos y el diseo de diferentes modelos de prediccin empleando las herramientas estadsticas emergentes, anlisis multivariado, bajo el apoyo computacional.
ESTADSTICA?
ES LA DISCIPLINA QUE SE OCUPA DE: 1) LA RECOLECCIN, ORGANIZACIN, RESUMEN Y ANLISIS DE DATOS 2) LA OBTENCIN DE INFERENCIAS A PARTIR DE UN VOLUMEN DE DATOS CUANDO SE EXAMINA UNA PARTE DE ELLOS.
(Daniel, 2004:2)
ANALISIS ESTADSTICO Ciencia que recoge, ordena y analiza los datos de una muestra extrada de una determinada poblacin, para hacer inferencias de esa poblacin valindose del clculo de probabilidades (Amon, 1979)
Nos permite: Tomar decisiones Solucionar problemas
TIPOS DE ESTADSTICA
ESTADISTICA DESCRIPTIVA: Puede definirse como aquellos mtodos que incluyen la recoleccin, presentacin y caracterizacin de un conjunto de datos con el fin de describir apropiadamente las diversas caractersticas de ese conjunto de datos. ESTADSTICA INFERENCIAL: Pueden definirse como aquellos mtodos que hacen posible la estimacin de una caracterstica de una poblacin o la toma de una decisin referente a una poblacin, basndose slo en los resultados de la muestra.
ESTADSTICA DESCRIPTIVA
Herramienta de anlisis bsico y obligatorio en toda investigacin estadstica
ESTADSTICA DESCRIPTIVA
Presentacin ordenada de datos
7 6
Gnero
Hombre Mujer
Frec.
4 6
5 4 3 2 1 0 Hombre Mujer
Las tablas de frecuencias y las representaciones grficas son dos maneras equivalentes de presentar la informacin. Las dos exponen ordenadamente la informacin recogida en una muestra.
Bioestadstica U. de Mlaga
Datos desordenados y ordenados en tablas
Variable: Gnero
Modalidades:
H = Hombre M = Mujer
Muestra:
MHHMMHMMMH equivale a HHHH MMMMMM
Gnero Hombre Mujer
Frec. 4 6 10=tamao muestral
Frec. relat. porcentaje 4/10=0,4=40% 6/10=0,6=60%
Bioestadstica U. de Mlaga
Ejemplo
Cuntos individuos tienen menos de 2 hijos?
Nmero de hij os Porcent. (vlido) 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0 Porcent. acum. 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0
frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
Qu porcentaje de individuos tiene 6 hijos o menos?
97,3%
Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?
0 1 2 3 4 5 6 7 Ocho+ Total
2 hijos
Frec. 419 255 375 215 127 54 24 23 17 1509
50%
Bioestadstica U. de Mlaga
INFERENCIA ESTADSTICA
Proceso y resultado de extraer conclusiones respecto a una poblacin a partir de una o ms muestras.
conclusiones
Pasos en un estudio estadstico
Plantear hiptesis Los fumadores tienen ms bajas laborales que los no fumadores En qu sentido? Mayor nmero? Tiempo medio? Decidir qu datos recoger (diseo de experimentos) Qu individuos pertenecern al estudio (muestras) Fumadores y no fumadores en edad laboral. Criterios de exclusin Cmo se eligen? Descartamos los que padecen enfermedades crnicas? Qu datos recoger de los mismos (variables) Nmero de bajas Tiempo de duracin de cada baja Sexo? Sector laboral? Otros factores? Recoger los datos (muestreo) Estratificado? Sistemticamente? Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadsticos) % de bajas por fumadores y sexo (frecuencias), grficos,... Realizar una inferencia sobre la poblacin Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores. Cuantificar la confianza en la inferencia Nivel de confianza del 95% Significacin del contraste: p=2%
Mtodo cientfico y estadstica
Mediante anlisis de inferencia
Mediante anlisis descriptivo
El elemento mas critico para el anlisis datos estadsticos es:
La Distribucin Normal
Caractersticas de la distribucin normal :
1. 2. 3. 4.
Es simtrica respecto a su media La media, mediana y moda son iguales El rea total bajo la curva es igual a 1 (100%).
En el intervalo ( - , + ) se encuentra el 68.26% del rea total bajo la curva
En el intervalo ( -2, +2) se encuentra aproxim. el el 95.4% del rea total bajo la curva. El intervalo ( -3, +3) contiene el 99.7% del rea total bajo la curva
5.
6.
Estimacin de Normalidad
Asimetra
g1 = 0 (distribucin simtrica) g1 > 0 (distribucin asimtrica positiva) g1 < 0 (distribucin asimtrica negativa)
Estimacin de Normalidad
Curtosis
g2 = 0 (distribucin mesocrtica). g2 > 0 (distribucin leptocrtica). g2 < 0 (distribucin platicrtica).
Estimacin de Normalidad
Moda
Unimodal
Bimodal
Multimodal
DISTRIBUCIN NORMAL ESTANDAR
Si una variable X (Ej. X: edad ) tiene distribucin normal (X es N( , 2) ), esta puede ser transformada de modo que = 0 y 2 = 1, este proceso se denomina tipificacin o estandarizacin.
N(, ).
68.26% 95.40% 99.70%
ESTADSTA DESCRIPTIVA
DEFINICIONES BSICAS
POBLACIN: Cualquier coleccin de unidades que pueden
interesar en un estudio. Esta coleccin debe estar bien definida, de tal forma que se puedan distinguir entre sus miembros aquellos que lo son y los que no lo son.
MUESTRA: Es una parte (sub-conjunto) de la poblacin, obtenida
con el propsito de investigar propiedades que posee la poblacin. Es decir, se pretende que dicho sub-conjunto, represente a la poblacin a la cual se extrajo.
MEDICIN CUALITATIVA Y CUANTITATIVA: Una medida
es un nmero o denominacin que podemos asignar a una unidad de observacin . Si este nmero expresa dimensiones o capacidades, se denomina medicin cuantitativa, si registra caractersticas, atributos o actitudes se denomina medicin cualitativa
DEFINICIONES BSICAS
PARMETRO: Es una medida de resumen que describe una caracterstica de toda una poblacin. Por lo general se simboliza con letras griegas, as:
ESTADSTICO: Es una medida de resumen que se calcula para
describir una caracterstica a partir de una sola muestra de la poblacin. Se calcula a partir de los datos de la muestra y, por lo tanto sirve para estimar parmetros. Generalmente es simbolizado por letras latinas minsculas, as: x media muestral
ANLISIS ESTADSTICO
TIPO DE VARIABLE TIPO DE INVESTIGACIN
VARIABLE : Propiedad que puede variar y cuya variacin es susceptible a medirse u observarse. Sampieri. (2003:143) EJEMPLOS: Sexo, atractivo fsico, la religin, la agresividad verbal, presin arterial, nivel socio econmico. Las variables adquieren valor para la investigacin cientfica cuando llegan a relacionarse con otras (formar parte de una hiptesis o una teora).
UNA VARIABLE:
SE MIDE CAMBIA
CLASIFICACIN DE LAS VARIABLES
NOMINAL
CUALITATIVA
ORDINAL
VARIABLE
DISCRETA
CUANTITATIVA
CONTINUA
NIVEL DE MEDICIN
Nombra las observaciones en categora mutuamente excluyente
NOMINAL
Sexo Raza Diagnsticos Nivel Socioeconmico Bajo, medio y alto. Actitud: En desacuerdo, Indeciso, de acuerdo
ORDINAL INTERVALO
Hay orden y jerarqua El cero es un valor arbitrario El cero es un valor absoluto
Temperatura
RAZN
Peso Distancias Km., pie
Tipo de Investigacin
Descriptiva: Procura definir las cualidades de un evento. Comparativa: Persigue establecer similitudes diferencias de una variable entre dos o mas grupos. o
Correlacional: Busca encontrar relaciones entre variables
Explicativa: Establece la naturaleza de la relacin de causalidad entre una o diversas variables independientes con una o unas variable dependiente
RELACION ENTRE ELTIPO DE VARIABLE EL TIPO DE INVESTIGACION Y LA TECNICA ESTADISTICA A EMPLEAR
VARIABLE, TIPO DE INVESTIGACIN Y TEC. ESTADSTICA
TIPO DE VARIABLE TIPO DE INVESTIGACIN
Descripcin
PALABRAS CLAVES
ORDINAL Y NOMINAL
MODA DISTRIBUCIONES DE FRECUENCIA GRFICOS, HISTOGRAMAS, PASTELES
INTERVALO Y RAZN
MEDIA, MEDIANA, VARIANZA. DESVIACIN TPICA CURTOSIS ASIMETRA
DESCRIPTIVA
CLASIFICAR, CATEGORIZAR EQUIPARAR IGUALAR CONTRASTAR
2G
COMPARACIN
COMPARAR, DIFERENCIAR, EQUIPARAR, IGUALAR, CONTRASTAR
GRUPOS
WILCOSON
t de student
ANOVA PRUEBA DE MEDIAS (TUKEY, LSD)
>2G
GRUPOS
KRUSKAL WALLIS FRIEDMAN
Inferencia
RELACIN
RELACIONAR, ASOCIAR VINCULAR (UNINM NEXO)
CHI CUADRADO, RANGOS DE SPEARMAN
CORRELACIN DE PEARSON
CAUSA - EFECTO
CONSECUENCIA CAUSA EFECTO INCIDENCIA
ANLISIS MULTIVARIADO CORRELACIONES CANNIGAS FACTORES COMUNES ANLISI CLUSTER ANLISIS DISCRIMINANTES
REGRESIN SIMPLE REGRESIN MLTIPLE
ESTADSTICA DESCRIPTIVA
MEDIDAS DE LOCALIZACIN MEDIDAS DE DISPERSIN
MEDIDAS DE FORMA
MEDIDAS DE POSICIN DISTRIBUCIN DE FRECUENCIAS
MEDIDAS DE TENDENCIA CENTRAL Medidas de localizacin
Media Aritmtica
Se obtiene sumando todos los valores de una poblacin o muestra y dividindolo entre el nmero de valores sumados.
x=
xi
n
xi
N
Los valores extremos influyen sobre la media, y en algunos casos puede distorsionarla tanto que llega a ser indeseable como medida de tendencia central.
Medidas de localizacin
La Moda
La moda de un conjunto de valores es aquel que ocurre con mayor frecuencia Si todos los valores son diferentes, no hay moda. Un conjunto de valores puede tener mas de una moda Ejemplo: Cual es la moda en los siguientes datos? 12 14 09 04 12 33 23 17 33 31 12 24 09 18 16 09 25 07 15 12
Medidas de localizacin
La Mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto de nmeros ordenados en dos partes iguales. Ninguna observacin extrema en un conjunto de datos afecta a la mediana, en consecuencia, siempre que una observacin extrema est presente, es adecuado usar la mediana en lugar de la media para describir un conjunto de datos.
Me
=
n+1 2
n = nmero de datos
Me
n+1 2
Mediana de 1, 2 ,4 ,5, 6 ,6, 8 = 5 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 = (5+6)/2 = 5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos. Mediana La media 1, 2 , 4, 5, 6, 6, 800 = 5 1, 2, 4, 5, 6, 6, 800 = 117,7
Medidas de Dispersin
La dispersin de un conjunto de observaciones se refiere a la variabilidad que presentan estas. Una medida de dispersin conlleva informacin respecto a la cantidad total de variabilidad presente en el conjunto de datos
x
Tres distribuciones normales con diferentes dispersiones de los datos
MEDIDAS DE DISPERSIN
Rango
Diferencia entre el valor mayor y el valor menor de un conjunto de datos obtenidos en una medicin. Rango = X ms grande X ms pequeo El rango mide la dispersin total en un conjunto de datos. Aunque es una medida sencilla de la variacin total de los datos, su debilidad caracterstica consiste en que no toma en cuenta como se distribuyen los datos entre los valores mas grande y ms pequeos. No es necesariamente una medida de tpica de dispersin porque la presencia de un valor extremo puede cambiar radicalmente su valor
MEDIDAS DE DISPERSIN
Varianza
Dado un conjunto de observaciones, se llama varianza de dicho conjunto, a la sumatoria de las diferencias entre cada observacin y la media aritmtica elevadas al cuadrado, y dividido por el nmero de observaciones
S2
( X1 X )2 + ( X2 X )2 + .......... ( Xi X )2
n-1
VARIANZA MUESTRAL
( Xi X
)2
S2 =
n-1
( Xi )2 N
La varianza de la muestra, es la suma de los cuadrados de las diferencias de los datos con relacin a la media aritmtica divida entre el tamao de la muestra menos 1 Unidades de la varianza son al cuadrado.
VARIANZA POBLACIONAL
2=
Es sensible a valores extremos (alejados de la media). Sus unidades son al cuadrado.
MEDIDAS DE DISPERSIN
Desviacin estndar
Es la raz cuadrada de la varianza Indica como se agrupa o distribuye un conjunto de datos alrededor de la media. La desviacin estndar tambin se define como la raz cuadrada positiva de la varianza. Desviacin estndar muestra
s=
=
s2
Desviacin estndar poblacin
MEDIDAS DE DISPERSIN Localizacin Relativa
Puntuaciones Z
Valor Z: Medida que indica la direccin y el grado en que un valor se aleja de la media, en una escala de unidades de desviaciones estndar, indica el nmero de desviaciones estndar que un valor se aleja de la media
Z =
X - X S
X = Puntuacin o el valor a transformar
X = Media de la distribucin S = Desviacin estndar de la distribucin Z = Puntuacin transformada en unidades de desviaciones estndar
Ejemplo: Supongamos que en una distribucin de frecuencias (Conjunto de datos) obtuvimos una media de 60 y una desviacin estndar de 10, deseamos comparar una puntuacin de 50 con el resto de la distribucin, entonces: 50 - 60 = - 1.00 Z = X = 50 X = 60 S = 10 10 El valor de 50 se encuentra localizado a una desviacin estndar por debajo de la media de la distribucin. (el valor de 30 est a tres desviaciones por debajo de la media.
Las puntuaciones Z,
permiten estandarizar valores para comparar
puntuaciones de dos distribuciones diferentes. (la forma de medicin es la misma, aunque se trata de distribuciones distintas).
Sampieri 2006:436
Ejemplo: Queremos comparar los resultados obtenidos en una preprueba con los obtenidos en una posprueba. Se trata de un estmulo que incrementa la productividad. Un sujeto obtuvo en la preprueba una productividad de 130; la media del grupo fue de 122,5 y la desviacin estndar de 10. En la postprueba obtuvo 135, la media fue de 140 y la desviacin estndar de 9,8. Mejor la productividad del trabajador? Sin transformar las dos calificaciones a puntuaciones Z, no es posible asegurarlo, porque los valores no pertenecen a la misma distribucin.
Preprueba.
Z= 130 - 122,5 = 0,75
Postprueba. Z=
135 - 140
9,8 10 En trminos absolutos, 135 es una mejor puntuacin que 130, pero no en trminos relativos (en relacin con sus respectivas distribuciones)
= - 0,51
Sampieri 2006:436
MEDIDAS DE FORMA
MEDIDAS DE FORMA
Asimetra: Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. La distribucin de los datos es simtrica o no lo es. Si no lo es, recibe el nombre de distribucin asimtrica o sesgada. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide media > mediana: Sesgo positivo o a la derecha media = mediana: simetra o sesgo cero media < medina: sesgo negativo o a la izquierda
Las discrepancias entre la media y la mediana indican asimetra.
La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin.
Sesgo (+)
Sesgo (-)
La simetra de una funcin de distribucin se mide por el coeficiente de sesgo de la misma. El coeficiente de sesgo no debe sobrepasar el valor de 2 (para considerarse una distribucin Normal)
CURTOSIS
El coeficiente de curtosis mide el aplanamiento de la curva de distribucin mayor o menor
El coeficiente de sesgo no debe sobrepasar el valor de 2 (para considerarse una distribucin Normal)
Curtosis = 0
Curtosis > 0
Curtosis < 0
Abrir programa SPSS
DR. PEDRO GONZALEZ
Iniciar con matriz en blanco
DR. PEDRO GONZALEZ
Programa iniciado
DR. PEDRO GONZALEZ
Tipos de Interfaces
Vista de Variables Vista de datos Visor de resultados Editor de sintaxis
DR. PEDRO GONZALEZ
Vista de Variables
DR. PEDRO GONZALEZ
Vista de datos
DR. PEDRO GONZALEZ
Visor de Resultados
DR. PEDRO GONZALEZ
Nombre Tipo Anchura Decimales Etiqueta Valores Perdidos Columnas Alineacin Medida Rol
DR. PEDRO GONZALEZ
Nombre:
Permite un mximo de 256 caracteres No se aceptan caracteres especiales (#, $, %, &, +, -, *, /) Siempre debe comenzar con una letra No debe tener espacios entre caracteres No se puede repetir el nombre de una variable existente
DR. PEDRO GONZALEZ
Nombre
DR. PEDRO GONZALEZ
Tipo:
Define el tipo de dato que se introducir en esa variable (ejemplo: numrico, punto, fecha, cadena de caracteres,)
DR. PEDRO GONZALEZ
Tipo:
DR. PEDRO GONZALEZ
Anchura:
Define el nmero de enteros o caracteres a introducir en esa variable.
Decimales:
En caso que la variable no sea declarada cadena, es necesario especificar con cuantos decimales se esta dispuesto a trabajar. La anchura debe ser mayor a los decimales, siempre.
DR. PEDRO GONZALEZ
Etiqueta:
-
Es el nombre con el que aparecen las variables en la Vista de Resultados. Puede ser de cualquier ancho. Acepta cualquier caracter. Puede tener espacios entre caracteres.
DR. PEDRO GONZALEZ
Etiquetas
DR. PEDRO GONZALEZ
Valores:
o o
Son las etiquetas de los valores que tomar la variable (ejemplo: sexo toma slo dos valores, 1= Femenino y 2=Masculino). En caso que la variable sea numrica continua (ejemplo: moneda, fecha) no requiere definicin de valores.
DR. PEDRO GONZALEZ
Valores:
DR. PEDRO GONZALEZ
Valores:
DR. PEDRO GONZALEZ
Columnas:
Define el ancho (formato) de columna para esa variable; lo que se ver en la vista de datos. Indica a que lado se alinearn (formato) los valores de introducidos en la variable en la vista de datos.
Alineacin:
DR. PEDRO GONZALEZ
Medida:
Permite seleccionar el tipo de variable que se esta definiendo: Escala Nmeros, cantidades Nominal Cadenas Ordinal Categoras
DR. PEDRO GONZALEZ
DR. PEDRO GONZALEZ
DR. PEDRO GONZALEZ
DR. PEDRO GONZALEZ
DR. PEDRO GONZALEZ
Abrir archivos de datos Calcular variables Recodificar variables en otras variables Recodificar variables en ellas mismas
DR. PEDRO GONZALEZ
DR. PEDRO GONZALEZ
DR. PEDRO GONZALEZ
Calcular en nueva variable
Nombre de la nueva variable Expresiones Numricas
Funciones
DR. PEDRO GONZALEZ
Calcular en nueva variable
DR. PEDRO GONZALEZ
EDADES
18 19 30 31 38 29 32 33 25 26 27 30 29 20 25 28 18 19 30 31 38 29 42 33 32 26 27 30 29 23 25 28 21 22 30 31 38 29 42 33 32 26 27 30 29 23 21 28 21 22 30 31 40 37 32 36 25 26 27 31 29 23 24 28 24 22 26 27 30 37 32 36 26 26 27 31 29 23 24 28 24 22 26 27 30 37 32 36 26 24 27 31 40 23 22 28 24 22 24 27 30 39 37 38 26 24 27 28 40 23 23 24
34
35 38
34
40 41
34
40 41
34
40 41
34
39
42
39
42
37
EJERCICIO FRECUENCIA
Informa sobre valores concreto que adopta una variable y sobre el nmero (y porcentaje) de veces que se repite cada uno de esos valores.
Abrir archivo EDAD DANIEL del indicado
Analizar
>
Estadsticos Descriptivos
>
Frecuencia
Seleccionar variable EDAD
Aceptar
EDAD Frecuenc ia 2 2 1 3 6 7 9 4 11 10 7 8 10 7 5 3 5 1 3 5 5 3 6 3 4 3 3 3 Porcentaje 1,2 1,2 ,6 1,8 3,6 4,1 5,3 2,4 6,5 5,9 4,1 4,7 5,9 4,1 3,0 1,8 3,0 ,6 1,8 3,0 3,0 1,8 3,6 1,8 2,4 1,8 1,8 1,8 Porcentaje vlido 1,2 1,2 ,6 1,8 3,6 4,1 5,3 2,4 6,5 5,9 4,1 4,7 5,9 4,1 3,0 1,8 3,0 ,6 1,8 3,0 3,0 1,8 3,6 1,8 2,4 1,8 1,8 1,8 Porcentaje ac umulado 1,2 2,4 3,0 4,7 8,3 12,4 17,8 20,1 26,6 32,5 36,7 41,4 47,3 51,5 54,4 56,2 59,2 59,8 61,5 64,5 67,5 69,2 72,8 74,6 76,9 78,7 80,5 82,2
V lidos
18,00 19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 29,00 30,00 31,00 32,00 33,00 34,00 35,00 36,00 37,00 38,00 39,00 40,00 41,00 42,00 43,00 44,00 45,00
EJERCICIO FRECUENCIA
Ordena los datos de la variable edad del archivo EDAD DANIEL y comprueba la frecuencia anterior dada por el SPSS
Datos
>
Ordenar casos
>
Ascendente
Aceptar
GRAFICOS
Grficos para v. cualitativas
Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar tambin a variables discretas
Diagramas de sectores (tartas, polares) No usarlo con variables ordinales. El rea de cada sector es proporcional a su frecuencia (abs. o rel.) Pictogramas Fciles de entender. El rea de cada modalidad debe ser proporcional a la frecuencia. De los dos, cul es incorrecto?.
Grficos para variables numricas
419
400
375
300
Son diferentes en funcin de que las variables sean discretas o continuas. Se utilizan con frec. absolutas o relativas.
Recuento
255 215
200
127
100
Diagramas barras para v. discretas
54 24 23 17
Se deja un hueco entre barras para indicar los valores que no son posibles
250 200
7 Ocho o ms
Nme ro de hijos
Histogramas para v. continuas
El rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
Recuento
150
100
50
20
40
60
80
Edad del encue stado
El Histograma
Es un tipo especial de grficas de barras, que presenta una distribucin de frecuencias relativas. Los valores de la variable se colocan sobre el eje horizontal, y las frecuencias en el eje vertical. Slo tiene sentido en variables numricas (que sean continuas). Del archivo EDAD DANIEL, seleccionar la variable EDAD
Analizar
>
Estadsticos Descriptivos
>
Frecuencia
Grficos
>
Aceptar
Histograma Con curva normal
TRABAJANDO CON GRFICOS INTERACTIVOS PARA CONSTRUIR HISTOGRAM AS
GRFICAS DE TALLO Y HOJAS
Sistema grfico muy til para representar conjunto de datos cuantitativos. Presenta una gran similitud con el histograma y tiene el mismo propsito.
Muestra la ubicacin de la mayor concentracin de mediciones
Revela la presencia o ausencia de simetra Conserva la informacin contenida en las mediciones individuales
Abrir el archivo Edad Daniel y seguir las instrucciones de la prxima diapositiva
Despliegue de tallos y hojas de la variable EDAD del archivo Edad Daniel
EDAD Stem-and-Leaf Plot Frequency Stem & Leaf
4,00 26,00 40,00 30,00 17,00 19,00 17,00 11,00 1,00 4,00
Stem width: Each leaf:
1. 2. 2. 3. 3. 4. 4. 5. 5. 6.
8899 01112222223333333444444444 5555666666666667777777777888888899999999 000000000011111112222233344444 56667777788888999 0000001112222333444 55566777788888899 00011223333 6 1233
10,00 1 case(s)
Como obtener la normalidad de un conjunto de datos?
Prue bas de nor malidad Kolmogorov-Smirnov Es tadstic o gl Sig. ,140 169 ,000
a
EDAD
Es tadstic o ,939
Shapiro-Wilk gl 169
Sig. ,000
a. Correc cin de la signif ic ac in de Lilliefors
MEDIDAS DE POSICIN
NO CENTRALES
INFORMAN ACERCA DE LA POSICIN QUE OCUPA UN DATO DENTRO DE UNA SERIE ORDENADA EN FORMA CRECIENTE.
CUARTILES
Dividen el conjunto de datos ordenados en cuatro partes iguales. Los cuartiles son: Q1 ; Q2 ; Q3 . Se necesitan solamente tres cuartiles para dividir los datos en cuatro partes. El cuartil Q2 = Mediana
DECILES
Dividen el conjunto de datos ordenados en diez partes iguales. Nueve deciles dividen las observaciones en diez partes iguales. Se denotan: D1 D2 D3 D9 ; D5 = Mediana
PERCENTILES
Dividen el conjunto de datos ordenados en 100 partes iguales. El percentil 90 es un valor tal que el 90% de todos los valores son menores y el 10 son mayores que l. Se denotan: P1 , P2 P3 , P4 . P99 ; P50 = Mediana; P25 Se corresponde con el primer cuartil ; P75 Se corresponde con tercer cuartil
CUARTILES
Q1 Q2=Me Q3
Ls
0%
25%
50%
75%
100%
Li
Datos
DECILES
2 3 4 5 6 7
8 9 10
Datos
EXPLORACIN DE DATOS
DIAGRAMA DE CAJA
Es un dispositivo visual muy til para comunicar la informacin contenida en un conjunto de datos. Algunas veces llamada grfica de caja con valores extremos. La base de un diagrama de caja es el clculo de la mediana y los cuartiles Q1 y Q3. Valor atpico Valor mas alto que no llega a ser atpico
Q3 Tercer cuartil
Media Q1 Primer cuartil Valor ms pequeo que no llega a ser atpico
Rango intercuartil
EJERCICIO
Abra el archivo Edad Daniel Agregue las siguientes edades: 81, 88, 125, 119 Analizar
>
Estadsticos Descriptivos
>
Explorar
Dependiente: Edad ; Estadsticos = Todos; Grficos = Tallo y hojas, Niveles de factores juntos
Interpretar los resultados
ANLISIS EXPLORATORIO Procedimiento Explorar (SPSS)
Una exploracin de datos antes de un anlisis estadstico, permite identificar: posibles errores (datos mal introducidos, respuestas mal codificadas, etc.), valores extremos (valores que se alejan demasiado del resto), variabilidad no esperada (demasiados casos en una de las dos colas de la distribucin), etc.
Ejercicio Abra el archivo del SPSS datos de empleados.
Analizar
>
Estadsticos Descriptivos
>
Explorar
ESTADSTICOS:
Permite obtener algunos estadsticos adicionales a los que ofrece el procedimiento Explorar por defecto. Analizar - Estadsticos descriptivos - Explorar - Dependiente: Salario actual, Factores: sexo del empleado - Estadsticos y grficos
Interprete los resultados
ANLISIS DE VARIABLES CATEGRICAS Procedimiento: Tablas de contingencia
El sexo, raza, la clase social, el lugar de procedencia, la categora laboral, padecer o no de una enfermedad son algunos ejemplos de este tipo de variables. Son variables sobre las que nicamente es posible obtener una medida de tipo nominal (u ordinal con pocos valores). SPSS permite estudiar este tipo de variables y detectar posibles pautas de asociacin de asociacin entre ellas. TABLAS DE CONTINGENCIA: Son tablas de doble entrada, en la que cada una presenta un criterio de clasificacin (una variable categrica)
Analizar
>
Estad. Descrip.
>
Tablas de contingencia
EJEMPLO
Abra el archivo de datos datos de empleados Analizar - Est. Desc. - Tablas de contingencia - Fila(row): sexo; Columna (column): Categora Laboral Marcar la opcin: Mostrar los grficos de barras agrupadas (display clustered bar charts)
300
Tabla de contingencia Sexo * Categora laboral Recuento Categora laboral Administrativo Seguridad Directivo Sexo Hombre 157 27 74 Mujer 206 10 Total 363 27 84 Total 258 216 474
200
100
Categora laboral
Administrativo Seguridad
Recuento
0 Hombre Mujer
Directivo
Sexo