Apuntes Psicoestadistica
Apuntes Psicoestadistica
● “La Estadística estudia los métodos científicos para recoger, organizar, resumir
Estadística Medidas descriptivas de y analizar datos, así como para sacar conclusiones válidas y tomar decisiones
Conceptos básicos posición central razonables basadas en tal análisis.” - Spiegel (1992)
Construcción del dato Medidas descriptivas de ● “La rama del saber que trata del desarrollo y aplicación de métodos eficientes
Teoría del muestreo posición no central de recolección, elaboración, presentación, análisis e interpretación de datos
Análisis bivariado numéricos.” - Ligia Moya (1989)
Presentación de datos gral
Medidas de dispersión y de ● “Disciplina que comprende los métodos estadísticos y el estudio de métodos
Organización y presentación de
forma científicos de acopio, tratamiento, reducción, presentación, análisis e
datos cualitativos
interpretación de datos y de hacer deducciones y sacar conclusiones de datos
Organizacion y presentacion de Probabilidad
numéricos” - Lwanga y Tye (1987)
datos cuantitativos Distribución normal
● “Es la ciencia que estudia la aplicación de los métodos estadísticos para
Distribución ji cuadrada conocer las características de los conjuntos o de los fenómenos de masa, en
Correlación y regresión sus aspectos cuantitativos y cualitativos" - Tavera Barquin (1980)
● “Es un campo del estudio relacionado con la recopilación, organización y
resumen de datos y la obtención de inferencias acerca de un conjunto de datos
cuando sólo se observa una parte de ellos” - Daniel W. (2002)
ESTADÍSTICA
¿Qué es y qué estudia la estadística?
La estadística estudia los métodos científicos que permite recopilar, CONCEPTOS BÁSICOS
organizar, presentar, analizar e interpretar datos, para Población: es cualquier colección de unidades que puedan ser
posteriormente tomar decisiones en base al análisis. Además utilizadas en un estudio, ya sean personas, objetos, animales,
aplica los métodos estadísticos para analizar los fenómenos de una otros; es necesario que cumplan un criterio para su evaluación. Es
población tanto es sus aspectos cualitativo como cuantitativo. necesario preguntarse qué se va a estudiar, dónde, cuándo y
Tiene 3 significados: la palabra estadística, en primer término se cómo. La población debe ser específica. 1er paso
usa para referirse a la información estadística; también se utiliza Muestra: es el subconjunto de la población, es lo extraído de ella y
para referirse al conjunto de técnicas y métodos que se utilizan debe ser probable. Es el 2do paso para una investigación. La
para analizar la información estadística; y el término estadístico, en muestra debe estar bien escogida para que sea posible una mayor
singular y en masculino, se refiere a una medida derivada de una precisión
muestra. Medición: es un número que podemos asignar a la unidad de
análisis. Es el 3er paso
Hay dos tipos:
● Cuantitativa: expresan dimensiones o capacidades, se
expresan con un número
CONSTRUCCIÓN DEL DATO
● Cualitativa: son las características o atributos, no se El dato es la unidad más primaria que, al trabajar con ella, genera
expresan con un número por ende son más bien un indicador; este, una vez analizado, genera información que,
descriptivas luego de interpretada, genera conocimiento
Inferencia estadística: es la conclusión obtenida de la población
DATO:
completa obtenida de la muestra. Se da a partir de la interpretación
Es el resultado de un proceso de construcción
de los datos
Es aquella información extraída de la realidad que tiene que ser
Unidad de análisis: es un miembro de la población, su definición
registrada en algún soporte físico o simbólico que implica una
está implícita. La información extraída de ella me permitirá ver las
elaboración conceptual y además que se pueda expresar a través
características (variables)
de alguna forma de lenguaje.
Parámetro: cualquier medida de resumen que se calcula usando
Componentes del dato:
todos los datos correspondientes a los elementos de una
● Elaboración conceptual.
población. Se representan por caracteres griegos ( µ, σ, π ).
● Contenido informativo.
Estadístico: es cualquier medida de resumen que se calcula con
● Un registro en algún soporte físico.
los datos correspondientes a los elementos de una muestra. Se
● La expresión de los mismos en alguna forma de lenguaje
representan por caracteres latinos (, s, p ).
numérico o no.
Estadística descriptiva: es el estudio de una característica de
Estos componentes operan durante todo el periodo de
una muestra, que se describe pero no se saca una conclusión investigación. Desde la elección del tema, la elaboración del diseño
Estadística inferencial hasta el informe final, pero se plasman durante la etapa de
recolección de datos, a través de las técnicas de investigación sean
cualitativas o cuantitativas
Entrevista Test
produce datos de naturaleza produce datos de naturaleza
Datos: resultados numéricos, medidas u observaciones verbal numérica
cualitativas, obtenidas a partir de una investigación con el objetivo
de responder a una cuestión. Estructura compuesta por 3 elementos: TRIPARTITA
● una unidad de análisis (elementos menores y no divisibles Variable: cualquier característica de interés que varía de una
que componen el universo de una investigación). Ej: unidad de observación a otra en la población o muestra.
individuos como seres sociales, productos de acción Los valores que las variables asumen se llaman datos. Estos
humana, colectivos sociales o grupos. valores se obtienen a través de mediciones realizadas en las
● una variable ( aspecto o dimensión de un fenómeno de variables son medidos por ESCALAS.
asumir determinados valores, cualidad o atributo que
presentan los individuos o hechos sociales de asumir
Escala: es un instrumento de medición. Se diferencian por orden y
diferentes valores).
distancia
● un determinado valor o categoría es una de las diferentes
● Escala nominal: no se hace ningún supuesto respecto a
opciones o alternativas que presenta la variable y puede
las relaciones que existen entre los valores de las variables.
expresarse cuali o cuantitativamente.
Cada valor se asigna a una categoría diferente
● Escala ordinal: surge al ordenar todas las categorías de
objetivo ➜ delimitar la población: dentro de la población
las variables de acuerdo a algún criterio.
tenemos unidades de análisis que se pueden estudiar todas o parte
de ellas, se observan una por una las características importantes ● De intervalo: tiene la propiedad de asignar una medición
para el fenómeno (variables) ➜ para ser estudiadas y medidas de distancia entre los valores de la variable. El punto de
necesito una escala ➜ una vez que tengo la escala observo las origen o punto cero en esta escala es un punto de acuerdo
caract de la ua y una vez que tengo eso construyo el dato o punto convencional.
los datos que me van a proporcionar el conocimiento sobre el ● De razón: presenta todas las propiedades de orden y de
fenómeno que yo estoy estudiando distancia adicionando el punto cero como origen.
todos los fenómenos que tiene que ver con las caract es lo más
variable las caract de las ua son variables cualitativas o cuantitativas:
controlando la variabilidad puedo controlar el fenómeno, por medio cualitativa ➜ tipo de musica (escala nominal, la más débil) donde
de las similitudes el orden no importa
el dato tiene una estructura tripartita ➜ ua + variable + nivel educativo (escala ordinal, aparte de clasificar da
escala una distancia) presenta una jerarquía
hay una jerarquía/orden en las categorías de respuestas de las cuantitativa ➜ cantidad de personas (discretas) números enteros
variables edad (continuas) no es entero el resultado
la variable cuantitativa (ya sea continua o discreta) presenta una
escala de intervalo y de razón diferencias
● Los errores se cuantifican mediante varianzas, desviaciones
intervalo: el valor 0 no implica la inexistencia de característica, es un
típicas o errores cuadráticos medios de los estimadores, que
valor arbitrario
miden la precisión de estos.
razón: el 0 implica la inexistencia
● Es importante tener en cuenta que para medir el grado de
representatividad de la muestra es necesario utilizar el
en la escala de likert la escala ordinal no puede tener menos de 5 muestreo probabilístico.
categorías, porque cuanto más distancias tengo en las categorías Tipos de muestreo
tengo más probabilidades de absorber la información
Probabilístico No probabilístico
población infinita ➜ no puedo medir, por ejemplo la medición
de la cantidad de gente con depresión, es imposible porque hay Para cada unidad de muestreo se puede
No se puede determinar la probabilidad
gente sin diagnóstico establecer la probabilidad de ser elegido,
para cada elemento o unidad muestreo
esto es cuando la selección constituya un
cuando observo la caract a la unidad de análisis, la caract va a de la población
fenómeno probabilizable
generar el dato . A parte de la base de datos hay que crear un libro
de código
Técnicas muestreo probabilístico
Probabilístico
TEORÍA DEL MUESTREO
Las unidades son elegidas una a la vez
Aleatorio
Métodos de muestreo: hace referencia al conjunto de técnicas Forma de selección: por sorteo simples o sorteo a través
estadísticas que estudian la forma de seleccionar una muestra simples
de una tabla de números
suficientemente representativa de una población cuya información
Con la lista completa de la población se puede aplicar el
permita inferir las propiedades o características de toda la
muestreo sistemático.
población cometiendo un error medible o acatable. La muestra
seleccionada mediante un determinado método de muestreo, Sistemático Procedimiento: total de la población (N) / tamaño de la
muestra (n) = constante de sistematización (k) Elegir
permite estimar características poblacionales. número entre 1 y k para empezar la elección de las
● Las estimaciones se realizan a través de funciones personas de la lista.
matemáticas denominadas estimadores, que se convierten en Estratificad Dividimos la población en H diferentes grupos, de forma
variables aleatorias al considerar la variabilidad de las o proporcional. Las unidades dentro de cada grupo debe
muestras. ser lo más homogénea posible y los grupos entre sí
deben ser lo más heterogéneos posible.
De grupo Es usado cuando las unidades de estudio forman grupos
naturales, o si una lista adecuada de la población entera ● Para dar los resultados de forma fácil
resulta difícil de compilar. Implica: la selección de una ● Resaltando su valor e importancia
muestra aleatoria de grupos y la observación de todas las ● Para encontrar el análisis que más conviene hacer para el
unidades de estudio entre los grupos elegidos. Son estudio
grupos heterogéneos internamente y homogéneos
externamente. 3 métodos para la presentación de datos: textos,
cuadros y gráficos estadísticos
No probabilístico Textos estadísticos
Sirve para exponer los datos con cifras en párrafos textuales
● Por cuotas ● Poblaciones móviles
● Intencional o juicio ● Casual o fortuito
Debe tener:
● Objetivo de Estudio. ● Variables de estudio.
Tamaño de la muestra ● Metodología empleada. ● Lugar, tiempo, recurso
Una muestra demasiado grande implica un desperdicio de recursos ● Población – Muestra: humano especializado.
y una muestra demasiado pequeña disminuye la utilidad de los método de selección de ● Fuente – Autor.
resultados muestreo. ● Conclusiones.
● Unidad elemental.
Para variables cuantitativas: Para variables cuantitativas: Cuadros estadísticos
Presenta y ordena datos divididos en sistemas de clasificación
Componentes:
● Número de Cuadro ● Cuadro en sí.
(opcional) ● Notas aclaratorias al cuadro
● Título. (opcional)
● Notas aclaratorias al título ● Fuente.
(opcional)
Z: confianza con que uno realiza el estudio
E: Error que podemos cometer al realizar la estimación. Número de cuadro: se coloca cuando hay más de un cuadro
Título: se coloca después del número de cuadro (si hay) en forma
de pirámide invertida. Debe responder a las preguntas: qué, dónde,
PRESENTACIÓN DE DATOS cuándo, cómo
Es necesario organizar la información presentando los datos:
● De forma efectiva para comprensión
Notas aclaratorias del título: se utilizan en casos en los cuales ● pueden combinarse en celdas compartidas, números
se deban realizar aclaraciones con respecto a los que se han absolutos con valores porcentuales o algún otro.
colocado en el título. Deben contener el valor que resulte de la Intersección de la Fila y la Columna
Cuadro en sí: (F,C)
Cuadro de trabajo Cuadro gerencial Nunca deben quedar vacíos. Si el valor es 0 se lo coloca.
Si no se cuenta con el registro de esa celda se: pone una marca (*) (#) o letras
(A,a)
Gráficos estadísticos
Es un complemento importante de la presentación tabular.
Los datos estadísticos están asociados a imagen o colores para
una interpretación visual.
Notas aclaratorias al cuadro: se usa para explicar las cifras Los hechos, las relaciones o comparaciones que son difíciles de
reconocer en masas de datos estadísticos, se observan con mayor
individuales de una columna o de un renglón de cifras. Las
claridad en la gráfica.
aclaraciones relacionadas con las marcas efectuadas en las celdas
Componentes de un cuadro:
(A, b ,*), explicando las razones por la que no se cuenta con dicha
información. ● Número de gráfico ● Gráfico.
Fuente: Debe colocarse debajo de las notas al pie. (opcional) ● Referencias del gráfico.
Debe ser completa: autor, título, volumen, página, editor y fecha o ● Título. ● Notas aclaratorias del
institución u organismo responsable ● Notas aclaratorias al título gráfico (opcional)
Origen de la fuente: (opcional) ● Fuente.
Primaria ➜ datos por procesos de Secundaria ➜ datos obtenidos de Clasificación de gráficos:
recolección de los autores de la registros, fichas o trabajos que han En ejes cartesianos ➜ se deben tener en cuenta:
investigación. realizado terceros.
● Proporcionalidad entre los ejes. (El eje debe ser un 75% del
tamaño del eje x).
Tipos de información
● La escala de los ejes deben ser: independientes entre sí y
Los cuadros pueden contener:
proporcional en cada eje
● datos en números absolutos que indique cantidades.
● Gráficos de barra (simples, bidireccionales, agrupadas,
● valores expresados en por cientos o por miles (toneladas), o
segmentadas)
por millones (de dólares).
● Gráficos lineales
Además de tabular y graficar, se deben calcular las medidas
Sin ejes cartesianos ➜ descriptivas de la variable:
● Gráficos circulares (3d): grafican totalidades ● Medidas de posición central
● Pictogramas: se utilizan dibujos ● Medidas de posición no central
● Pirámides poblacionales: para la representación del ● Medidas de dispersión y variabilidad
comportamiento humano ● Medidas de forma
ANÁLISIS BIVARIADO
Tabla de contingencia (variables cualitativas)
Deciles Covarianza y coeficiente de correlación (variables cuantitativas)
Dividen el grupo de datos en 10 partes iguales. En cada una hay Tabla de contingencias
10%=0,1=1/10. ● Una tabla de contingencia es una de las formas más comunes
Mismo cálculo que cuartiles: de resumir datos categóricos.
● En general, el interés se centra en estudiar si existe alguna
asociación entre dos variables.
● Una de las variables tiene sus criterios de clasificación ● Si ambas variables tienden a aumentar o disminuir a la vez, el
ordenados en fila y la otra variable sus criterios de coeficiente es positivo.
clasificación se encuentran ordenados en columna. ● Si una variable tiende a incrementarse mientras la otra
● De manera formal, se consideran X e Y dos variables disminuye, el coeficiente es negativo.
categóricas con i filas y j columnas respectivamente.
Ejemplo: Correlación: mide la fuerza y la relacion lineal entre dos variables.
Para evaluar esto se utiliza una escala estandarizada de -1 a +1.
Los valores estandarizados no tienen escala
Interpretación:
r=1 ➜ correlación positiva perfecta
0<r<1 ➜ correlación positiva
Covarianza y correlación
r=0 ➜ no hay relación lineal
Miden que tan fuerte es la relación entre dos variables
-1<r<0 ➜ correlación negativa
Covarianza: similar a la correlación pero los datos no están
estandarizados. Se expresan en unidades que varían con los datos
y pueden ir del infinito positivo al infinito negativo MEDIDAS DE VARIABILIDAD DISPERSIÓN
Debido que los datos no están estandarizados, no se puede aplicar
Y FORMA
el cálculo de covarianza para ver la fuerza que tiene una relación
lineal. MEDIDAS DE DISPERSIÓN
Se calcula: Las medidas de variabilidad miden la longitud de los datos en
relación a un valor central (media)
Las medidas de dispersión miden la distancia que existe entre los
Se puede utilizar la covarianza para determinar la dirección de una datos considerándolos conjuntamente
relación lineal entre dos variables, de la siguiente manera: Si los valores de los datos son parecidos, las medidas de
● Si el coeficiente de covarianza es cero no existe relación lineal variabilidad y dispersión tienen valores pequeños. Si son muy
entre las variables. diferentes las medidas de dispersión tienen valores grandes
El cálculo de algunas medidas de variabilidad difieren si es Varianza
población o muestra Es el promedio de las diferencias cuadráticas respecto a la media.
Para calcular se resta la media de cada variable, la diferencia se
Medidas más importantes: eleva al cuadrado y luego se suma entre si
2 2
Símbolos ➜ muestra (𝑆 ) población (σ )
● Rango o amplitud ● Desviación típica/estándar
Cálculos:
● Desviación media ● Coeficiente de variación
● Varianza
Rango
Es la diferencia entre el valor máximo y el valor mínimo de los
datos observados
El rango es una valor que ya ha sido utilizado en la organización de
datos cuantitativos
Rango = Valor Máximo - Valor Mínimo Desviación típica
La varianza representa unidades al cuadrado, por ende no se debe
Desviación media calcular en unidades originales. Para hacerlo en originales se debe
Para estudiar la variabilidad de los datos es necesario medir la calcular la desviación estándar, sacando raíz cuadrada de la
distancia entre ellos y una medida de tendencia central. varianza ya que es más fácil de interpretar
La media es la más adecuada para este procedimiento, sin Cálculo:
embargo una de las propiedades de la media es que la suma de
todas las desviaciones es cero, por eso se calcula el valor absoluto
de la diferencia entre la media y los valores observados
MEDIDAS DE FORMA
Datos poblacionales ➜ se divide por el total de N Indican si la distribución es simétrica, coeficientes de sesgo y el
grado de apuntalamiento tomando como referencia la curva normal
Medidas más importantes ➜ asimetría y curtosis
Asimetría: o sesgo, informa si los extremos de las curvas
asociadas a los datos son mas alargados hacia alguno de los
lados. Una distribución simétrica tiene adopta la forma:
Coeficiente de variación
Expresa la desviación estándar como un porcentaje de la media
Presenta un solo valor modal y luego decae
● Es una medida de dispersión relativa
a ambos lados de dicho valor mostrando
● Determina la homogeneidad o heterogeneidad de un conjunto igual frecuencia para valores equidistantes.
de datos En ese caso las medidas de tendencia
● Surge como el resultado entre dos cantidades expresadas en central son iguales. = Med = Mo
la misma unidad de medida
● Mide la dispersión de los valores entre sí de forma proporcional Sesgo: cuando un conjunto de observaciones no está
Cálculo: simétricamente distribuido.
Muestra ➜ CV = S/
Positivo: es positivo si la mayor proporción de las ● Distribución leptocúrtica: cuando la distribución es más
observaciones son menores o iguales que la media, esto puntiaguda que la normal
indica que la media es mayor que la mediana. ● Distribución platicúrtica: cuando la distribución es más chata
El histograma tiene una cola más larga a la derecha de la Coeficiente de curtosis:
distribución, por ello esta distribución se conoce como
sesgada a la derecha.
Negativo: es negativo si tiene más observaciones Si к = 0,263 es una curva Mesocúrtica (Normal)
Si к ‹ 0,263 es una curva Platicúrtica (Achatada)
mayores o iguales a la media. Tal distribución tiene una
Si к › 0,263 es una curva Leptocúrtica (Puntiaguda)
media que es menor a la mediana.
El histograma tiene una cola más larga a la izquierda de la
distribución por eso se la conoce como sesgada a la
PROBABILIDAD
izquierda.
Cálculo de probabilidades: es la teoría matemática que
Índice de simetria de Pearson construye modelos para la descripción y análisis de los eventos
El coeficiente más simple para ver la simetria de Pearson es con el aleatorios.
cálculo Un evento aleatorio, es un resultado de un experimento aleatorio.
Tipos de eventos:
Mutuamente excluyente: Son eventos que no pueden ocurrir al
mismo tiempo, o sea, la ocurrencia de uno impide que el otro
ocurra.
Colectivamente exhaustivos: Son eventos que incluyen
Si la distribución es perfectamente insesgada, la media y la mediana
todos los eventos(resultados) posibles para un experimento.
coinciden y el valor de Sp será igual a 0. Una distribución que es sesgada
a la derecha tendrá la media mayor a la mediana y luego Sp tendrá un
Experimento aleatorio: es una operación realizada un cierto
valor positivo. La distribución será positivamente sesgada. En cambio, si
número de veces, bajo las mismas condiciones de
la media es menor a la mediana, Sp será menor que 0 y la distribución
experimentación. Un resultado no puede preverse cuando se
será sesgada a la izquierda.
realiza una sola vez pero, si se repite un número grande de
Curtosis: es el grado de apuntalamiento de la curva. Compara la veces, los resultados del experimento responderán a una 'ley‘
distribución de frecuencia de una variable con una distribución de comportamiento regular y previsible.
normal.
Probabilidad de ocurrencia de un evento: se calcula como la
cantidad de casos favorables a dicho evento, sobre el total de DISTRIBUCIÓN DE PROBABILIDAD
resultados igualmente posibles.
En símbolos: Si D es el evento al cual se le quiere calcular la
NORMAL
probabilidad de ocurrencia, la experiencia consta de n resultados Variables cualitativas y cuantitativas
posibles y la aparición del evento D se puede dar en m de estos Distribución de probabilidad conocida como ➜ distribución normal,
resultados, se tiene: P (D) = m/n Gaussiana o de Laplace, o campana de Gauss.
Es la más utilizada en las aplicaciones estadísticas por la
frecuencia con que algunos fenómenos suelen parecerse en su
Como la probabilidad es fundamentalmente una proporción, ésta
comportamiento a esta distribución
varía entre 0,00 y 1,00, o sea: 0,00≤ P(A) ≤ 1,00
Características:
● Simétrica
Existen dos reglas de probabilidad necesarias para comprender la ● Mesocúrtica
estadística inferencial: ● Los parámetros que la caracterizan son media y varianza
Suponiendo que existen dos eventos (A y B), la regla de la suma
proporciona la probabilidad de A o B, mientras que la del producto La distribución normal presenta un valor de mayor frecuencia y, a
determina la probabilidad de A y B. partir de él, decae hacia ambos lados con una simetría perfecta
El cálculo de la probabilidad utiliza dos reglas: regla de la suma y que hace que a valores situados a igual distancia del valor modal
regla del producto por izquierda y por derecha de la distribución, les corresponda la
misma probabilidad.
Representación gráfica
Regla de la suma Regla del producto
C ob11 B12 C si miro la frecuencia de ac estoy Lo que se obtiene de esa suma se llama el valor de ji cuadrada
parada sobre i1 j1 = ob11 calculada
D ob21 B22 d
Esto es a frecuencia Paso 5: calcular con valor de ji cuadrada crítica (valor teórico)
Total a b Total gral recolectada
Ji cuadrada crítica depende de 2 valores: nivel de significación (es
La prueba de ji cuadrada es lo que yo comparo de las frecuencias alfa, se da en la consigna) y de los grados de libertad (= i-1 * j-1)
observadas con las fr que esperaría que ocurriera para ver si la hp
es verdadera Paso 6: ver el valor en la tabla de ji2
Paso 3: calcular la esperada para cada fila y columna Ejemplo: 1 gl al 0,95 me da 3,84
El cálculo siempre se utiliza el total j*total i/total general Paso 7: comparar con el valor de ji cuadrada calculada
El valor esperado (E11) es el tA*tB/TG Cuando ji2 cal es menor a ji crítica yo acepto
D E21 = TD*TA/TG E22= d Interpretación: Las evidencias estadísticas tomadas con el nivel
de significación de x% demuestran que las patologías observadas
Total a b Total gral
(criterios de clasificación) en relación a la profesión son (criterio de
clasificación) dependientes/independientes, porque el valor
Paso 4: se debe comparar las frecuencias aplicado fórmula ji
calculado de la ji^2 fue mayor/menor de la ji crítica
cuadrada