0% encontró este documento útil (0 votos)
36 vistas20 páginas

Apuntes Psicoestadistica

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
36 vistas20 páginas

Apuntes Psicoestadistica

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PSICOESTADÍSTICA Teoría:

● “La Estadística estudia los métodos científicos para recoger, organizar, resumir
Estadística Medidas descriptivas de y analizar datos, así como para sacar conclusiones válidas y tomar decisiones
Conceptos básicos posición central razonables basadas en tal análisis.” - Spiegel (1992)
Construcción del dato Medidas descriptivas de ● “La rama del saber que trata del desarrollo y aplicación de métodos eficientes
Teoría del muestreo posición no central de recolección, elaboración, presentación, análisis e interpretación de datos
Análisis bivariado numéricos.” - Ligia Moya (1989)
Presentación de datos gral
Medidas de dispersión y de ● “Disciplina que comprende los métodos estadísticos y el estudio de métodos
Organización y presentación de
forma científicos de acopio, tratamiento, reducción, presentación, análisis e
datos cualitativos
interpretación de datos y de hacer deducciones y sacar conclusiones de datos
Organizacion y presentacion de Probabilidad
numéricos” - Lwanga y Tye (1987)
datos cuantitativos Distribución normal
● “Es la ciencia que estudia la aplicación de los métodos estadísticos para
Distribución ji cuadrada conocer las características de los conjuntos o de los fenómenos de masa, en
Correlación y regresión sus aspectos cuantitativos y cualitativos" - Tavera Barquin (1980)
● “Es un campo del estudio relacionado con la recopilación, organización y
resumen de datos y la obtención de inferencias acerca de un conjunto de datos
cuando sólo se observa una parte de ellos” - Daniel W. (2002)
ESTADÍSTICA
¿Qué es y qué estudia la estadística?
La estadística estudia los métodos científicos que permite recopilar, CONCEPTOS BÁSICOS
organizar, presentar, analizar e interpretar datos, para Población: es cualquier colección de unidades que puedan ser
posteriormente tomar decisiones en base al análisis. Además utilizadas en un estudio, ya sean personas, objetos, animales,
aplica los métodos estadísticos para analizar los fenómenos de una otros; es necesario que cumplan un criterio para su evaluación. Es
población tanto es sus aspectos cualitativo como cuantitativo. necesario preguntarse qué se va a estudiar, dónde, cuándo y
Tiene 3 significados: la palabra estadística, en primer término se cómo. La población debe ser específica. 1er paso
usa para referirse a la información estadística; también se utiliza Muestra: es el subconjunto de la población, es lo extraído de ella y
para referirse al conjunto de técnicas y métodos que se utilizan debe ser probable. Es el 2do paso para una investigación. La
para analizar la información estadística; y el término estadístico, en muestra debe estar bien escogida para que sea posible una mayor
singular y en masculino, se refiere a una medida derivada de una precisión
muestra. Medición: es un número que podemos asignar a la unidad de
análisis. Es el 3er paso
Hay dos tipos:
● Cuantitativa: expresan dimensiones o capacidades, se
expresan con un número
CONSTRUCCIÓN DEL DATO
● Cualitativa: son las características o atributos, no se El dato es la unidad más primaria que, al trabajar con ella, genera
expresan con un número por ende son más bien un indicador; este, una vez analizado, genera información que,
descriptivas luego de interpretada, genera conocimiento
Inferencia estadística: es la conclusión obtenida de la población
DATO:
completa obtenida de la muestra. Se da a partir de la interpretación
Es el resultado de un proceso de construcción
de los datos
Es aquella información extraída de la realidad que tiene que ser
Unidad de análisis: es un miembro de la población, su definición
registrada en algún soporte físico o simbólico que implica una
está implícita. La información extraída de ella me permitirá ver las
elaboración conceptual y además que se pueda expresar a través
características (variables)
de alguna forma de lenguaje.
Parámetro: cualquier medida de resumen que se calcula usando
Componentes del dato:
todos los datos correspondientes a los elementos de una
● Elaboración conceptual.
población. Se representan por caracteres griegos ( µ, σ, π ).
● Contenido informativo.
Estadístico: es cualquier medida de resumen que se calcula con
● Un registro en algún soporte físico.
los datos correspondientes a los elementos de una muestra. Se
● La expresión de los mismos en alguna forma de lenguaje
representan por caracteres latinos (, s, p ).
numérico o no.
Estadística descriptiva: es el estudio de una característica de
Estos componentes operan durante todo el periodo de
una muestra, que se describe pero no se saca una conclusión investigación. Desde la elección del tema, la elaboración del diseño
Estadística inferencial hasta el informe final, pero se plasman durante la etapa de
recolección de datos, a través de las técnicas de investigación sean
cualitativas o cuantitativas
Entrevista Test
produce datos de naturaleza produce datos de naturaleza
Datos: resultados numéricos, medidas u observaciones verbal numérica
cualitativas, obtenidas a partir de una investigación con el objetivo
de responder a una cuestión. Estructura compuesta por 3 elementos: TRIPARTITA
● una unidad de análisis (elementos menores y no divisibles Variable: cualquier característica de interés que varía de una
que componen el universo de una investigación). Ej: unidad de observación a otra en la población o muestra.
individuos como seres sociales, productos de acción Los valores que las variables asumen se llaman datos. Estos
humana, colectivos sociales o grupos. valores se obtienen a través de mediciones realizadas en las
● una variable ( aspecto o dimensión de un fenómeno de variables son medidos por ESCALAS.
asumir determinados valores, cualidad o atributo que
presentan los individuos o hechos sociales de asumir
Escala: es un instrumento de medición. Se diferencian por orden y
diferentes valores).
distancia
● un determinado valor o categoría es una de las diferentes
● Escala nominal: no se hace ningún supuesto respecto a
opciones o alternativas que presenta la variable y puede
las relaciones que existen entre los valores de las variables.
expresarse cuali o cuantitativamente.
Cada valor se asigna a una categoría diferente
● Escala ordinal: surge al ordenar todas las categorías de
objetivo ➜ delimitar la población: dentro de la población
las variables de acuerdo a algún criterio.
tenemos unidades de análisis que se pueden estudiar todas o parte
de ellas, se observan una por una las características importantes ● De intervalo: tiene la propiedad de asignar una medición
para el fenómeno (variables) ➜ para ser estudiadas y medidas de distancia entre los valores de la variable. El punto de
necesito una escala ➜ una vez que tengo la escala observo las origen o punto cero en esta escala es un punto de acuerdo
caract de la ua y una vez que tengo eso construyo el dato o punto convencional.
los datos que me van a proporcionar el conocimiento sobre el ● De razón: presenta todas las propiedades de orden y de
fenómeno que yo estoy estudiando distancia adicionando el punto cero como origen.
todos los fenómenos que tiene que ver con las caract es lo más
variable las caract de las ua son variables cualitativas o cuantitativas:
controlando la variabilidad puedo controlar el fenómeno, por medio cualitativa ➜ tipo de musica (escala nominal, la más débil) donde
de las similitudes el orden no importa
el dato tiene una estructura tripartita ➜ ua + variable + nivel educativo (escala ordinal, aparte de clasificar da
escala una distancia) presenta una jerarquía
hay una jerarquía/orden en las categorías de respuestas de las cuantitativa ➜ cantidad de personas (discretas) números enteros
variables edad (continuas) no es entero el resultado
la variable cuantitativa (ya sea continua o discreta) presenta una
escala de intervalo y de razón diferencias
● Los errores se cuantifican mediante varianzas, desviaciones
intervalo: el valor 0 no implica la inexistencia de característica, es un
típicas o errores cuadráticos medios de los estimadores, que
valor arbitrario
miden la precisión de estos.
razón: el 0 implica la inexistencia
● Es importante tener en cuenta que para medir el grado de
representatividad de la muestra es necesario utilizar el
en la escala de likert la escala ordinal no puede tener menos de 5 muestreo probabilístico.
categorías, porque cuanto más distancias tengo en las categorías Tipos de muestreo
tengo más probabilidades de absorber la información
Probabilístico No probabilístico
población infinita ➜ no puedo medir, por ejemplo la medición
de la cantidad de gente con depresión, es imposible porque hay Para cada unidad de muestreo se puede
No se puede determinar la probabilidad
gente sin diagnóstico establecer la probabilidad de ser elegido,
para cada elemento o unidad muestreo
esto es cuando la selección constituya un
cuando observo la caract a la unidad de análisis, la caract va a de la población
fenómeno probabilizable
generar el dato . A parte de la base de datos hay que crear un libro
de código
Técnicas muestreo probabilístico
Probabilístico
TEORÍA DEL MUESTREO
Las unidades son elegidas una a la vez
Aleatorio
Métodos de muestreo: hace referencia al conjunto de técnicas Forma de selección: por sorteo simples o sorteo a través
estadísticas que estudian la forma de seleccionar una muestra simples
de una tabla de números
suficientemente representativa de una población cuya información
Con la lista completa de la población se puede aplicar el
permita inferir las propiedades o características de toda la
muestreo sistemático.
población cometiendo un error medible o acatable. La muestra
seleccionada mediante un determinado método de muestreo, Sistemático Procedimiento: total de la población (N) / tamaño de la
muestra (n) = constante de sistematización (k) Elegir
permite estimar características poblacionales. número entre 1 y k para empezar la elección de las
● Las estimaciones se realizan a través de funciones personas de la lista.
matemáticas denominadas estimadores, que se convierten en Estratificad Dividimos la población en H diferentes grupos, de forma
variables aleatorias al considerar la variabilidad de las o proporcional. Las unidades dentro de cada grupo debe
muestras. ser lo más homogénea posible y los grupos entre sí
deben ser lo más heterogéneos posible.
De grupo Es usado cuando las unidades de estudio forman grupos
naturales, o si una lista adecuada de la población entera ● Para dar los resultados de forma fácil
resulta difícil de compilar. Implica: la selección de una ● Resaltando su valor e importancia
muestra aleatoria de grupos y la observación de todas las ● Para encontrar el análisis que más conviene hacer para el
unidades de estudio entre los grupos elegidos. Son estudio
grupos heterogéneos internamente y homogéneos
externamente. 3 métodos para la presentación de datos: textos,
cuadros y gráficos estadísticos
No probabilístico Textos estadísticos
Sirve para exponer los datos con cifras en párrafos textuales
● Por cuotas ● Poblaciones móviles
● Intencional o juicio ● Casual o fortuito
Debe tener:
● Objetivo de Estudio. ● Variables de estudio.
Tamaño de la muestra ● Metodología empleada. ● Lugar, tiempo, recurso
Una muestra demasiado grande implica un desperdicio de recursos ● Población – Muestra: humano especializado.
y una muestra demasiado pequeña disminuye la utilidad de los método de selección de ● Fuente – Autor.
resultados muestreo. ● Conclusiones.
● Unidad elemental.
Para variables cuantitativas: Para variables cuantitativas: Cuadros estadísticos
Presenta y ordena datos divididos en sistemas de clasificación
Componentes:
● Número de Cuadro ● Cuadro en sí.
(opcional) ● Notas aclaratorias al cuadro
● Título. (opcional)
● Notas aclaratorias al título ● Fuente.
(opcional)
Z: confianza con que uno realiza el estudio
E: Error que podemos cometer al realizar la estimación. Número de cuadro: se coloca cuando hay más de un cuadro
Título: se coloca después del número de cuadro (si hay) en forma
de pirámide invertida. Debe responder a las preguntas: qué, dónde,
PRESENTACIÓN DE DATOS cuándo, cómo
Es necesario organizar la información presentando los datos:
● De forma efectiva para comprensión
Notas aclaratorias del título: se utilizan en casos en los cuales ● pueden combinarse en celdas compartidas, números
se deban realizar aclaraciones con respecto a los que se han absolutos con valores porcentuales o algún otro.
colocado en el título. Deben contener el valor que resulte de la Intersección de la Fila y la Columna
Cuadro en sí: (F,C)
Cuadro de trabajo Cuadro gerencial Nunca deben quedar vacíos. Si el valor es 0 se lo coloca.
Si no se cuenta con el registro de esa celda se: pone una marca (*) (#) o letras
(A,a)

Gráficos estadísticos
Es un complemento importante de la presentación tabular.
Los datos estadísticos están asociados a imagen o colores para
una interpretación visual.
Notas aclaratorias al cuadro: se usa para explicar las cifras Los hechos, las relaciones o comparaciones que son difíciles de
reconocer en masas de datos estadísticos, se observan con mayor
individuales de una columna o de un renglón de cifras. Las
claridad en la gráfica.
aclaraciones relacionadas con las marcas efectuadas en las celdas
Componentes de un cuadro:
(A, b ,*), explicando las razones por la que no se cuenta con dicha
información. ● Número de gráfico ● Gráfico.
Fuente: Debe colocarse debajo de las notas al pie. (opcional) ● Referencias del gráfico.
Debe ser completa: autor, título, volumen, página, editor y fecha o ● Título. ● Notas aclaratorias del
institución u organismo responsable ● Notas aclaratorias al título gráfico (opcional)
Origen de la fuente: (opcional) ● Fuente.
Primaria ➜ datos por procesos de Secundaria ➜ datos obtenidos de Clasificación de gráficos:
recolección de los autores de la registros, fichas o trabajos que han En ejes cartesianos ➜ se deben tener en cuenta:
investigación. realizado terceros.
● Proporcionalidad entre los ejes. (El eje debe ser un 75% del
tamaño del eje x).
Tipos de información
● La escala de los ejes deben ser: independientes entre sí y
Los cuadros pueden contener:
proporcional en cada eje
● datos en números absolutos que indique cantidades.
● Gráficos de barra (simples, bidireccionales, agrupadas,
● valores expresados en por cientos o por miles (toneladas), o
segmentadas)
por millones (de dólares).
● Gráficos lineales
Además de tabular y graficar, se deben calcular las medidas
Sin ejes cartesianos ➜ descriptivas de la variable:
● Gráficos circulares (3d): grafican totalidades ● Medidas de posición central
● Pictogramas: se utilizan dibujos ● Medidas de posición no central
● Pirámides poblacionales: para la representación del ● Medidas de dispersión y variabilidad
comportamiento humano ● Medidas de forma

TABULACIÓN DE DATOS CUANTITATIVOS


ORGANIZACIÓN DE DATOS CUALITATIVOS Tabulación Puntual
Paso 1: Se ordenan estos datos en dos columnas. La primera de En general se utiliza con los datos cuantitativos discretos y
ellas conteniendo la identificación de la unidad de observación y la muestras muy chicas.
segunda el dato correspondiente a dicha unidad. debo ordenar la variable de menor a mayor (manualmente)
1. ordenar y determinar los valores que la variable asume
Paso 2: Se hace un conteo de la repetición de los datos (datos 2. asocio el valor distinto al valor que la variable asumió
iguales) y se construye una tabla de frecuencias 3. calculo las frecuencias simples e intervalares de la tabla
Tabla de frecuencias
Tabla de frecuencias: en datos cuali es una tabla que asocia Frecuencias simples ➜ absoluta, relativa, porcentual
cada categoría de la variable con el número de veces que se repite a las frecuencias simples se le agregan las frecuencias
dicha categoría. acumuladas menores < y mayores >
Frecuencia absoluta (ni): el número de veces que se repite Frecuencias acumuladas ➜
cierta categoría. La suma tiene que dar el resultado de la muestra Frecuencia Acumulada Menor (Ni<, Hi< o %<): para un valor
Frecuencia relativa (hi): la proporción de veces que ocurre dado de la variable es la suma de las frecuencias (absolutas o
alguna categoría. La frecuencia h1= n1/n. El total siempre es 1 relativas) de los valores menores o iguales al valor que se está
Frecuencia porcentual (%): la proporción multiplicada por cien considerando.
Datos nominales: Gráficos de Barras y/o Diagrama de Pay Frecuencia Acumulada Mayor (Ni>, Hi> o %>): para un valor
Datos ordinales: Gráficos de Barras dado de la variable es la resta de las frecuencias (absolutas o
relativas) de los valores menores o iguales al valor que se está
considerando.
ORGANIZACIÓN DE DATOS
CUANTITATIVOS Gráficos
Los datos organizados puntualmente se dividen en 2 tipos de Para realizar cálculos a partir de datos tabulados, se utilizan las
gráficos: marcas de clase: una marca de clase es el punto medio de una
Frecuencias Simples: Gráfico de Bastones. clase.
Frecuencias Acumuladas: Gráfico de Escalones. MCi = (LSCi + LICi)/2

Tabulación Intervalar Parámetros más importantes en una tabulación de


Se utiliza con los datos cuantitativos discretos (muestras grandes) variables cuantitativas
y/o contínuos. ● nx ➜ Frecuencia absoluta de la
● Cx ➜ Clases
Se divide la variable en intervalos a los que se denomina clases clase x.
● LICx ➜ Límite Inferior de la
Número de clases: Representase por letra k. El valor de k debe ● hx ➜ frecuencia relativa de la
clase x.
ser aproximadamente la raíz cuadrada del valor de n(tamaño de la clase x.
● LSCx ➜ Límite Superior de la
muestra) o N (tamaño de la población). Otra forma de determinar k ● Nx ➜ Frecuencia absoluta
clase x.
es aplicando la fórmula de Sturges: acumulada.
● MCx ➜ Marca de clase o punto
k= 1 + 3,322*logn. ● Hx ➜ Frecuencia relativa
medio de clase.
Límite de clases: Una clase está definida por dos valores, límite acumulada.
inferior (LIC), y límite superior (LSC). La clasificación tiene que ser
exhaustiva y mutuamente excluyente. El límite superior de una Pasos para tabulación intervalar
clase debe coincidir con el límite inferior de la clase siguiente, o Paso 1: Ordenar los datos de forma ascendente o descendente.
sea, pertenecen a la clase todos los números que cumplan la Paso 2: Determinar la amplitud total. Mayor Valor – Menor Valor
siguiente condición. (a, b) a≤ x<b Paso 3: Determinar el nº de clases. K= √n
Intervalo de clase: Es el conjunto de valores que pueden Paso 4: Calcular la longitud del intervalo de clase. At/k
pertenecer a una clase, es decir, los valores comprendidos entre el Paso 5: Determinar los límites inferiores y superiores de las clases.
límite inferior y superior de clase. La longitud del intervalo es la Paso 6: Construir la Tabla de Distribución de Frecuencias
diferencia entre el límite superior e inferior de clase. En general, es Completa (Simples y Acumuladas)
conveniente que la longitud de los intervalos de clase sea la misma
en todas las clases. Determinase la longitud dividiendo la amplitud Gráficos
total de los datos por el número de clases determinado.
Frecuencias Simples: Histograma, Polígono de Frecuencias y
Aclase= At /k
Curva de Frecuencias.
Frecuencias Acumuladas: Ogiva
tomo mc y sumo por la frecuencia
La media es el valor representativo del conjunto de datos
MEDIDAS DESCRIPTIVAS DE POSICIÓN Se calcula promediando todos los datos
CENTRAL
El cálculo de estas medidas difiere de acuerdo al tipo de variables
con que se trabaja y presenta pequeñas modificaciones según se
disponga de datos agrupados de forma puntual e intervalar
medidas de posición centrada más importantes ➜ aritmética
simple, la moda y la mediana Datos de organización puntual
Son reconocidas por: Interpretación: El promedio de hijos por hogar es de
● símbolos latinos (medidas estadísticas). Se usan en aproximadamente 3, o sea, el nº de hijos que se espera encontrar
muestra (n) en cada hogar es 3.
● símbolos griegos (parámetros). Se usan en población (N)
Datos de organización intervalar
Media El valor de Xi en el cálculo de la media es determinado por la
Las medias se clasifican en: marca de clase o punto medio de clase, pues este es el valor
● Media aritmética ● Media armónica representativo del intervalo que se está considerando.
● Media aritmética ● Media cuadrática El procedimiento que sigue es análogo al efectuado anteriormente.
ponderada Interpretación: El nº de atendimientos diarios que se espera que
● Media aritmética ocurra en las escuelas rurales es 29 .
geométrica
Mediana
Media aritmética
En un conjunto de n datos ordenados de menor a mayor es el
el parámetro más usado. Se suele emplear el símbolo µ (carácter
valor central. La mediana divide el grupo de datos en dos partes
griego) para representar la media poblacional y (carácter latino)
iguales en cuanto al número de datos.
para representar la media muestral.
mas importante, es mas sensible Interpretación: el 50% de los valores de los datos son menores
cualquier cambio en el valor de la variable puede cambiar la media que el valor de la mediana y 50% son mayores.
i=datos➜ x1 x2 x3 x4 El valor de mediana es determinado a través de la frecuencia
producto entre el valor de la variable y la frecuencia absoluta acumulada menor.
no se ve afectada por los valores, a diferencia de la aritmética
si o si tengo que tener los datos ordenados de menor a mayor ➜
d2 = diferencia entre la
ese es el valor central
frecuencia absoluta de la clase
50% son los valores menores, 50% los mayores SIN EL PUNTO
modal y la frecuencia de la clase
DE CORTE
posterior a ella.
el cálculo de la mediana depende si es puntual o intervalar, son
lc = longitud del intervalo de
procesos diferentes
clase.
¿cómo calculo?:
si es puntual ➜ la mitad de la n más un medio mas. media= x [(1⁄2
n )+ ½] Interpretación: la mayor frecuencia de … es x
Cálculo puntual: La relación entre estas tres medidas de centralización de los datos nos da
una información importante sobre la forma de la distribución gráfica de
estos datos.
Cando:
Cálculo intervalar: hay que interpolar
>Md>Mo Asimetría Positiva
<Md<Mo Asimetría Negativa
=Md=Mo Simetría.
Li = Límite inferior de la clase que localizamos la mediana.
n = tamaño de la muestra (nº total de datos)
Ni< = frecuencia absoluta acumulada anterior de la clase que se MEDIDAS DESCRIPTIVAS DE POSICIÓN NO
encuentra la mediana.
ni = frecuencia absoluta de clase de la mediana. CENTRAL
lc = longitud de clase. Son llamadas de cuartiles, deciles y percentiles. Dividen en grupos
de cuatro, diez o cien partes iguales
Moda Las más usadas son cuartiles y percentiles
En un conjunto de datos es el valor que más se repite. El cálculo es similar a la mediana, la diferencia está en el nº de
Si los datos están agrupados de forma puntual la moda se partes que se divide el grupo de datos
determina tomando el valor de la variable que tuvo la mayor Cuartiles
frecuencia. Fraccionan (dividen) en 4 partes iguales
Si los datos están agrupados de forma intervalar se interpolan los Se usa Q para representar los cuartiles. Son 3 puntos de corte (Q1,
valores con la frecuencia absoluta Q2, Q3)
En cada cuartil hay 25%=0,25=¼ de la información
Cálculo:
De forma puntual:
1. se ordenan datos de menor a mayor
2. se busca el lugar de cada cuartil con el cálculo:
Percentiles
Dividen el grupo de datos en 100 partes iguales. En cada una hay
1%=0,01=1/100
Mismos cálculos anteriores:

La interpretación de los deciles y percentiles es igual que la de los cuartiles.


De forma intervalar: ejemplo Se toma el porcentaje por abajo y por arriba del punto de corte, nunca sobre
el punto
Ej.: P80 = 56 (Interpretamos: 80% de los valores son menores que 56 y
20% de los valores son mayores que 56).
D4 = 90 ( Interpretamos: 40% de los valores son menores que 90 y 60% de
los valores son mayores que 90).

ANÁLISIS BIVARIADO
Tabla de contingencia (variables cualitativas)
Deciles Covarianza y coeficiente de correlación (variables cuantitativas)
Dividen el grupo de datos en 10 partes iguales. En cada una hay Tabla de contingencias
10%=0,1=1/10. ● Una tabla de contingencia es una de las formas más comunes
Mismo cálculo que cuartiles: de resumir datos categóricos.
● En general, el interés se centra en estudiar si existe alguna
asociación entre dos variables.
● Una de las variables tiene sus criterios de clasificación ● Si ambas variables tienden a aumentar o disminuir a la vez, el
ordenados en fila y la otra variable sus criterios de coeficiente es positivo.
clasificación se encuentran ordenados en columna. ● Si una variable tiende a incrementarse mientras la otra
● De manera formal, se consideran X e Y dos variables disminuye, el coeficiente es negativo.
categóricas con i filas y j columnas respectivamente.
Ejemplo: Correlación: mide la fuerza y la relacion lineal entre dos variables.
Para evaluar esto se utiliza una escala estandarizada de -1 a +1.
Los valores estandarizados no tienen escala

Interpretación:
r=1 ➜ correlación positiva perfecta
0<r<1 ➜ correlación positiva
Covarianza y correlación
r=0 ➜ no hay relación lineal
Miden que tan fuerte es la relación entre dos variables
-1<r<0 ➜ correlación negativa
Covarianza: similar a la correlación pero los datos no están
estandarizados. Se expresan en unidades que varían con los datos
y pueden ir del infinito positivo al infinito negativo MEDIDAS DE VARIABILIDAD DISPERSIÓN
Debido que los datos no están estandarizados, no se puede aplicar
Y FORMA
el cálculo de covarianza para ver la fuerza que tiene una relación
lineal. MEDIDAS DE DISPERSIÓN
Se calcula: Las medidas de variabilidad miden la longitud de los datos en
relación a un valor central (media)
Las medidas de dispersión miden la distancia que existe entre los
Se puede utilizar la covarianza para determinar la dirección de una datos considerándolos conjuntamente
relación lineal entre dos variables, de la siguiente manera: Si los valores de los datos son parecidos, las medidas de
● Si el coeficiente de covarianza es cero no existe relación lineal variabilidad y dispersión tienen valores pequeños. Si son muy
entre las variables. diferentes las medidas de dispersión tienen valores grandes
El cálculo de algunas medidas de variabilidad difieren si es Varianza
población o muestra Es el promedio de las diferencias cuadráticas respecto a la media.
Para calcular se resta la media de cada variable, la diferencia se
Medidas más importantes: eleva al cuadrado y luego se suma entre si
2 2
Símbolos ➜ muestra (𝑆 ) población (σ )
● Rango o amplitud ● Desviación típica/estándar
Cálculos:
● Desviación media ● Coeficiente de variación
● Varianza
Rango
Es la diferencia entre el valor máximo y el valor mínimo de los
datos observados
El rango es una valor que ya ha sido utilizado en la organización de
datos cuantitativos
Rango = Valor Máximo - Valor Mínimo Desviación típica
La varianza representa unidades al cuadrado, por ende no se debe
Desviación media calcular en unidades originales. Para hacerlo en originales se debe
Para estudiar la variabilidad de los datos es necesario medir la calcular la desviación estándar, sacando raíz cuadrada de la
distancia entre ellos y una medida de tendencia central. varianza ya que es más fácil de interpretar
La media es la más adecuada para este procedimiento, sin Cálculo:
embargo una de las propiedades de la media es que la suma de
todas las desviaciones es cero, por eso se calcula el valor absoluto
de la diferencia entre la media y los valores observados

Interpretación: la variabilidad dentro del conjunto de datos es de


aprox 2 unidades entre los valores del conjunto de datos y su valor
central (la media)
Poblacion ➜ CV = σ/µ
Cuando los datos observados de una Interpretación: (ejemplos)
variable siguen una distribución que se ● La dispersión existente entre los valores del 1º es de 72%,
parece a un modelo conocido como “ esto demuestra que el conjunto de valores es bastante
distribución normal” (campana de heterogéneo. Esto puede significar que existe dos poblaciones
Gauss), podemos asumir que mezcladas.
aproximadamente 68% de los datos se ● La dispersión existente entre los valores es de 33%, esto
encuentran a una desviación estándar demuestra que el 2º conjunto de valores es bien más
de la media. 95% entre dos desviaciones homogéneo que el 1º, o sea, existe menos variabilidad entre
y 99,7% entre tres desviaciones. los valores que la variable asumió.

MEDIDAS DE FORMA
Datos poblacionales ➜ se divide por el total de N Indican si la distribución es simétrica, coeficientes de sesgo y el
grado de apuntalamiento tomando como referencia la curva normal
Medidas más importantes ➜ asimetría y curtosis
Asimetría: o sesgo, informa si los extremos de las curvas
asociadas a los datos son mas alargados hacia alguno de los
lados. Una distribución simétrica tiene adopta la forma:

Coeficiente de variación
Expresa la desviación estándar como un porcentaje de la media
Presenta un solo valor modal y luego decae
● Es una medida de dispersión relativa
a ambos lados de dicho valor mostrando
● Determina la homogeneidad o heterogeneidad de un conjunto igual frecuencia para valores equidistantes.
de datos En ese caso las medidas de tendencia
● Surge como el resultado entre dos cantidades expresadas en central son iguales. = Med = Mo
la misma unidad de medida
● Mide la dispersión de los valores entre sí de forma proporcional Sesgo: cuando un conjunto de observaciones no está
Cálculo: simétricamente distribuido.
Muestra ➜ CV = S/
Positivo: es positivo si la mayor proporción de las ● Distribución leptocúrtica: cuando la distribución es más
observaciones son menores o iguales que la media, esto puntiaguda que la normal
indica que la media es mayor que la mediana. ● Distribución platicúrtica: cuando la distribución es más chata
El histograma tiene una cola más larga a la derecha de la Coeficiente de curtosis:
distribución, por ello esta distribución se conoce como
sesgada a la derecha.
Negativo: es negativo si tiene más observaciones Si к = 0,263 es una curva Mesocúrtica (Normal)
Si к ‹ 0,263 es una curva Platicúrtica (Achatada)
mayores o iguales a la media. Tal distribución tiene una
Si к › 0,263 es una curva Leptocúrtica (Puntiaguda)
media que es menor a la mediana.
El histograma tiene una cola más larga a la izquierda de la
distribución por eso se la conoce como sesgada a la
PROBABILIDAD
izquierda.
Cálculo de probabilidades: es la teoría matemática que
Índice de simetria de Pearson construye modelos para la descripción y análisis de los eventos
El coeficiente más simple para ver la simetria de Pearson es con el aleatorios.
cálculo Un evento aleatorio, es un resultado de un experimento aleatorio.
Tipos de eventos:
Mutuamente excluyente: Son eventos que no pueden ocurrir al
mismo tiempo, o sea, la ocurrencia de uno impide que el otro
ocurra.
Colectivamente exhaustivos: Son eventos que incluyen
Si la distribución es perfectamente insesgada, la media y la mediana
todos los eventos(resultados) posibles para un experimento.
coinciden y el valor de Sp será igual a 0. Una distribución que es sesgada
a la derecha tendrá la media mayor a la mediana y luego Sp tendrá un
Experimento aleatorio: es una operación realizada un cierto
valor positivo. La distribución será positivamente sesgada. En cambio, si
número de veces, bajo las mismas condiciones de
la media es menor a la mediana, Sp será menor que 0 y la distribución
experimentación. Un resultado no puede preverse cuando se
será sesgada a la izquierda.
realiza una sola vez pero, si se repite un número grande de
Curtosis: es el grado de apuntalamiento de la curva. Compara la veces, los resultados del experimento responderán a una 'ley‘
distribución de frecuencia de una variable con una distribución de comportamiento regular y previsible.
normal.
Probabilidad de ocurrencia de un evento: se calcula como la
cantidad de casos favorables a dicho evento, sobre el total de DISTRIBUCIÓN DE PROBABILIDAD
resultados igualmente posibles.
En símbolos: Si D es el evento al cual se le quiere calcular la
NORMAL
probabilidad de ocurrencia, la experiencia consta de n resultados Variables cualitativas y cuantitativas
posibles y la aparición del evento D se puede dar en m de estos Distribución de probabilidad conocida como ➜ distribución normal,
resultados, se tiene: P (D) = m/n Gaussiana o de Laplace, o campana de Gauss.
Es la más utilizada en las aplicaciones estadísticas por la
frecuencia con que algunos fenómenos suelen parecerse en su
Como la probabilidad es fundamentalmente una proporción, ésta
comportamiento a esta distribución
varía entre 0,00 y 1,00, o sea: 0,00≤ P(A) ≤ 1,00
Características:
● Simétrica
Existen dos reglas de probabilidad necesarias para comprender la ● Mesocúrtica
estadística inferencial: ● Los parámetros que la caracterizan son media y varianza
Suponiendo que existen dos eventos (A y B), la regla de la suma
proporciona la probabilidad de A o B, mientras que la del producto La distribución normal presenta un valor de mayor frecuencia y, a
determina la probabilidad de A y B. partir de él, decae hacia ambos lados con una simetría perfecta
El cálculo de la probabilidad utiliza dos reglas: regla de la suma y que hace que a valores situados a igual distancia del valor modal
regla del producto por izquierda y por derecha de la distribución, les corresponda la
misma probabilidad.
Representación gráfica
Regla de la suma Regla del producto

● Para eventos mutuamente ● Para eventos independientes:


excluyentes: P(A y B) = P(A) * P(B)
P(A o B)= P(A U B) = P(A) + P(B) ● Para eventos dependientes (pb.
● Para eventos no mutuamente condicional):
excluyentes: P(A y B)= P(A)*P(B\A)
P(A o B) = P(A U B) = P(A) +P(B) – P(A/B)= P(A∩B)/P(B) La función de densidad de probabilidad que corresponde a
P(A∩ B) esta curva está dada por la siguiente expresión:
En el intervalo (μ - σ; μ + σ) se encuentra el 68,2% de las observaciones,
o lo que es lo mismo: P (μ - σ < x < μ + σ) = 0,682
En el intervalo (μ - 2σ; μ + 2σ) se encuentra el 95,4% de las
observaciones, o: P (μ - 2σ < x < μ + 2σ) = 0,954
Parámetros utilizados: En el intervalo (μ - 3σ; μ + 3σ) se encuentra el 99,8% de los datos, o:
● μ = media aritmética o esperanza P (μ - 3σ < x < μ + 3σ) = 0,998
● σ = desviación estándar
● π = 3,1416 y e = 2,71828 son dos constantes muy utilizadas en Una distribución normal se denomina estandarizada si su
matemática. media es 0 y su varianza y, por lógica, su desviación
estándar, son iguales a 1
Por ser la distribución perfectamente simétrica, la media (μ)
coincide con la mediana y la moda. Se encuentra en el punto del Variable normal estandarizada (z): para obtenerla se debe
eje de abscisas que divide a la distribución en dos partes iguales y, realizar una transformación de la variable normal original X que da
a su vez, registra el valor de la variable de mayor frecuencia. como resultado una nueva variable que llamaremos Z y que surge
al restar a la variable X original su media μ y dividirla por su
División estándar: medida de variabilidad de la distribución, desviación estándar σ. Entonces,
determina la mayor o menor dispersión de los datos alrededor de μ.
Cuando σ crece, la curva se achata reflejando esta situación.

P (-∞<x<μ) = 0,50 y P (μ<x<∞) = 0,50


Z : es el alejamiento de la variable considerada con respecto a la
La distribución normal es una distribución teórica ideal, que
media (μ) en número de desviaciones estándares.
cumple con ciertas propiedades, las que surgen de la aplicación de
Z = 1,27 (significa que el valor considerado se alejó 1,27
la fórmula matemática que expresa su función de densidad de
desviaciones estándares de su promedio).
probabilidad.
el área total bajo la curva normal es también igual a 1 ➜
Cálculo de distribución normal:
en símbolos: P (-∞< x<∞) = 1
A su vez, al ser la curva simétrica con respecto a μ, el 50% de las
observaciones se encuentran por debajo de la media μ y el 50%
por encima de ella.

Aplicando ji cuadrada podemos obtener la
dependencia/independencia de ellas o averiguar si las
proporciones son iguales
Si creo que son dependientes, hipotetizo afirmando lo contrario en
esto consiste el primer paso
Paso 1: implica la construcción de las 2 hipótesis (una afirmativa y
otra negativa)

Hp0: los criterios de clasificación (variables) son independientes


Hp1: los criterios de clasificación (variables) son dependientes

Paso 2: Tabla de contingencia

Con lo que se recolecta del campo, se crea una tabla de variables,


donde están las frecuencias. Como debo poner las dos variables
juntas, se crea una tabla bivariada
DISTRIBUCIÓN JI CUADRADA
Se aplica a las variables cualitativas
a b
Características:
● - X2 siempre es positivo porque es una suma de cuadrados. c fr. ac =ob11 fr. br c
● - Se aplica para analizar datos que están presentados en ejemplo
forma de número de observaciones en cada categoría
d fc. observada fr. br d
● - Tiene un solo parámetro que es denominado grados de
de ad= ob21
libertad
● - Esta prueba presenta limitación, que consiste en requerir total a b total gral
un numero suficiente de observaciones para que sea
realmente informativa
● - Analiza variables cualitativas o categóricas
● - Compara proporciones, es decir, porcentajes
Ji2 = (O11- E11)/E11^2 + (O21-E21 )/E21^2 + (O12-E12)/E12^2 +
a B Columnas (j) fila (i) (O22-E22)/E22^2

C ob11 B12 C si miro la frecuencia de ac estoy Lo que se obtiene de esa suma se llama el valor de ji cuadrada
parada sobre i1 j1 = ob11 calculada
D ob21 B22 d
Esto es a frecuencia Paso 5: calcular con valor de ji cuadrada crítica (valor teórico)
Total a b Total gral recolectada
Ji cuadrada crítica depende de 2 valores: nivel de significación (es
La prueba de ji cuadrada es lo que yo comparo de las frecuencias alfa, se da en la consigna) y de los grados de libertad (= i-1 * j-1)
observadas con las fr que esperaría que ocurriera para ver si la hp
es verdadera Paso 6: ver el valor en la tabla de ji2

Paso 3: calcular la esperada para cada fila y columna Ejemplo: 1 gl al 0,95 me da 3,84

El cálculo siempre se utiliza el total j*total i/total general Paso 7: comparar con el valor de ji cuadrada calculada

El valor esperado (E11) es el tA*tB/TG Cuando ji2 cal es menor a ji crítica yo acepto

Si ji2 cal es mayor a ji crítica rechazo h0


a B
Si rechazo la nula estoy rechazando la independiente, por ende
C E11 = TC*TA/TG E12= TC*TB/TG C son dependientes

D E21 = TD*TA/TG E22= d Interpretación: Las evidencias estadísticas tomadas con el nivel
de significación de x% demuestran que las patologías observadas
Total a b Total gral
(criterios de clasificación) en relación a la profesión son (criterio de
clasificación) dependientes/independientes, porque el valor
Paso 4: se debe comparar las frecuencias aplicado fórmula ji
calculado de la ji^2 fue mayor/menor de la ji crítica
cuadrada

Total de valor esperado - por el valor observado/esperado

También podría gustarte