0% encontró este documento útil (0 votos)
35 vistas75 páginas

CLASE 10 - Unidad 5 - Segunda Parte

El documento aborda pruebas de hipótesis en estadística, centrándose en la media y la proporción, así como en la independencia de variables cualitativas. Se explican los supuestos necesarios para realizar estas pruebas y se presentan ejemplos prácticos sobre cómo contrastar hipótesis utilizando datos muestrales. Además, se discuten las diferencias entre utilizar la desviación estándar poblacional conocida y desconocida en el contexto de pruebas de hipótesis.

Cargado por

paz222agustina
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
35 vistas75 páginas

CLASE 10 - Unidad 5 - Segunda Parte

El documento aborda pruebas de hipótesis en estadística, centrándose en la media y la proporción, así como en la independencia de variables cualitativas. Se explican los supuestos necesarios para realizar estas pruebas y se presentan ejemplos prácticos sobre cómo contrastar hipótesis utilizando datos muestrales. Además, se discuten las diferencias entre utilizar la desviación estándar poblacional conocida y desconocida en el contexto de pruebas de hipótesis.

Cargado por

paz222agustina
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA

CÁTEDRA I
UNIDAD 5
Segunda
Parte
Sobre una media cuando se conoce la desviación
estándar poblacional
Sobre una media cuando la desviación estándar
poblacional es desconocida
Sobre una proporción
Sobre la diferencia de medias de muestras
independientes
Sobre la media de la diferencia de datos pareados
Sobre la Independencia de dos variables cualitativas

Pruebas (Tests) de
Hipótesis:
Medias, Proporciones e
Independencia
La lógica de todas las pruebas de hipótesis es
la misma. Ahora veremos los aspectos particulares
de algunas de ellas.
Lo que cambia es el estadístico de prueba y
su distribución de probabilidades bajo H0
dependiendo de sobre qué parámetros se formulan
las hipótesis, los supuestos sobre las variables que
intervienen, el diseño de la experiencia y el tamaño
de muestra.

Diversas Pruebas
de Hipótesis
X = Variable sobre cuya población de valores se realizarán las
inferencias.
Denotamos con m = E(X) y s = DS(X); esto es, respectivamente,
la media y la desviación estándar de la población de todos los
valores de X.
Supuestos: Se necesitará suponer que X se distribuye
normalmente cuando el tamaño de muestra sea pequeño
(típicamente n < 30) para que se pueda conocer la distribución
de probabilidades del estadístico de prueba y hallar los valores
críticos de la zona de rechazo o calcular el valor p.
Hipótesis
H0: m = m0
H1: la que corresponda a cada problema (m < m0 , m > m0 o m
 m0).
Test sobre  cuando
El estadístico de prueba es porque es el estimador del parámetro
m sobre el cual se están formulando las hipótesis.
La distribución de será exacta o aproximada dependiendo
de los supuestos sobre la distribución de X.
Si X es normal, es exactamente normal (  N).
Si no se especifica la distribución de X, se sabe por el
Teorema Central del Límite que es aproximadamente normal (  N)
si n es suficientemente grande (digamos n > 30).
Ya se han visto en las clases anteriores los parámetros de :
la misma media de X y la n - ésima parte de su varianza.
Resumiendo:
X  N(m,s)   N(m,)

X  ? (m,s) y n ≥ 30   N(m,) por el Teorema Central del


Límite.
De modo que si el tamaño de muestra es pequeño y se
desconoce la distribución de X, también se desconoce la
distribución de .

Distribución de
En cualquiera de los dos casos antedichos se
utilizará la distribución Normal del estadístico de
prueba para determinar la zona de rechazo o valor
p.
 N(m0,)

Una manera alternativa de presentar el


estadístico de prueba es con la media
estandarizada. Esto era lo habitual cuando no se
disponía de las aplicaciones; aunque ya no es
necesario, es común verlo aún en la bibliografía:
 N(0,1)

Distribución
de
Los puntajes en el Early Numeracy Test
revised (ENT-r) se distribuyen normalmente con
una media de 19 y una desviación estándar de 6
entre los niños españoles de 5 años. Se quiere
verificar si estos baremos también corresponden a
los niños argentinos de la misma edad de Sta. Fe.
Para ello se toma una muestra aleatoria de 300
niños. La distribución de frecuencias observada
permite sostener el supuesto de que los datos
provienen de una distribución con la misma
desviación estándar de la población española. La
media observada fue 19,4. ¿Puede sostenerse con
un nivel de significación del 10% que no hay
diferencias entre la media de los niños de la ciudad
de Sta. Fe y los españoles?

Ejempl
RESOLUCIÓN

1) Mencionar la/s variable/s de interés en la población


respecto de la cual se desea hacer inferencia
estadística y explicitar los supuestos mínimos
necesarios (si los hubiere) para llevar a cabo la prueba.
X = Puntaje en el ENT-r de los niños de 5 años de la ciudad de
Sta. Fe.
Supuesto:  = 6
2) Plantear las hipótesis por contrastar
H0: m = 19 No difieren en promedio de la población
española.
H1: m  19 Difieren en promedio de la población española.
3) Elegir un nivel de significación
a = 0,10 Variable – Supuestos
Planteo de las
4) Indicar el estadístico de prueba adecuado y explicitar su
distribución bajo la hipótesis nula.

por el Teorema Central del Límite ya que la


muestra es suficientemente grande.

(
𝑋 ≈ 𝑁 19 ,
6
)
√ 3 00
=𝑁 (19 ; 0,3464)

Bajo H0

Distribución del
Estadístico de
Prueba
5) Determinar la zona de rechazo de H0 y establecer la regla de
decisión
Como la hipótesis alternativa postula que m  19,
se rechazaría H0 si la media muestral tomara valores
suficientemente inferiores a 19 o suficientemente
superiores a 19; es decir es un test bilateral.
Por tanto, la Zona de rechazo, para un nivel de
significación de 0,10 está dada por todos los valores
menores que el percentil 5 o mayores que el percentil
95 de la distribución normal con media 19 y desviación
estándar 0,3464. Es decir, el nivel de significación 0,10
está repartido en dos colas con la mitad de la
probabilidad: 0,05. Los valores críticos los obtenemos
utilizando la aplicación, entrando dos veces, una para
cada percentil.
Test
Zona de rechazo
bilateral
Se rechazará H0 si y sólo si el valor observado de la
media muestral es inferior a 18,43022 o superior a
19,56978
Regla de
6) Calcular el valor observado del estadístico de prueba
En este caso el valor observado de la media es un dato
directo del enunciado del problema; en la realidad cuando se
trabaja con una base de datos hay que calcular la media,
usualmente lo hace el mismo programa.
7) Tomar la decisión

Como 18,43022 <19,4 < 19,56978 no se rechaza H0


al 10%.
8) Dar una conclusión en términos del problema
planteado
Se concluye que no hay evidencias al 10% de que
los niños de 5 años de la ciudad de Sta. Fe difieran de los de
la población española (la diferencia de 4 décimas que

Cálculo, Decisión y
puntuaron por encima de la media no es estadísticamente
significativa).

Conclusión
Como el test es bilateral hay que considerar la
probabilidad de “la cola más corta” y multiplicarla
por 2 para comparar con el nivel de significación
que está repartido en dos colas.
En este caso, como el valor observado (19,4) fue
mayor a la media bajo H0 (19), la “cola más corta”
es la probabilidad a derecha de 19,4.
Valor p = = 2x0,1241 = 0,2482
De haber tomado la decisión sobre la base del
valor p se habría dicho: “Como 0,2482 > 0,10 no se
rechaza H0”.

Valor p
La desviación estándar poblacional, en la práctica,
suele ser desconocida como ocurre con todos los
parámetros poblacionales. Cuando se dice “ conocida”,
generalmente debe entenderse en alguno de estos dos
sentidos:
1) Hay un supuesto sobre  que se ha probado
previamente. En nuestro ejemplo el supuesto fue que la
desviación estándar de los niños santafecinos era la misma
que la de los españoles. Este supuesto constituye a su vez
una hipótesis estadística (H0:  = 6) que puede ponerse a
prueba y rechazarse o no según cómo sea la desviación
estándar muestral. Esa prueba no está dentro de los temas
de este curso.
2) Se le atribuye a  un valor que surge de estimaciones a
partir de datos preliminares, históricos, y no de la misma
muestra que se utilizará para inferir sobre .
Lo más común es realizar el test que se verá a
continuación con  desconocida. ¿ conocida?
Como el estadístico  N(m0 ,) bajo H0, si s es
desconocida faltaría información para hallar los puntos
críticos o para calcular el valor p. Entonces se necesita
estimarla a través de la desviación estándar S
proveniente de la misma muestra que se utiliza para
estimar m. Es decir, que se utiliza la muestra para estimar
conjuntamente a m y a s. Pero esto agrega variabilidad al
estadístico que puede hacer modificar su distribución.
En este caso, sí se necesita estandarizar y estimar
su error estándar reemplazando s por S.

De modo que el estadístico que se utilizará es .

Test sobre 
cuando
Su distribución depende de si se supone o no
que X es normal y, según esto, del tamaño de
muestra.
El denominador de se denomina error
estándar del estimador y en las salidas
computacionales en inglés se denota como SE
(Standard Error) .
Si X es normal, el estadístico tiene
distribución exacta t de Student con n-1 grados de
libertad y por eso se lo denomina con t.

Distribución de
Este supuesto de normalidad de X se hace
indispensable si la muestra es pequeña (n < 30), ya que
una muestra pequeña da poca información y no sería
posible conocer la distribución del estadístico si no se
conociera la de X. Si n es grande, aunque se desconociera
la distribución de X, el estadístico se distribuye de manera
aproximadamente normal estándar (Teorema de Slutzky).
Por otra parte, cuando n es grande la distribución t
de Student es similar a la normal y lleva prácticamente a
los mismos resultados. Por esa razón es que suele usarse
la distribución t en los softwares (t-test), sea por el
supuesto de normalidad de la variable X, sea porque
cuando n es grande es similar a la normal.
Se prefiere evitar supuestos si no es imprescindible
hacerlos. Si se hacen, habría que chequearlos. El supuesto
de normalidad puede chequearse mediante un diagrama
Distribución de
de tallo-hoja, de caja y bigotes, y utilizando los índices de
asimetría y curtosis, entre otros modos.
Resumiend
o

 tn-1 si X es Normal.
𝑋 − 𝜇0
𝑆
√𝑛  N(0,1) si n grande (n >
30).

Distribución de
Ver el artículo de Novo, M. et al (2019). Evaluación de
los efectos de un programa educativo en los
problemas de salud mental en padres separados.
Psicothema 2019,31,3, 284-291.
Los investigadores compararon los puntajes del
Brief Symptom Inventory (BSI) de un grupo de padres
separados que asistieron al programa “Ruptura de
pareja, no de familia” con las medias en el grupo
normativo. Tomaremos como ejemplo el total de
síntomas positivos (PST), para el que hemos simulado
los datos. La hipótesis implícita es que, en promedio,
puntúan más alto que la media del grupo normativo
(11,45). Se evaluó con el BSI a 116 progenitores
participantes del programa.
Realizar el test de hipótesis correspondiente, al
Ejempl
1% de significación, de modo manual y con Statistix.
Calcule el valor p y el tamaño del efecto.
Los 116 datos se muestran a continuación y fueron cargados en
Statistix.
4 23 19 16 21 10
42 20 17 29 16 15
6 29 18 14 1 21
13 5 20 7 23 34
21 21 10 30 34 23
19 16 11 42 19 27
42 28 12 50 8 24
15 34 29 28 31 22
31 26 41 19 24 11
53 26 6 18 24 23
21 29 23 45 17 25
39 12 14 46 35 25
18 27 28 13 20 21
31 2 35 14 42 30
5 3 15 4 20 22
22 46 23 27 47 14
26 38 51 34 35 22
31 28 6 27 49 40
38 9 28 16 38 34
15
16
1) X = Puntaje del total de síntomas positivos PST del BSI de
los padres separados que asisten al programa “Ruptura de
pareja, no de familia”.
2) H0: m = 11,45
H1: m > 11,45
3) a = 0,01
4) bajo H0 (por el Teorema de Slutzky, ya
que n es grande.
5) Como es un test unilateral a derecha, el valor crítico es el
percentil 99 de la distribución normal estándar (deja una
probabilidad 0,01 a derecha. Éste es: 2,32635. Luego, se
rechaza H0 si y sólo si el valor observado de Z (Zobs) supera a
dicho valor.

Resolución
6) Para el cálculo del Zobs hay que computar la media y la
desviación estándar de los 116 datos. Lo hacemos con Statistix.
. Estos valores se reemplazan en el estadístico y se obtiene:
= 11,1855
7) Como 11,1855 > 2,32635 se rechaza H0.
8) Se concluye que, en promedio, los padres que asisten al
programa puntúan más alto en PST que la población general.
El valor p es prácticamente nulo, ya que 11 es un valor
que excede en mucho los 3 desvíos estándar por encima de la
media, donde se acumula casi toda la probabilidad en una
distribución normal.
Tamaño del Efecto
d de Cohen: = 1,04  Efecto grande. Hay una diferencia
relevante con respecto a la población normativa.

Resolución
T – test con
1) X = Puntaje del total de síntomas positivos PST del BSI de
los padres separados que asisten al programa Ruptura de
pareja, no de familia.
2) H0: m = 11,45
H1: m > 11,45

3) a = 0,01

4) El programa utiliza la distribución t en lugar de la normal,


dado que cuando el tamaño de muestra es grande, son muy
similares. Entonces considera: bajo H0.

T – test con
5)

Media Valor t Grados Valor p


muestral observado de
observada: libertad
6) Como 0,0000 < 0,01 se rechaza H0.

7) Conclusión. Los progenitores que asisten al programa puntúan en


promedio por encima de la media del grupo normativo en PST.
Obsérvese que el valor p dio igual con la distribución normal (al hacerlo
manualmente) que con la distribución t.

T – test con
Los datos fueron simulados, inspirados en el artículo. A
continuación se muestran los resultados verdaderos de los T-test
que los autores reportaron para las distintas dimensiones del BSI. Se
resalta la última línea, correspondiente al PST.

Los Resultados
Reales
La probabilidad de que un suceso ocurra (éxito) modeliza la proporción de casos
favorables a ese suceso en la población.
Por ejemplo, si se elige un enfermero al azar del sistema de salud de CABA la
probabilidad p de que tenga el síndrome de Burnout corresponde a la proporción p de
enfermeros de CABA que tienen dicho síndrome. Un valor p = 0,15 indica, tanto que
hay una probabilidad 0,15 de que al elegir un enfermero al azar del sistema de salud
de CABA tenga el síndrome de Burnout como que 15 de cada 100 (15/100, en términos
porcentuales 15%) de los enfermeros en dicha población, tienen el síndrome.
Otro ejemplo más simple es si se extrae al azar una bolilla de un bolillero donde
hay 6 bolillas rojas y 4 azules. La probabilidad de que salga una bolilla roja es p =
6/10 = 0,6, que corresponde a la proporción de bolillas rojas en el bolillero.
Utilizamos la palabra “proporción” por su amplia difusión en la bibliografía
estadística aunque lo correcto sería decir “razón”, ya que proporción es una
igualdad entre dos razones (p. ej. 5/10 = 1/2; esa igualdad es una proporción
mientras que 5/10 o 1/2 son razones).

Probabilidad de Éxito
y Proporción
Al ser la probabilidad una característica
poblacional, es un parámetro usualmente desconocido
que se lo estima por la correspondiente proporción
muestral o frecuencia relativa muestral. Es decir, se toma
una muestra aleatoria de tamaño n, se cuenta la cantidad
de casos favorables al suceso en cuestión y se lo divide
por n.
Como todo estimador, es un estadístico; una
variable cuyos valores dependen de la muestra que salga
sorteada. Se lo denotará con (estimador de p).

Proporción Muestral o
Frecuencia Relativa como
La proporción muestral se obtiene a partir de una
variable Y que cuenta la cantidad de veces que ocurre el suceso
de interés en la muestra de tamaño n. Es decir =
Esta variable Y tiene distribución binomial de parámetros
(n, ).
donde n indica el número de ensayos y indica la probabilidad
de éxito de la variable Bernoulli subyacente a la variable
Binomial Y, coincide con la proporción de ocurrencia del suceso
en la población.
De acuerdo con lo estudiado acerca de la variables con
distribución binomial, si Y ~ B (n; ) entonces E(Y) n y
DS(Y) . Proporción
Muestral
Por tanto, para el estimador proporción muestral = , vale
que sus parámetros son :
E () y DS()
Para tamaños de muestras grandes, n  y para
variables binomiales aproximadamente simétricas,
condiciones que pueden sintetizarse como np 5 y n(1-) 5, se
puede aproximar la distribución binomial por la distribución
normal con estos mismos parámetros, es decir, que para la
proporción muestral puede afirmarse que:
 ;)

Proporción
Muestral
Dicho de otra forma, el Teorema Central del Límite
asegura que a medida que n aumenta las probabilidades
obtenidas según el modelo binomial para la variable con sus
parámetros más se asemejan a las obtenidas según el modelo
normal con esos mismos parámetros.
𝜎 ^
𝑃

𝜇𝑃
^ =𝑝Valores de

Es usual estandarizar al estimador ; ) según la


transformación Z = donde Z es ;) y reemplazando por la
expresión de sus parámetros se tiene: Z = que es la expresión
de la distribución muestral de la proporción estandarizada.

Proporción
Muestral
X = Variable Bernoulli sobre cuyo parámetro p se desea inferir.
Hipótesis
H 0: p = p 0
H1: la que corresponda a cada problema (p < p0 , p > p0 o p 
p0).
El estadístico de prueba es porque es el estimador del
parámetro p sobre el cual se están formulando las hipótesis.
Su distribución aproximada, bajo H0 es, según se ha
visto:
;)
Para que esta aproximación sea suficientemente buena
se debe verificar que n 5 y n(1-) 5. Utilizando esta distribución
se procede determinando la zona de rechazo o cálculo del valor

Test sobre
p para tomar la decisión como en cualquier otra prueba de
hipótesis.

una Proporción
En Rev. Hosp. Ital. [Link] 2015; 35(1): 9-13, Bonavita, G. Et
al. reportan una proporción de 16,7 % de quinesiólogos del Hospital
Italiano con niveles altos agotamiento (puntajes mayores a 26 en el
Maslach Burnout Inventory-HSS). Afirman textualmente: La baja tasa
de Síndrome de Burnout (SBO) contrasta fuertemente con los
resultados encontrados en publicaciones internacionales, las cuales
hallaron niveles de SBO intenso hasta 5 veces superiores a las
informadas en nuestra investigación.
El cuestionario fue respondido por una muestra de 60
kinesiólogos, 10 de los cuales obtuvieron puntajes mayores a 26 en
la escala de agotamiento emocional.
Por otra parte, los baremos del Maslach Burnout Inventory-
HSS en su adaptación española de Granada indican un 35% de
enfermeros de la población española con puntaje superior a 26.
Con fines didácticos imaginaremos que esta muestra de 60
fue extraída al azar de una población mucho mayor de quinesiólogos
similares a los del Hospital Italiano. Probar que la proporción de
quinesiólogos con altos niveles de SBO hallada en el estudio local es
significativamente menor, con un nivel del 1%, a la hallada entre

Ejempl
enfermeros españoles. Calcular valor p y tamaño del efecto.
X = Condición de tener altos niveles de agotamiento emocional (1) o
no tenerlo (0) en quinesiólogos del Hospital Italiano y similares.
X B(p)
donde p representa la probabilidad o proporción local de quinesiólogos
que tienen altos niveles de agotamiento emocional según el Maslach
Burnout Inventory-HSS.
H0: p = 0,35 La proporción local es Igual a la de los enfermeros
españoles.
H1: p < 0,35 La proporción local es menor a la de los enfermeros
españoles.

a = 0,01
Verifiquemos las condiciones de simetría aproximada.
60x0,35 = 21 > 5 y 60x(1-0,35) = 39 > 5. Se cumplen,
luego:
; ) = ; bajo H0.
Resolución
Siendo una prueba unilateral a izquierda, buscamos el
valor crítico en la distribución normal con los parámetros
indicados, que corresponden al percentil 1 de la distribución
(probabilidad 0,01 a izquierda). Se obtiene así: 0,20674.
Se rechaza H0 si y sólo si en la muestra de 60 se
observara un valor de < 0,20674 (es decir, menos de un
20,67% de kinesiólogos con alto agotamiento emocional).
= 10/60  0,1667
Como 0,1667 < 0,20674 se rechaza H0.
Se concluye que la proporción observada es
significativamente menor a la de los baremos españoles.
El valor p = P( < 0,1667 / p = 0,35) = 0,00146
Tamaño del efecto
 Efecto mediano.

Resolución
Test sobre una
Proporción con
Test sobre la proporción de
una población utilizando
una sola muestra.

Datos: Tamaño de muestra


Cantidad de éxitos en
la muestra.

Valor de la proporción
postulado en H0. En este
problema es 0,35.

Relación postulada en la
alternativa. En este caso “<“.
Nivel de confianza de la
estimación por intervalos.

Test sobre una


Proporción con
Valor p corregido y sin
corregir.
El corregido alude a
un mejoramiento en la
aproximación de la binomial
por la normal, llamada
corrección por continuidad,
que no vemos en este
curso. Por eso,
manualmente hemos
calculado sin corregir.
En cualquiera de los
dos casos se rechaza H0 por
ser inferior a 0,01.

Test sobre una


Proporción con
Es uno de los más usados para comparar dos
grupos; por ejemplo un grupo control con otro
experimental.
Cuando se comparan dos grupos que
representan dos poblaciones a través de una variable
cuantitativa como, por ejemplo, el puntaje en un test,
y se toma como resumen de los mismos las medias;
entonces se comparan ambas medias muestrales
como representantes de sus correspondientes medias
poblacionales y de allí se concluye si hubo un efecto
del tratamiento, si las poblaciones difieren o no, o en

Test sobre una


qué sentido lo hacen.

Diferencia de Medias
para Muestras
X1= Valores de la variable en la
Población 1
X2= Valores de la variable en la
X1 Población 2 X2
1 2
1 ? 2
Interesa conocer la
relación

1
2
1
2
1
2

n1 y n2 = Tamaños de
muestra.
s1 y s2 = Desviaciones Comparación de
Estándar
de las muestras. dos Poblaciones
Las poblaciones se comparan a través de la diferencia de sus
medias 1-2 que se estiman con 1 - 2.

X1 X2
1 2
1 ? 2

e
o br
es
1

ier
Inf
2
1
2
1
2

Comparación de dos
Poblaciones
X1 = Valores de la variable en la Población 1
X2 = Valores de la variable en la Población 2

Supuestos: Si n1 y n2 son pequeños se necesita el supuesto de


normalidad de las variables X1 y X2.
X1 y X2 son independientes.
Si 1 y2 son desconocidos, se hace una prueba de
hipótesis para decidir si son o no iguales y se procede acorde.

H0: m1 = m2  m1 - m2 = 0  m2 – m1 = 0
H1: la que corresponda al problema: m1 < m2 , m1 > m2 o m1 
m2

0
Test sobre una
equivalentemente a m1-m2<0, m1-m2>0 o m1-m2

Diferencia de Medias
para Muestras
El estadístico de prueba es la diferencia de
medias muestrales (en el mismo sentido en que se haya
planteado la diferencia en las hipótesis) estandarizada
bajo H0. Se divide la diferencia de las medias muestrales
por el error estándar (desviación estándar) de dicha
diferencia:
será de una manera u otra según se sostenga o no
el supuesto de igualdad de varianzas. No lo
explicitaremos según el caso ni detallaremos su
deducción porque resolveremos esta prueba de hipótesis
El valor
con Statistix y analizaremos de la computacional.
la salida diferencia de parámetros
Estadístico postulado en H0. Típicamente ese valor es
cero (no hay diferencia entre las
poblaciones. Pero también podrían
plantearse otras situaciones en H0. En este
curso sólo abordaremos H0: m1 - m2 = 0

Estadísti
co
La distribución del estadístico depende de los
supuestos y tamaños de muestra.
Hay una variedad de situaciones que no
contemplaremos en este curso. Nos remitiremos a lo más
común, que es el test t a través de un software. Los grados de
libertad también dependen de cada situación.
Si los tamaños de muestra son pequeños, se necesita
el supuesto de normalidad y en entonces habría que
chequearlo.
Resumiendo, utilizaremos que
Estadístico
 tn donde los grados de libertad n dependen de los
supuestos y tamaños muestrales que no
detallaremos aquí.

Distribución del
Se administró la escala del Síndrome de
Dependencia de la Nicotina (NDSS) en una muestra de 41
fumadores que demandaron tratamiento para dejar de
fumar en una Unidad de Tabaquismo de la Universidad de
Santiago de Compostela, entre marzo de 2007 y
noviembre de 2008. También se les administró el
Cuestionario de Screening de Episodios de Depresión
Mayor (MDE; Muñoz, 1998) y se los clasificó en aquellos
que habían tenido algún episodio en el pasado (16) y los
que no (25). Los puntajes (ficticios) en el NDSS para cada
grupo fueron cargados en la base de Sx. Probar que el
promedio obtenido para el grupo que respondió haber
tenido episodios de depresión es significativamente mayor
que para el resto. Utilizar un nivel de significación del 5%.
Calcular el tamaño del efecto. Ejemplo
Inspirado en Becoña et al (2009). La escala del Síndrome
de Dependencia de la Nicotina (NDSS) en una muestra de
fumadores que demandan tratamiento para dejar de fumar.
X1 = Puntaje en la escala NDSS de los fumadores que tuvieron algún
episodio de depresión.
X2 = Puntaje en la escala NDSS de los fumadores que no tuvieron
episodios de depresión.
Ambos casos están referidos a quienes solicitaron tratamiento en la
unidad de tabaquismo de Santiago de Compostela entre marzo de
2007 y noviembre de 2008.
Supuestos: Como las muestras son pequeñas se necesita el
supuesto de normalidad de X1 y X2: X1  N(m1 , s1) y X2  N(m2 , s2).

H0: m1 = m2 ⇔ m1 – m2 = 0
H1: m1 > m2 ⇔ m1 – m2 > 0
a = 0,05

t =  tn bajo H0.

Planteo
Dato
Selecció
En este problema la
diferencia se
contrasta contra
cero.
Diferencia
mayor que cero,
acorde con la
alternativa
planteada.

Especificacione
Para concluir sobre la
media, se mira esta
línea porque se rechazó
la igualdad de
2 varianzas; si no, se
miraría la de arriba.

Mirar primero para


1 decidir si se sostiene
o se rechaza al 10%
el supuesto de s1 =
s2 .
Salid
La tabla presenta las medias, desvíos estándar y
errores estándar de cada muestra y la diferencia entre la
mismas.
Luego se hallan los resultados para la prueba de
hipótesis sobre la diferencia de medias bajo el supuesto de
que las varianzas poblacionales sean iguales y también bajo
el supuesto de que sean diferentes; es decir, se contemplan
las dos posibilidades.
La salida proporciona abajo el test de hipótesis sobre
la igualdad de varianzas (H0: 1 = 2). Si no se rechaza la H0,
entonces hay que remitirse al test de “Equal Variances”
para decidir sobre las medias; de lo contrario a la línea de
abajo “Unequal Variances”. Para la prueba de hipótesis
sobre igualdad de varianzas se sugiere considerar un nivel
de significación de 0,10 porque, en caso de no rechazarse
H0, se tendría mayor potencia.
Descripción de la
Como 0,0020 < 0,10 se rechaza la igualdad de
varianzas. Por tanto, vamos a ver el test sobre la
diferencia de medias en la línea “Unequal Variances”.
Como el valor p = 0,0185 < 0,05 se rechaza la
igualdad de las medias en pos de la alternativa que
postulaba que la media en la población de los que
habían tenido algún episodio depresivo era mayor que
en la otra población.
Conclusión: la media del puntaje en la escala
NDSS que se observó en los fumadores que dijeron
haber tenido un episodio de depresión mayor fue
significativamente mayor que en el otro grupo.

Resolució
|𝑥 1 − 𝑥 2|
𝑔=


2 2
( 𝑛1 − 1 ) 𝑠 1 +( 𝑛2 − 1) 𝑠 2
𝑛1 +𝑛2 − 2
Reemplazamos en la fórmula buscando los componentes en la salida

s1
s2

𝑥1 − 𝑥 2
4,8250
𝑔= =0 , 6


2 2
( 16 − 1 ) 4,5295 +(25 − 1) 9,5917
16 +25 − 2

Es un tamaño de efecto mediano.

Tamaño del
Como las muestras eran pequeñas, se necesitó
suponer la normalidad de las variables. El aspecto más
importante es la simetría. Los tests de hipótesis
resisten apartamientos moderados del supuesto de
normalidad; se dice que son “robustos” a la falta de
normalidad pero al menos se necesita que la
distribución no sea demasiado asimétrica. Para
chequear este supuesto pueden utilizarse medidas
descriptivas como los índices de asimetría y curtosis,
los diagramas de tallo-hoja y de caja y bigotes.
También existen tests de hipótesis sobre la
normalidad.
En este ejercicio utilizaremos los diagramas de
caja y las medidas descriptivas.

Chequeo de
Los diagramas de caja muestran bastante simetría. También los
índices de asimetría (skew), aunque las distribuciones de los datos
muestrales son más “chatas” que la normal (menos cúrticas). Sin
embargo no se rechaza que los datos pudieran venir de una población
normal (o aproximadamente normal); es decir no se invalidan los
resultados del test de hipótesis.

Chequeo de
Los autores trabajaron con una muestra de 241
fumadores pero no indicaron cuántos correspondían a
cada grupo. Informaron textualmente (pág.582):

En relación a haber padecido depresión en el último


año, los que contestan positivamente tienen una
puntuación significativamente superior en las escalas
NDSS-T (45.11 frente a 39.23, t= 3.164, p<.01) (…) En
relación a haber padecido depresión alguna vez en
la vida ocurre algo semejante, con mayores
puntuaciones los que contestan afirmativamente
en las escalas NDSS-T (42.16 frente a 37.71)

Los Resultados
Son pares de valores que corresponden a dos
variables medidas sobre cada individuo. Cada
individuo aporta un par de observaciones.
Hemos visto ejemplos de datos pareados al
presentar el coeficiente de correlación lineal r de
Pearson o al clasificar en una tabla de contingencia a
un mismo individuo según dos criterios de
clasificación (p. ej. nivel de ansiedad y de estrés).
Un ejemplo típico de datos pareados es el de
los puntajes de sujetos antes y después de cierta
intervención.

Datos
Se analiza el efecto que tiene la Terapia de activación
conductal como tratamiento de ansiedad y depresión en
supervivientes de cáncer. Para ello se consideran los puntajes en la
HADS-A: Anxiety subscale of HADS (Hospital Anxiety and Depression
Scale) antes (Pre) y después (Post) de recibir la terapia.
X1= Puntaje Pre X2= Puntaje Post
11
12 7
9
10
14 12 16
m1 18 m2
10 11
20
16 18
16 10
9
15 13 7

Ejemplo
Basado en González F. et al (2018) Treating anxiety and
depression of cancer survivors: Behavioral activation versus
acceptance and commitment therapy. Psicothema, 30,1,14-20
El primer óvalo de la ilustración representa la
población de individuos sobre los que se desea realizar
inferencias. En este ejemplo se trata de supervivientes de
cáncer de cierta localidad de España. A cada uno de ellos “le
correspondería” un puntaje antes y otro después de la terapia
“si la hicieran” y si fueran medidos. Es decir, no toda la
población fue medida pero, potencialmente, cada uno tiene
un par de valores. Con siluetas en negro y flechas punteadas
representamos a los individuos de la población que no
participaron de la experiencia y con color y flechas de trazo
entero a quienes participaron de la experiencia, los que
constituyen “la muestra”.
Los otros óvalos representan las poblaciones
hipotéticas de los puntajes de ansiedad pre y post terapia
sobre cuya diferencia se desea inferir a partir de la muestra
correspondiente. Población y
Muestra
Estas poblaciones son las que se desea comparar
a través de sus medias, los valores de
X1 = Puntaje pre terapia.
X2 = Puntaje post terapia.
Lo que se espera es que, si la terapia es efectiva,
los puntajes en ansiedad disminuyan después de la
terapia. La hipótesis alternativa es m1 – m2 > 0.
Se trata, entonces, de una prueba sobre la
diferencia de medias pero que provienen de datos
pareados, no como el caso anterior, donde las
poblaciones eran independientes.
El modo en que se procede es generar una única
población restando dichos valores pareados y considerar
la media de esas diferencias: m1 – m2 = mD donde D =
X1 – X 2 .
Comparación de Datos
La hipótesis queda reformulada así: mD > 0
Cada persona de la población (haya o no participado de la
experiencia) tiene asignada una diferencia (medida o potencialmente
medida) en la población de diferencias. Interesa saber si, en
promedio, esas diferencias son nulas o no (según las hipótesis de
interés). X2 D=X1-X2
X1
11 7
12 9 4
10 16 3
14 12 2
18 12
m1 - m2 mD
10 11 -1
20 18
16 0
16
9 7 10 5
2
13
15

Población de
Generada la población de diferencias, el problema se reduce
al caso ya visto de probar una hipótesis sobre una media ( mD) con
desviación estándar desconocida y estimada por SD.
Variable D = X 1 - X2
Supuesto D  N(mD,D)
Hipótesis H0: mD= m0 vs H1: mD < m0 , mD > m0 o mD  m0
Estadístico t tn-1 bajo H0
Cálculo del valor observado del Estadístico.
Se restan los valores de los pares observados (siempre en el
mismo sentido) y con la muestra de las diferencias se procede a
calcular la media y la desviación estándar.

t-Test para la Media de la


Diferencia de Datos
En el contexto de un estudio para analizar el efecto
que tiene la Terapia de activación conductual como
tratamiento de ansiedad y depresión en supervivientes de
cáncer se administró la Anxiety subscale of HADS a una
muestra de 17 personas elegidas aleatoriamente entre las
que se curaron de algún tipo de cáncer en cierta localidad
española. Respondieron el HADS antes y después de recibir
la terapia. Los resultados fueron cargados en la base Sx. A
partir de los mismos, pruebe con un nivel del 1% que la
terapia es efectiva para bajar la ansiedad. Realice el
procedimiento manualmente y verifique los resultados con
la salida de un software. Ejempl
X1 = Puntaje que tendrían las personas curadas de cáncer
si respondieran a la HADS antes de recibir la terapia.
X2 = Puntaje que tendrían las personas curadas de cáncer
si respondieran a la HADS después de recibir la terapia.
D = X 1 - X2
Supuesto D  N(mD,D)
Hipótesis H0: mD= 0 vs H1: mD > 0
Estadístico t t17-1 bajo H0
Cálculo del valor observado del Estadístico.
Utilizaremos el Statistix para ayudarnos a calcular la
media y la desviación estándar de las diferencias (puede
usarse EXCEL o cualquier otra aplicación).
Plante
Cómput
tobs
Valor p = P(t16 > 4,5367 / mD= 0) = 0,00017

Como 0,00017 < 0,01 se rechaza H0.

Tamaño del Efecto


 Efecto alto

Conclusión: La terapia de activación conductual


es efectiva para disminuir la ansiedad en
personas curadas de algún tipo de cáncer.

Resoluci
t – Test con
Los valores resaltados coinciden con los hallados en la resolución anterior.

t – Test con
Para estudiar la independencia entre dos variables
cualitativas se dispone de una muestra de datos en una
tabla de contingencia. Las frecuencias relativas conjuntas
estiman las correspondientes probabilidades
poblacionales.
Ya se ha visto el modo de calcular el coeficiente c2 a
partir de las discrepancias entre las frecuencias conjuntas
observadas y las teóricas bajo la hipótesis de
independencia.
Las hipótesis en este caso no son sobre parámetros
sino sobre las distribuciones de probabilidades (estimadas
por las frecuencias relativas observadas). Bajo la hipótesis
de independencia, las probabilidades conjuntas son el
producto de las marginales. En símbolos:
H0 : pXY = pX pY  X e Y son independientes.
H1 : pXY  pX pY  X e Y están asociadas.
Test de
El estadístico es

Donde los grados de libertad  = (nf-1)x(nc-1)

La hipótesis de independencia se mantendrá si el valor


observado de está suficientemente cerca de cero; es decir, si
hay poca discrepancia entre las frecuencias conjuntas
observadas y las que se habrían de observar si las variables
fueran independientes. Pero si su valor excede determinado
valor crítico (poco probable), se rechazará la hipótesis de
independencia. Por tanto el test de Independencia es
unilateral a derecha.

Test de
Se rechaza H0 si y sólo
si
obs > C

Regla de
Retomando el ejemplo de la diapositiva 3 de la
Clase 6, donde se estudiaba si la etapa vital del
paciente estaba asociada a su decisión de incluir o
no a su familia en el tratamiento. Realizar la prueba
de hipótesis utilizando Sx.
Inclusión de la
familia (consecuente)

Etapa vital Sí No Totales


del paciente
(antecedente)
Niñez 17 8 25

Adolescencia 5 15 20

Adultez 5 35 40

Vejez 13 2 15

Totales 40 60
Ejempl
100
Chi Square
Como el valor p  0 se rechaza H0
(la independencia) para cualquier
nivel de significación.
Conclusión: La decisión del terapeuta de incluir o no a la familia
está asociada a la etapa evolutiva del paciente.

Chi Square
Cuando se concluye que hay asociación es de
interés analizar en qué consiste la misma. Para ello es
útil examinar cómo resultaron las frecuencias
observadas en relación a las teóricas.
Vemos que dentro de la columna
correspondiente al Sí (inclusión) en el caso de los
niños y de los ancianos fue más frecuente el incluir a
la familia que lo que se habría esperado si fueran
independientes mientras que en los adolescentes y
adultos se dio lo contrario.
Por tanto puede decirse que hay una tendencia
a que el terapeuta incluya a la familia si el paciente es
niño o anciano más que si es adolescente o adulto.

AMDG Análisi

También podría gustarte