0% encontró este documento útil (0 votos)
151 vistas64 páginas

Resumen Est.

1) La estadística provee herramientas para analizar datos cuantitativos de forma objetiva, eliminando prejuicios. 2) Resume y sintetiza grandes cantidades de datos para hacerlos interpretables y extraer conclusiones. 3) Es útil en ciencias sociales, humanas y de la salud donde se estudian colectivos y se requiere interpretar grandes volúmenes de datos.

Cargado por

julieta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
151 vistas64 páginas

Resumen Est.

1) La estadística provee herramientas para analizar datos cuantitativos de forma objetiva, eliminando prejuicios. 2) Resume y sintetiza grandes cantidades de datos para hacerlos interpretables y extraer conclusiones. 3) Es útil en ciencias sociales, humanas y de la salud donde se estudian colectivos y se requiere interpretar grandes volúmenes de datos.

Cargado por

julieta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Estadística.

 
La Estadística provee herramientas para trabajar con una forma de hacer investigación: el
enfoque cuantitativo.
Lo importante es eliminar los prejuicios en el campo de las ciencias que tratan con sujetos
humanos. Expresiones como  Esta persona es así porque de chico no lo tenían en cuenta, las
mujeres tienen más sensibilidad que los hombres, son en general, falsas, provienen de
creencias, de tradiciones, de voces populares transmitidas de una generación a la
siguiente.
La estadística no aspira a ofrecer un conocimiento sobre alguna totalidad, sino sobre
aspectos parciales del mundo que nos rodea. Pone en crisis la ilusión de conocer, en un
terreno donde no es raro confundir  lo que sucede con lo que creemos, opinamos o
suponemos sobre ello
La presencia de Estadística en carreras de Ciencias Sociales, Humanas y de la Salud se
justifica porque a menudo la investigación empírica usa información proveniente de
colectivos, y se dispone de datos que requieren que se los resuma para poder interpretarlos.
Como luego de un tiempo de haber usado una droga puede descubrirse que no produce los
efectos deseados, también vale esto para cualquier intervención profesional: una terapia,
una estrategia didáctica, una política pública.
El conocimiento científico es revisable, queremos decir que en cualquier momento puede
hallarse nueva evidencia que contradiga las convicciones que tenemos hoy (observación,
registro, comparación, medición y análisis; en pocas palabras, de la investigación)
En disciplinas como Psicología, Psicopedagogía, Educación debemos agregar que el uso de
técnicas estadísticas es necesario en la construcción, validación e interpretación de los
resultados de las pruebas psicométricas: tests de inteligencia, de desarrollo.
Que la Estadística  sea de difícil acceso, no es por azar, es funcional a un modo de
producción que requiere que en su mayoría, los ciudadanos puedan ser silenciados con
argumentos que usan terminología críptica.

Parte I: Estadística Descriptiva


La Estadística no trabaja con individuos aislados sino con conjuntos de ellos, siempre es
necesario resumir la información, para presentarla de manera accesible a la lectura y para
extraer significado. La Estadística Descriptiva provee de una serie de procedimientos
dirigidos a resumir, y a sintetizar información, a volverla manejable para poder interpretarla
y extraer conclusiones a partir del conjunto de datos que, de otra manera, serían
ininteligibles. 

Capítulo 1: Los datos Estadísticos


Se desarrollan procedimientos para presentar la información de manera accesible para que
pueda ser analizada y luego interpretada. Para poder extraer significado de los datos
recogidos es necesario primero dedicar un esfuerzo a organizarlos, a presentarlos de
manera comprensible.
Esto implica la necesidad de usar un lenguaje que permita el intercambio entre
investigadores y que dependa, en el menor grado posible, de las impresiones subjetivas o de
las interpretaciones que cada investigador individual le de a los conceptos.
Luego de definir el concepto con el que se trabaja, se requiere diseñar un instrumento que
refleje esa definición y finalmente aplicar este instrumento a las personas que se evaluarán.
No se puede comprar a las personas pero sí lo que pueden compararse son características
claramente definidas de las personas. (Del mismo modo no se pueden comparar escuelas, ni
hogares, ni países si no se especifica en qué aspecto se realiza la comparación).
La selección de la información pertinente
Una vez que se ha decidido quienes son los sujetos que se van a observar debe elegirse
ciertas características para observar. Se trata de un recorte que permite comprender mejor
ciertos aspectos. La información que seleccionamos para observar se denomina pertinente.
Por ejemplo: la siguiente lista indica en que le gustaría trabajar cuando se reciba nueve
estudiantes de primer año de Psicología 
Francisc Laboral
o
Susana Clinica
Marcos Laboral
Daniel Clinica
Federico Social
Maria Clinica
Pedro Educacional
Eugenia Clinica
Mabel Educacional

Área Cantidad de Alumnos


Preferida
Clínica 4
Laboral 2
Social 1
Educacional 2
La lista los individualiza, los reconoce por su nombre. Solo se seleccionó como pertinente
para este ejemplo; el área en que le gustaría trabajar. Si ahora se transforma esa lista  en
una tabla.
Se lee que Clínica es un área preferida por cuatro alumnos, Laboral y Educacional por dos
y a Social solo la menciona uno.
Las personas desaparecieron, ya no hay nombres, hemos abstraído para referirnos al área
preferida, no a los alumnos. 
(Ejemplo de Practica 1 del cuestionario)
En él se solicita información sobre un conjunto seleccionado de características: sexo, o,
carrera que cursa, universidad a la que asiste, edad, cantidad de materias aprobadas y su
grado de acuerdo con dos afirmaciones preestablecidas.
Una vez completados los cuestionarios por los estudiantes a los que fue dirigido, la
información está “en bruto” y es necesario ordenarla para poder tener una visión de
conjunto. Eso se logra organizando los datos recogidos en la matriz de datos qué tiene, para
el cuestionario mostrado, la siguiente forma:

Cada fila (horizontal) es un individuo y cada columna (vertical) es un ítem. La primera fila
muestra los nombres de los ítems del cuestionario y las filas siguientes los siguientes los
números que corresponden a las respuestas dadas por los encuestados.

La matriz de datos presenta la información en filas horizontales y verticales que se han


obtenido a partir de los cuestionarios, con el fin de ordenar para interpretar esta
información es que se crea la matriz.

Los individuos
Cada fila representa un caso, un individuo al que se observa. Este individuo puede ser una
persona como en este ejemplo, pero también una entidad colectiva: un hogar, una
empresa, una escuela. Cada una de ellas se denomina unidad de análisis.
Es importante que las unidades de análisis estén claras. Ej: si se afirma que “las personas de
menores recursos acceden menos frecuentemente a la educación superior”  hablamos de
personas, y éstas son las unidades de análisis.  Muy diferente a decir que; “en los países
más pobres, es menor la proporción de personas que acceden a la educación superior”,
porque aquí las unidades de análisis son los países

Las variables
Cada columna de la matriz de datos es un ítem del cuestionario, es decir un aspecto
seleccionado de las unidades de análisis sobre el que se llama la atención. Esos aspectos se
denominan variables.  Ej: El sexo es una variable, la carrera que cada estudiante cursa, el
año que ingreso.
Las variables son los aspectos de los individuos que se someterán al análisis.
Las categorías:
El cuerpo de la matriz de datos tiene números que corresponden a las respuestas que cada
estudiante dio a cada ítem. En el lenguaje que estamos introduciendo, diremos que esta
variable (sexo) puede asumir cuatro categorías diferentes. Las categorías de una variable
son los valores que ésta puede asumir.
Cada vez que se define una variable, debe indicarse también el conjunto de categorías que
le corresponden.
Hay dos propiedades que debemos asegurar que cumplan las categorías que
construyamos; la primera se llama exclusión mutua, es decir que cada categoría excluya a
todas las demás. Si a un individuo le corresponde una categoría, entonces sabemos que no le
corresponde ninguna otra.
El segundo requisito que solicitaremos a las categorías de una variable es que agoten todas
las posibilidades de variación, es decir, que todos los valores posibles estén contemplados.
Esta cualidad se llama exhaustividad.  Las categorías de una variable son exhaustivas si
todo individuo tiene alguna categoría que le corresponda.

Los símbolos numéricos


Es común representar con números a las categorías, aun cuando lo que se observe no sea
numérico.
Ejemplo:

Hemos usado números para referirnos a las categorías a fin de simplificar la notación

En las variables cuyas categorías son numéricas, no es necesario hacer ninguna codificación.
Así, la edad quedará expresada de manera numérica directamente. En estos casos, la
exclusión mutua y la exhaustividad se cumplen

La medición
Según Stevens (1946, 1951), “medir es asignar números a los objetos según cierta regla, de
manera que los números asignados en la medición, no representan propiamente cantidades,
sino relaciones”. El nivel de medición de una variable está determinado por el significado
que tengan los símbolos numéricos que se asignan a una catogoria. (Según la arbitrariedad)
Niveles de medición
Si los números se asignan de manera totalmente arbitraria, el nivel de medición es el más
bajo de todos y se llama nivel nominal (como en la variable sexo); si los números deben
respetar el orden de las categorías (como en la educación), la variable se llama de nivel ordinal.
El nivel nominal
Son las categorías que son solo nombres (de allí que se llamen nominales). La asignación de
códigos numéricos cumple la función de designar las categorías.

Por comodidad, se empieza en el 1 y desde allí correlativamente, pero no es válido usar el


mismo número más de una vez. Si hiciéramos esto, confundiríamos las categorías que
corresponden a cada individuo. En este nivel de medición es que: a categorías diferentes
correspondan números distintos.

El nivel ordinal
Refleja el orden que existe entre las categorías. Eso quiere decir que se pueden hacer entre
ellas, juicios de orden, tales como una categoría es mayor que otra, una categoría es menor
que otra. Los valores numéricos que representan las categorías rescatan ahora una
propiedad adicional: el orden.
El nivel intervalar
Las escalas intervalares, mantienen las propiedades de las escalas ordinales y nominales, es
decir, los números designan categorías y permiten ordenarlas; pero además permiten decir
a qué distancia está una de otra.
Este nivel de medición requiere que se establezca algún tipo de unidad de medida que
pueda ser considerado por todos como una norma común y que sea repetible, esto es, que
se pueda aplicar reiteradamente a los mismos individuos produciendo los mismos
resultados. Ejemplo: En la psicología el puntaje de CI. La temperatura

El nivel proporcional
Es el más intuitivo, es el único nivel considerado efectivamente como medición por la teoría
clásica, ya que en él se integran todas las propiedades de los niveles anteriores y además se
agrega la proporcionalidad de los valores numéricos y el carácter absoluto del cero.
Ejemplo: Cantidad de errores ortográficos cometidos en una prueba de dictado, admite el
valor cero como correspondiente a “no errores”, es la ausencia de lo que se mide, se trata
de un cero absoluto. Además, cometer 10 errores es el doble que cometer 5.
En general, los valores que provengan de procesos de conteo (como el número de errores)
serán siempre proporcionales, Tambien la unidad de medida estándar como el tiempo o la
distancia
Una subdivisión en las escalas proporcionales:
Debe hacerse una diferenciación, según los valores solo puedan ser números enteros o
admitan números decimales. El primer tipo es el que se llama variable discreta.
Cuando la variable admite números decimales se la llama continua, Aquí podría suceder que
la variable tenga un gran número de valores. El problema de la presentación de las
categorías se resuelve agrupándolas. Esto se llama recategorización porque consiste en
construir nuevas categorías (volver a categorizar) a partir de las originales de la variable, a
fin de resumir la información.
Capítulo 2: Distribuciones de frecuencia
Una vez identificadas las variables y reconocido su nivel de medición, es necesario darle a la
matriz de datos un formato que permita hacer lecturas de los resultados, ya que es
imposible observar una tabla que tenga gran cantidad de filas (casos) y muchas columnas
(variables). Así presentada, la secuencia se llama serie simple y solo puede analizarse
cuando son muy pocos casos.

Tablas de distribución de frecuencia


Las tablas resumen los recuentos, que aquí indican que, de los 150 casos, hay 89 doses y 61
unos. Esto puede decirse brevemente así:
Que informan que hay 89 varones y 61 mujeres. A la cantidad de casos, que proviene del
recuento del número de unos y doses en la columna de sexo, se lo llama técnicamente
frecuencia absoluta simple (f)
El total de 150 casos resulta de la suma de todas las frecuencias absoluta.
Pero para comparar con certeza nos hace falta indicar el peso relativo de los varones, no su
número total, sino su contribución al total de casos.
En el ejemplo, 89/150 es 0,59 que también puede leerse como 59%. Estas proporciones se
denominan frecuencias relativas simples, se simbolizan como f’ (efe prima)

Se calculan dividiendo la frecuencia absoluta por el total.

Al construir estas tablas de distribución de frecuencias se renuncia a una parte de la


información que estaba en la matriz de datos. Esta pérdida de información es parte
inevitable del proceso en el que se resumen datos, cada vez tenemos una mejor visión de
conjunto, pero al mismo tiempo perdemos detalles.
Los dos ejemplos mostrados hasta aquí corresponden a variables medidas a nivel nominal,
por lo que los números no son más que códigos, no representan orden ni puede
considerarse la distancia entre ellos. 
Las frecuencias acumuladas responden a la pregunta por la cantidad de casos que hay por
debajo de una categoría de la variable.
Pero solo para variables medidas a escala ordinal o superior.
 

Se agregaron dos columnas más, las frecuencias acumuladas absolutas (F) y relativas (F ́).
Las primeras se obtuvieron sumando a la frecuencia absoluta de cada categoría.
La primera categoría tiene frecuencia acumulada igual a la absoluta simple, porque no hay
ningún caso por debajo de 17 años; la segunda es 33, que proviene de contar los 17 de la
segunda categoría y sumarle los 16 de la anterior y del mismo modo se construyen las
siguientes. La última categoría tiene por frecuencia absoluta acumulada al total de casos (en
el ejemplo 150), porque todos(los 150) están en esa categoría o por debajo de ella, es decir,
todos tienen de 26 años para abajo.
La frecuencia absoluta acumulada de cada valor de la variable es la cantidad de casos que
asumen ese valor y todos los valores menores a él. Se indica F
La última columna de la tabla es la transformación en relativas de las frecuencias absolutas
acumuladas y se logra con el mismo procedimiento que se usó para las relativas simples; el
de dividir por el total de casos. Se denominan frecuencias acumuladas relativa F´

RECATEGORIZACION,
Variable discreta con muchas categorías:
Es muy común optar por la construcción de intervalos, de manera de mantener la cantidad
de categorías entre cinco y diez. La condición de exclusión mutua se logra terminando una
categoría en un valor y comenzando la siguiente en el correlativo, como cuando se
construyen grupos quinquenales de edad: 0-4, 5-9, 10-14
Variable continua
Si la variable es continua la recategorización es necesaria, porque no es posible mostrar
“todas las categorías” de una variable continua, ya que éstas son, en teoría, infinitas.
Por lo que se utiliza un criterio de intervalos abiertos o cerrados. Si una categoría es 1,75 –
1,85, se entiende que entran en el intervalo todos quienes tengan estatura superior a 1,75
(excluido este valor) hasta 1,85 (incluido).
Se dice que este intervalo es abierto a la izquierda (excluye al valor inicial) y cerrado a la
derecha (incluye al valor final). Una persona de 1,75 se contará en el intervalo anterior: 1,65
– 1,75, que sí incluye al 1,75 y excluye al 1,65

Intervalos iguales
Los valores de la variable para lograr que el campo de variación quede dividido en tantos
intervalos como se desee siendo ellos de igual amplitud. Si es una variable discreta y la
cantidad de categorías originales no es múltiplo de número de intervalos que se desean, la
cantidad de valores en cada uno no será idéntica, sino aproximadamente igual.

Criterio proporcional
Con este criterio se logran grupos homogéneos en términos de cantidad de observaciones.
Sin un intervalo es de mayor amplitud es porque hay menos “alumnos” de esas edades. 

Criterio teórico
Aquí la decisión por el lugar donde establecer los puntos de corte para definir los
intervalos es del investigador y debe estar fundamentada. Si se considera que la edad
esperada de los alumnos observados es entre 19 y 20 años, se pueden hacer tres intervalos
con quienes tienen menos de esa edad, quienes tienen la edad esperada y quienes tienen
más de esa edad. 

La presentación grafica de los resultados


Ofrece una presentación de los datos recogidos que sea accesible para la interpretación.
Cuando se trata de variables nominales, normalmente con pocas categorías, son adecuados
los gráficos de barras o los diagramas de sectores circulares (“de torta”)
El gráfico circular solo es recomendable si la variable tiene pocas categorías (no más de tres)
Esto porque el ojo humano no es capaz de distinguir pequeñas diferencias de ángulos. 
En los casos en que la variable tiene categorías cuantitativas (intervalar o proporcional) se
utiliza un gráfico llamado histograma que no es igual al de barras, que se usa con variables
nominales.
Los histogramas pueden transformarse en polígonos de frecuencias uniendo los puntos
medios de cada
intervalo. 

En este gráfico se agregaron dos intervalos, uno anterior al primero y uno posterior al
último, cuyas frecuencias son cero, con el objetivo de “cerrar” el polígono sobre el eje
horizontal. 
Este gráfico se llama ojiva de Galton  que permite interpolar valores no observados, o que
no aparecen en la
tabla. 
Capítulo 3
La segunda etapa en la descripción de datos consiste en calcular medidas que los resuman,
etapa implica un nuevo alejamiento de la información bruta, ya que se pierde de vista no
solo a los individuos (presentes en la matriz de datos), sino también a las distribuciones de
frecuencia. Con unas pocas medidas descriptivas se ofrece bastante información sobre los
datos.
Apelan a diferentes propiedades de las escalas de medición, entonces no serán las mismas
las medidas que se puedan calcular en una escala nominal que en una ordinal, intervalar o
proporcional.
Se logrará indicando tres tipos diferentes de medidas. En primer lugar, haremos referencia a
las medidas de posición. Dentro de las medidas de posición, definiremos las medidas
centrales, (también llamadas de centralidad o de tendencia central), y las no centrales. En
segundo lugar, mencionaremos las medidas de dispersión (conocidas también como de
variabilidad), que muestran si los datos están concentrados alrededor de las medidas de
centralidad o si están alejados de esas medidas centrales. En tercer lugar, se describe la
forma que toma la distribución, medida con dos indicadores: simetría y curtosis.
Medidas de posición
Las operaciones que pueda hacerse entre las categorías dependen del nivel de medición de
las variables, las medidas que se puedan calcular también dependerán del nivel de medición

Medidas de centralidad Son las que indican alrededor de qué valores se ubican las
observaciones de una distribución de frecuencias.
Variables nominales: proporciones
Cuando se trabaja con una variable de nivel nominal, una manera sintética de presentar la
información. La proporción de casos que se encuentran en una determinada categoría. Se
trata de la frecuencia relativa simple (f') de una categoría particular.
La elección de cuál categoría se elige para indicar la proporción solo depende de los
objetivos de la descripción. Al elegir una categoría se llama la atención sobre ella, se la
destaca, ya que la proporción restante incluye a todas las demás categorías.
Esa proporción restante se obtiene restando de 1 (uno) la proporción indicada, o restando de
100 (cien) si ha expresado como porcentaje.
La proporción es la frecuencia relativa correspondiente a una categoría particular.
Usualmente se expresa como porcentaje. Se indica como “p”
Esta medida descriptiva se usa a menudo cuando la variable nominal tiene solo dos
categorías (variable dicotómica), ya que se presenta la proporción de una de ellas e
inmediatamente se sabe que el complemento es la proporción de la otra. 
Esta medida ya apareció al definir la proporción como el cociente entre la frecuencia propia
de la categoría y el total de casos. Esto puede también indicarse en variables de nivel de
medición superior al nominal, pero no resulta de interés cuando hay gran cantidad de
categorías.
Variables nominales: tasas
Se define habitualmente como tasa a la frecuencia relativa de un fenómeno en referencia a
una población total, con la característica de tener en cuenta un período de tiempo. También
es común el uso del término cuando se trata de hechos de poca incidencia, es decir que su
frecuencia es pequeña.
Se obtienen dividiendo la cantidad de ocurrencias (muertes, nacimientos, casos nuevos de
enfermedad, etc.) en una población dada en un momento especificado.
Variables nominales: razones.
La palabra razones se usa a menudo para referirse a cocientes calculados entre conjuntos
que no tienen elementos en común. Por ejemplo, se llama razón de masculinidad a la
cantidad de hombres por cada 100 mujeres que hay en una población. Se obtiene
dividiendo el total de varones por el total de mujeres (y luego multiplicando por 100), que
son dos conjuntos que no se superponen. Esta medida se conoce también como índice de
masculinidad.  La diferencia entre una razón y una tasa es que en la primera, el numerador
no está incluido en el denominador. También se la indica como ratio. 
Variables nominales: el modo
El modo, o moda, o valor modal es el valor de la variable (la categoría) que tiene la mayor
frecuencia. Dicho de otra manera, el valor de la variable más frecuentemente observado. Se
puede indicar en variables desde el nivel nominal, es decir en todos los niveles de medición.
Se identifica la más alta de las frecuencias y se señala la categoría que le corresponde. El
modo es la categoría —o el valor— de la variable que tiene mayor frecuencia. Se indica M0
Cuando se trabaja sobre variables intervalares o proporcionales discretas no hay diferencia
en la identificación del modo de la distribución. En esta distribución, el modo es 3 materias
aprobadas (Mo=3), que es la categoría que tiene mayor frecuencia. Expresamos esto como
“la mayor cantidad de alumnos que terminaron de cursar primer año han aprobado tres
materias”.
Cuando hay dos categorías que presentan la mayor frecuencia: la distribución es bimodal
que quiere decir que tiene dos modos.
Una distribución es bimodal cuando dos categorías tienen la mayor frecuencia. Si son más
las categorías que comparten la mayor frecuencia, la distribución se denomina multimodal.

Variables ordinales: la mediana


Cuando el nivel de medición es ordinal. Este tipo de variables puede calcularse otra medida
de centralidad, que usa esa propiedad: la del orden entre categorías. Se trata de la mediana,
que se podrá también calcular para escalas superiores (intervalar y proporcional).
Esta medida se define como el valor de la variable que deja por debajo la mitad del total de
observaciones. Se trata de la mitad de los casos y no la mitad de las categorías.
La mediana es una medida muy adecuada cuando se necesitan resumir datos que provienen
de escalas ordinales o de nivel superior.L os ejemplos sirven para ilustrar el concepto, pero
no es usual en la práctica. Las operaciones de resumen se justifican cuando se tiene un
conjunto grande de datos.
Se denomina mediana al valor de la variable que deja por debajo a la mitad de las
observaciones. La mediana deja la misma cantidad de casos por debajo y por encima de ella.
Se indica Mdn.
La mitad del número total de casos es 220, que resulta de dividir por dos los 440 casos del
total (440/2, equivalente a (1/2)*440). Entonces, para hallar la mediana, se debería
identificar al caso (al hogar en el ejemplo) que ocupa el lugar 220. Según la tabla, hasta la
categoría ―medio-bajo‖ se acumulan 260 hogares
Variables métricas: la media o promedio
Usaremos la expresión  x  para referirnos a la media, con lo que el resultado se escribe x:
8,33
(ejemplo) 

La media (o promedio) es un valor de la variable obtenido sumando todas las observaciones


multiplicadas por su frecuencia absoluta y dividiendo el resultado en el número total de
casos. Se indica como x. 
Cuando la distribución de frecuencias presenta los datos agrupados, aparece el problema de
no tener un único valor en cada categoría.
Esto se resuelve considerando, para cada intervalo, su marca de clase (el punto medio), que
es el promedio de los extremos de cada intervalo. La siguiente tabla agrega las marcas de
clase de cada intervalo, indicadas como x’:
Medidas no centrales
Los cuartiles:
Si la variable tiene un nivel de medición ordinal o superior, entonces podemos usar el mismo
razonamiento con el que definimos la mediana para hacer cortes más finos en una distribución de
frecuencia. Es válido  preguntar también por el valor que deja por debajo un cuarto de los casos, o
también el que deja por debajo las tres cuartas partes de las observaciones. Estos puntos de corte se
denominan primer cuartil y tercer cuartil.
El primer cuartil es el valor de la variable que deja por debajo un cuarto, o el 25% del total de
observaciones.
El tercer cuartil es el valor que deja por debajo las tres cuartas partes o el 75% del total de
observaciones.
El primer cuartil es el valor de la variable que deja un cuarto (25%) de los casos por debajo y tres
cuartos (75%) por encima. Se indica Q1.
El tercer cuartil es el valor de la variable que deja tres cuartos (75%) de los casos por debajo y un
cuarto (25%) por encima. Se indica Q3
Las dos cuartas partes del cuartil es igual a decir la mitad ósea la mediana.  

Los percentiles
Se trata de valores de la variable que dejan por debajo (acumulan) distintos porcentajes de casos.
El percentil r de una distribución es el valor de la variable que deja el r por ciento de los casos por
debajo de él y (1-r) por ciento de los casos por encima. Se indica Pr.
Así por ejemplo, el percentil 10 (indicado como P10) es el valor de la variable que acumula el 10%
de las observaciones. Se representa de modo general un percentil dado como Pr
Para los cálculos con la fórmula de interpolación se reemplaza el  de la mediana por  para el percentil
r. Esta manera de calcular los percentiles tiene la misma limitación mencionada para la mediana.

Obtención gráfica de los percentiles.


Se pueden obtenerse de manera aproximada a través del gráfico de frecuencias acumuladas, la ojiva
de
Galton. 
Obtención informática de las medidas de posición
Cuando se dispone de la matriz de datos, no se utilizan las fórmulas para interpolar, sino que se
solicitan a un software que hace las operaciones sobre el conjunto completo de datos.

La forma de la distribución
La media es una medida muy completa como resumen de los datos, ya que los considera a
todos con la frecuencia de cada uno. Sin embargo esto puede ser una dificultad en algunos
tipos de distribución.
Asimetría
La asimetría de una distribución se indica señalando hacia dónde se sitúan los valores extremos. Los
valores extremos son mayores que la mayor parte de los datos, la asimetría es hacia la derecha. Hay
observaciones particularmente pequeñas y en ese caso se tratará de una distribución asimétrica
hacia la izquierda.
La asimetría puede evaluarse directamente a partir de las medidas de centralidad, ya que la posición
relativa de la media y la mediana indican hacia dónde ésta sucede. Cuando la media y la mediana
coinciden, la distribución es simétrica, es decir carece de
asimetría. 

Una distribución es simétrica si la media coincide con la mediana. La distribución se llama asimétrica
a la derecha si la media es mayor que la mediana, y asimétrica a la izquierda si la media es menor
que la mediana. 
La comparación entre distribuciones, se trata de los coeficientes de asimetría. Estos coeficientes
miden dos aspectos de la asimetría: hacia qué lado sucede y cuán acentuada es.
Curtosis
La medida de cuán “puntiaguda” es la curva, se denomina curtosis y distingue distribuciones con
forma estrecha y elevada de que tienen forma amplia y baja. Como en los siguientes gráficos:

Las distribuciones con forma semejante a la primera se llaman leptocúrticas, las que se parecen al
segundo gráfico, platicúrticas y las que tienen forma como la tercera, mesocúrticas.
Estos tres ejemplos corresponden a distribuciones simétricas, pero también pueden ser asimétricas.
La curtosis se mide con un coeficiente específico, que vale cero para distribuciones mesocúrticas, es
negativo para las platicúrticas y positivo para las leptocúrticas.
Box-plots
Un gráfico que puede resumir de manera muy compacta la información sobre una distribución de
frecuencias es el que se llama diagrama de caja, o también diagrama de caja y bigotes o box-plot.
Aplicado al ejemplo de la variable número de errores
Este gráfico representa sobre el eje vertical los valores de la variable y muestra una ―caja‖
delimitada por los cuartiles 1 y 3. Según la definición de los cuartiles, esa caja contiene al 50% central
de los casos.

Leemos esta descripción como: en 2009 rindieron el primer parcial 1345 alumnos, la nota promedio
del grupo fue de 6.82. La mínima nota que alguien obtuvo fue un dos y la máxima un 10. La mitad de
los alumnos sacó de 7 para abajo, el 25% que obtuvo los peores resultados estuvo de 5 para abajo y
el 25% de notas más altas se concentra por encima de 8 (entre 8 y 10). Sobre la forma dela
distribución, ésta tiene asimetría hacia la izquierda, pero es muy pequeña (menos a 0.50) por lo que
se la puede tratar como simétrica. Además, es platicúrtica. De manera equivalente se lee la
descripción de las notas del 2010.
La variable ciclo es la que separa los dos grupos que se comparan y corresponde a quienes cursaron
en 2009 y 2010. La representación gráfica de esta descripción, a través de box-plots, es la siguiente

Medidas de dispersión
Además de indicar alrededor de qué valores se distribuyen los datos, también es necesario indicar si
se encuentran concentrados alrededor de esos valores. (Si son cercanos a ellos) o dispersos (si están
alejados). Diremos que en el primer caso la distribución es homogénea o que presenta poca
dispersión y en el segundo que es heterogénea o que presenta mucha dispersión.
Conocer esto tiene importancia para poder evaluar la calidad de las medidas de centralidad, en
particular de la media. Esto es así porque en una distribución muy dispersa, la media será un
promedio de valores muy diferentes entre sí y no será tan fiel a los datos como si estos valores
fueran
similares.  
Recorrido:
Una primera aproximación al problema es la de considerar la distancia que hay entre los
valores extremos, entre el más pequeño y el más grande. Esta medida se llama recorrido, se indica
con la letra R y la expresión formal de su cálculo
es: 

Donde xmax  y xmin  representan a los valores máximo y mínimo respectivamente


Cuando la distribución tiene más casos, el recorrido es insuficiente como medida de dispersión, ya
que está determinado solo por los valores extremos. Dicho de otra manera, si sucede que hay un
caso (o unos pocos) que tiene un valor excepcionalmente alto (o bajo), el recorrido dará un valor
alto, indicando gran dispersión. Por esa razón se dice que es una medida “gruesa” de la variabilidad
de los datos.
Amplitud intercuartílica
Esta medida es la de tomar la distancia entre los cuartiles primero y tercero. La medida que usa esta
distancia se llama amplitud intercuartílica y es simplemente la diferencia entre el tercer cuartil y el
primero:
La amplitud intercuartílica es la diferencia entre los cuartiles tercero y primero. Se indica AIQ
Algunos autores prefieren informar como medida de dispersión a la mitad de la distancia entre los
cuartiles 1 y 3, a la que se denomina semi recorrido intercuartilar, y se abrevia SRI
Medidas de dispersión basadas en la media
Las medidas de variabilidad que más se usan son las que tienen en cuenta todas las
observaciones, es decir aquellas que están basadas en la media. Consiste en observar la
distancia de la media, a la que se encuentra cada observación, luego esas distancias
individuales pueden promediarse y tener una idea global de qué tan lejos están los casos del
promedio.
Los valores  x1 - -x se llaman desvíos, que indican cuánto se aleja cada observación de la
media. La consecuencia de esta propiedad es que no será posible usar la suma de los
desvíos como indicador de dispersión, ya que da siempre cero. A fin de resolver este
problema vamos a eliminar el signo, usando el hecho que todo número elevado a una
potencia par es positivo, sin importar el signo que haya tenido el número. 
Varianza
Usando ese recurso, definimos la varianza, a la que simbolizaremos como  V (x) S2.
Se llama varianza de una distribución a la suma de los cuadrados de los desvíos alrededor de
la media, dividida por el total de observaciones menos uno. Se indica s2
Es una medida muy valiosa de la dispersión que tiene un conjunto de datos, cuanto mayor
es, tanto más dispersos éstos se encuentran, es decir, son más heterogéneos.
No puede ser negativa, porque es una suma de cuadrados y solo es cero si todos los desvíos
son cero, es decir si todas las observaciones coinciden con la media
Hay tres propiedades de la varianza:
-La varianza de una constante es cero. Esto resulta claro ya que la varianza mide la
dispersión y si todas las observaciones son iguales no hay dispersión. V(k)=0
-La varianza de una constante que multiplica a una variable es la constante elevada al
cuadrado multiplicada por la varianza de la variable. V(k*x)= k2 * V(x)
-La varianza de la suma de dos variables independientes es la suma de las varianzas de cada
una de ellas. V (x+y) = V(x) + V(y).
A los fines de la interpretación, la varianza presenta dos inconvenientes. Uno es que sus
unidades están elevadas al cuadrado; por lo que, si medimos número de errores, la varianza
quedará expresada en número de errores al cuadrado una entidad que no tiene significado,
como tampoco lo tienen hijos al cuadrado o segundos al cuadrado.
El otro inconveniente es que no tiene límite superior, puede ser muy grande y no tenemos
con qué compararla para saber si indica una gran variabilidad o si es grande.
Desviación estándar
La desviación estándar es la raíz cuadrada de la varianza. Se indica s.
Por el sencillo trámite de introducir una raíz cuadrada, las unidades son las mismas que las
de la variable original.
Coeficiente de variación
medida relativa de la dispersión: el coeficiente de variación, indicado como CV como el
cociente entre la desviación estándar y la media.  CV= S/x*100
Esta medida carece de unidades, porque la media tiene las mismas que las de la desviación
estándar.
Ejemplo: sea un grupo de seis alumnos que hacen una prueba y que obtienen las siguientes
notas: 2, 2, 2, 2, 10, 10. Si calculamos la media obtenemos 4,7. Este número no representa lo
que sucede con los seis alumnos, quienes tuvieron resultados muy dispares: cuatro de ellos
obtuvieron 2 y los otros dos, 10. La media no alcanza para resumir los datos y es necesario
acompañarla de otras medidas, como la mediana, los cuartiles, el mínimo y máximo.
Obtención informática de medidas de dispersión.
La salida puede leerse ―Sobre un total de seis pacientes diagnosticados como depresivos, el
número promedio de síntomas presentes en que se basó el diagnóstico fue de 7. Las
observaciones son levemente heterogéneas, ya que el coeficiente de variación es superior al
20%. De aquí puede concluirse que el número de síntomas que apoyan el diagnóstico de
depresión es bastante variable entre los pacientes.
La medida relativa de la variabilidad es adecuada para comparar variables que tienen
diferentes unidades. Es decir, ¿en cuál de esas dos medidas se diferencian más?.
Box-plots y dispersión
La observación del diagrama de caja (box-plot) nos da también indicios acerca de la
dispersión de la variable que se analiza. Cuando la caja es larga estamos en presencia de
distribuciones muy dispersas en la parte central, los cuartiles están lejanos, hay mucha
amplitud intercuartilar. Mientras que si la caja es corta, se trata de una concentración de
datos en la parte central de la distribución. La longitud de los bigotes señala la mayor o
menor concentración de los datos en las zonas extremas.
Haciendo uso de la amplitud intercuartílica estableceremos criterios para detectar valores
que destaquen por alejarse sustancialmente del grupo mayoritario. Se trata de mediciones
atípicas. La identificación de estos valores es importante en la etapa exploratoria de los
datos porque obliga a mirarlos en detalle.
El individuo en relación a su grupo
En una evaluación psicométricas, será necesario conocer cuál es la posición relativa que un
puntaje ocupa respecto del conjunto completo de observaciones.
Es una medida concreta, ya que expresa el número de errores que separan al alumno del
comportamiento resumido del grupo (expresado en la media); dicho de otra manera,
estamos considerando los valores absolutos.
Es una medida concreta, ya que expresa el número de errores que separan al alumno del
comportamiento resumido del grupo (expresado en la media); dicho de otra manera,
estamos considerando los valores absolutos.

Debido a que la letra z se utiliza de manera universal para indicar este valor, es también
conocido como puntaje z o puntuación z. Esta nueva variable tiene media igual a cero y
desviación estándar igual a uno

Una tabla de ese tipo (ya sea construida a partir de los percentiles o bien de los puntajes z)
se conoce como baremo y es absolutamente necesario para cualquier tipo de evaluación
psicológica o educativa. El baremo provee la transformación de puntajes absolutos en
puntajes relativos.

Capítulo 4 Relación entre variables: los fundamentos


Las relaciones entre variables se realizan para reunir variables en relaciones de dos como
mínimo, pero que puede incluir a una gran cantidad. Por ejemplo: ¿por qué un tratamiento
es exitoso con algunos pacientes diagnosticados de depresión y con otros no? Razonándolo
así, introducimos otra variable, la edad. La hipótesis está formulada como una relación entre
dos variables: se trata de indagar por el efecto que la edad (primera variable) tendría sobre
el resultado del tratamiento (segunda variable).  La edad podría ser un factor explicativo del
resultado del tratamiento. Ahora el tiempo de evolución de la enfermedad podría ser otro
factor explicativo del resultado del tratamiento. Estas relaciones son hipotéticas, nuestro
objetivo será analizar la evidencia que haya a su favor o en su contra. 

Jamás agotaremos el conjunto de todos los factores explicativos de un fenómeno, porque


en última instancia cada caso es único. Los fenómenos que observamos son multicausados,
por lo que no puede decirse que una variable X sea la causa de otra variable Y. Pero lo que sí
puede hacerse es analizar la importancia relativa de los diferentes factores explicativos;
saber en qué grado aporta cada uno a las diferencias que se observan.
Las hipótesis son respuestas tentativas a la pregunta formulada como problema de la
investigación. La hipótesis son consecuencias deductivas de la teoría, cuya verificación no es
suficiente para validar la teoría, aunque sí para “aportar evidencia en su favor”
Establecer de manera hipotética una relación entre dos variables equivale a afirmar que, por
alguna razón, los cambios de una de ellas van acompañados de cambios en la otra. 
El modo más usado para observar relaciones entre dos variables consiste en presentar el
comportamiento conjunto de ellas a través de tablas o gráficos. Las primeras son más
adecuadas para variables con pocas categorías (usualmente nominales). Mientras que los
gráficos son más pertinentes para mostrar relaciones entre variables métricas.
En el lenguaje de las relaciones entre variables, estaríamos proponiendo que existe
asociación entre el tipo de hogar en que el niño crece y el tipo de relación que mantiene con
sus
pares. 

Tablas de contingencia
Se obtiene una tabla bivariada (porque contiene dos variables), que también se llama tabla
de contingencia o tabla de distribución conjunta o también tabla de doble entrada.
Las medidas descriptivas que se calcularon, se denominan univariadas. A este arreglo se
agrega una fila y una columna adicionales que corresponden a los totales de cada categoría.
Identificaremos la dimensión de la tabla indicando cuántas filas tiene y cuántas columnas.
La dimensión de la tabla se indica como f X c, donde f es el número de categorías de la
variable que está en las filas y c es el número de categorías de la variable que está en las
columnas.
Con f indicaremos la frecuencia y con el subíndice la celda a que corresponde, así fy será la
cantidad de casos en la celda que corresponde a la fila i y a la columna j simultáneamente.
Se agregan una fila y una columna en la que se indica el total de casos de cada una de ellas,
que se llaman marginales de fila y de columna. La notación será:

Se llama frecuencias marginales de fila a las frecuencias absolutas de las categorías de la


variable que se ubica en las filas.
Las frecuencias marginales de columna son las frecuencias absolutas de las categorías de
la variable ubicada en las columnas.
Las frecuencias conjuntas indican la cantidad de casos que corresponden simultáneamente
a una determinada categoría de la variable de las filas y una categoría de la variable de
columnas.
Frecuencias relativas
Podemos transformar todas estas frecuencias absolutas en relativas, por el simple
procedimiento de dividirlas en el total general.
Una clasificación en referencia al tiempo
Hay relaciones en las que resulta posible identificar a una de las variables como previa a la
presencia de la otra. Ej: Los maalos tratos sufridos durante la niñez son anteriores (en la
historia del sujeto) a la eventual manifestación adulta de conductas antisociales.
Una relación entre dos variables es simétrica cuando es de variación conjunta y no puede
identificarse a una variable como previa a la otra.
Una relación entre dos variables es asimétrica cuando una de las variables precede (lógica o
cronológicamente) a la otra y puede identificarse a una como antecedente y a la otra como
consecuente.
La dirección de la relación
Cuando las variables que se ponen en juego en una relación tienen un nivel de medición
superior al nominal, es posible indicar si los valores van creciendo o decreciendo. Resulta de
interés plantear la dirección de la relación.
Una relación entre dos variables medidas a nivel ordinal o superior es directa si cuando los
valores de una de ella aumentan, también aumentan los de la otra.
Se llama inversa a la relación entre dos variables de nivel ordinal o superior en la que los
incrementos en los valores de una de ellas van acompañados de disminuciones en los
valores de la otra.
La intensidad
La intensidad de una relación es una medida de la fuerza con que los cambios en una
variable afectan los cambios en la otra (si es una relación asimétrica) o bien, de la frecuencia
con que los cambios de una variable acompañan a los de la otra (si se trata de una relación
simétrica).
Se manifiesta la relación entre las variables a partir de los datos de nuestras observaciones.
Esta medida de la relación se corresponde con la idea intuitiva de ―X tiene mucha
influencia en Y.
El coeficiente que usaremos para evaluar la intensidad de una relación entre dos variables
dicotómicas se denomina Q de Kendall - Yule y se
calcula 
El cálculo de este coeficiente da un número que puede ser positivo o negativo pero que
siempre se encuentra entre –1 y 1.
El coeficiente Q de Kendall - Yule mide la intensidad de la relación entre dos variables
dicotómicas comparando la concentración de frecuencias en las diagonales. Alcanza su valor
máximo cuando todos los casos se ubican sobre una diagonal y la relación es perfecta.
Alcanza su mínimo valor cuando las frecuencias están distribuidas de manera proporcional
entre las celdas y las variables son independientes. 
Dos variables son estadísticamente independientes si la frecuencia relativa de cada celda es
igual al producto de las frecuencias relativas marginales de la fila y la columna a las que la
celda pertenece. 

Capítulo 5 Relación entre variables: el análisis


Variables nominales con más de dos categorías cada una.
La expresión nos dice que deben restarse cada una de las frecuencias esperadas de cada
observada correspondiente, elevar esa diferencia al cuadrado35 y dividir el resultado por
cada una de las frecuencias esperadas. El número que resulta de esta operación se llama
puntaje chi cuadrado (o también ji cuadrado), se indica con el símbolo  y es una medida de
la distancia a la que se encuentran las frecuencias observadas de las que se esperaría
encontrar si las variables fueran independiente.

Para poder mantener las variables con sus verdaderos valores (sin agrupar) y tener al mismo
tiempo una representación abreviada de los datos, existe un recurso muy valioso: una
representación gráfica de los valores que se denomina diagrama de dispersión.

Este gráfico usa los ejes cartesianos para indicar los valores de las dos variables que estamos
analizando y representa con un punto cada concordancia de dos categorías. Estos ejes se
llaman ordenadas el vertical y abscisas el
horizontal. 
Para analizar la intensidad de la relación lineal entre dos variables (ambas medidas a nivel
intervalar o proporcional) calcularemos un coeficiente. Coeficiente se llama coeficiente de
correlación r de Pears.
El coeficiente va a medir qué tan bien se puede aproximar el conjunto de puntos con una
función lineal y va a depender de lo que antes llamamos el ―achatamiento‖ de la elipse.
Será grande (próximo a 1 ó a -1) si las variables están muy relacionadas linealmente, es
decir, si la nube de puntos se elonga hacia una línea; y será pequeño (próximo a cero) si las
variables guardan poca relación lineal, es decir si la nube de puntos tiene forma
redondeada.
Entonces el producto de las puntuaciones z ofrece un resultado que será alto y positivo si las
variables tienen una correlación alta y directa, dará alto y negativo si la correlación es
inversa y dará un resultado cercano a cero si no están correlacionadas. Haciendo uso de
este razonamiento, el coeficiente de correlación de Pearson se calcula como: Donde z
representan los desvíos estándar de las variables x e y, n es el total de observaciones y los
subíndices i corresponden a cada una de ellas. El signo de suma señala que ésta debe
extenderse desde el primer caso (i=1) hasta el último (n).
Cuando la relación entre dos variables es lineal, el coeficiente de Pearson da una
interpretación más detallada de la incidencia de una variable sobre la otra. Cuando este
coeficiente se eleva al cuadrado, se obtiene un número que se llama coeficiente general de
determinación, que se indica cómo  y que mide la parte de la varianza que es compartida
por las dos variables.
La forma de la relación
En relaciones asimétricas: son aquellas en las que es posible identificar a una de las variables
como antecedente y a la otra como consecuente (o como independiente y dependiente). Se
dirigen a explicar una variable (la consecuente) a partir de los valores de la otra (la
antecedente). Por ejemplo; cuando preguntamos si una droga es efectiva para tratar la
depresión, buscamos la relación entre las diferentes dosis de la droga y la reducción de
síntomas de la depresión, por ejemplo a través del puntaje alcanzado en una prueba que la
evalúa. O también, si preguntamos por el efecto del nivel de ansiedad (variable antecedente)
sobre los resultados que se obtienen en un examen (variable consecuente, a explicar). 
Cuando las variables tienen nivel de medición proporcional, es posible representar la
relación con un diagrama de dispersión. Usaremos a partir de aquí una notación general:
llamaremos x a la variable antecedente (o independiente) e y a la consecuente (o
dependiente). Porque la relación se supone asimétrica, esperamos que x tenga efectos
sobre y.
La función lineal tiene una expresión matemática como la siguiente  en la que x e y son las
variables cuya relación analizamos y los números  y son valores fijos que determinan cuál es
la recta de la que hablamos. Hallar la recta implica encontrar esos dos números  y . Una vez
que están determinados, se conoce la recta y se la puede trazar.
La orrdenada al origen El número bo se llama ordenada al origen y representa el valor de y
cuando x vale cero. Eso puede verse fácilmente en la expresión de la recta cuando se
reemplaza a x por cero, así se obtiene.
El otro número que determina de qué función lineal se trata, es  que se llama pendiente y
gráficamente indica la inclinación de la recta: su valor es responsable de que la recta
―suba‖ o ―baje‖, siempre mirándola de izquierda a derecha.

Capítulo 6: Obtención de la muestra


El muestreo es un conjunto de procedimientos mediante los cuales se selecciona, de un
universo determinado, llamado población, un subconjunto que recibe el nombre de
muestra, con el objetivo de llegar al conocimiento de determinadas características de los
elementos de la población a través de la observación y generalización. Al hacerlo, se
extiende ese comportamiento (se generaliza) a situaciones que no han sido observadas, se
espera que en el futuro, esa persona actúe de modo similar.
Población
Utilizaremos la palabra población o, indistintamente, universo, para designar, de manera
genérica, a un conjunto de unidades de análisis que son objeto de un estudio particular.
Ejemplos de estos son: los pacientes con trastornos alimenticios del hospital Misericordia de
la ciudad de Córdoba en el año 2009, o los votantes en las elecciones para intendente de la
ciudad de Rio Cuarto en 2008, las escuelas primarias de la provincia de Córdoba, las carreras
que se dictan en universidades en Argentina en 2017. Son entidades de diferente naturaleza:
personas, hogares, instituciones, ciudades, etc. Se habla de población infinita cuando el
número de elementos que integra la misma es elevado.
En los casos en los cuales no tenemos posibilidad de delimitar la población completa,
decimos que se trata de poblaciones hipotéticas. Por ejemplo como sucede con estudios
que plantean probar los efectos de un tipo de psicoterapia sobre pacientes diagnosticados
como esquizofrénicos. En ese caso la “población” es la de las personas diagnosticadas como
esquizofrénicas en la actualidad y también aquellas que lo serán en el futuro.
Para analizar características de las unidades de análisis, puede creerse que lo mejor sería
realizar un relevamiento exhaustivo de las mismas. Este relevamiento consistiría en
observar dicha característica (variable) en cada uno de los individuos de la población. Tal
modo de recolectar la información se conoce con el nombre de censo.
Muestra
Se llama muestra a un subconjunto de una población que comparte sus características en
los aspectos de interés para la investigación. El concepto de muestra va ligado al de
representatividad, es decir a su capacidad de actuar como “representante” de los elementos
de la población que no han sido seleccionados. Tal representatividad no implica una
identidad en todos los aspectos, son solamente aquellas características que se encuentran
bajo análisis las que deben ser compartidas por la muestra y la población.
Solo será lícito utilizar los resultados muéstrales como estimación de valores poblacionales
cuando sea posible conocer a priori cuál es la probabilidad que cada individuo de la
población tiene de ser incluido en la muestra. Las técnicas de muestreo que permiten
asegurar este requisito se denominan de carácter probabilístico. Otras técnicas que no
cumplen esta condición se llaman muestreos no probabilísticos y muchas veces son
utilizadas con el objetivo de reducir tiempos y costos, pero los resultados obtenidos de ellas
no pueden utilizarse para extraer conclusiones acerca de la población.

Muestreo irrestricto aleatorio o aleatorio simple


Se trata de una técnica que asigna igual probabilidad de pertenecer a la muestra a todos los
individuos de la población. Para su realización se requiere contar con una lista de los
elementos de la población. Este listado es lo que se denomina el marco de la muestra. Su
realización consiste en numerar los elementos del listado y elegir aleatoriamente una
cantidad n de ellos (el tamaño de la muestra). La aleatoriedad de la elección queda
garantizada por el uso de una tabla de números aleatorios o de un generador electrónico de
los mismos, algunas calculadoras de los teléfonos disponen de esta opción en la tecla #RAN
(por random, aleatorio).

Capítulo 8 probabilidad: los modelos:


La noción de distribución de frecuencias de una variable estadística, la información que este
concepto brinda acerca de valores destacados de la variable, acerca de sus medidas de
tendencia central y de su variabilidad es fundamental en el tratamiento de fenómenos que
dependen de factores que no se pueden conocer o controlar totalmente.
Los fenómenos resultan en parte imprevisibles y para aludir a esta imprevisibilidad se apela
al concepto de azar o aleatoriedad.
En este marco de la aleatoriedad hay variables que siendo de distinta naturaleza son
similares en cuanto a su distribución de frecuencias como lo ilustran estas dos ejemplos
sencillos:
 ¿Qué resultará de lanzar una moneda al aire (equilibrada) o de elegir una comisión
entre dos posibles en el mismo horario (sin tener recomendación ninguna)
Modelo de asignación de Frecuencias Relativas:
El hecho de que pueda salir cara o ceca al lanzar una moneda o elegir inscribirse en
la comisión A o B de trabajos prácticos sin que se tenga ninguna información previa
y, por tanto, ninguna preferencia hacia alguna de ellas hace pensar en la existencia
de un modelo de asignación de frecuencias relativas esperadas o teóricas que
describe ambas situaciones y otras similares.
Probabilidad como Frecuencia Relativa Teórica:
-Un modelo es una construcción teórica, una formulación simplificada de la
realidad que es útil para comprender ciertos aspectos de la misma, facilitar su
análisis e interpretación, arribar a conclusiones e, inclusive, hacer predicciones.
-Así, un modelo para una variable es una distribución de frecuencias relativas
teóricas llamadas probabilidades. A la variable vinculada con experiencias en las que
interviene el azar se la denomina variable aleatoria, aunque en lo sucesivo se hablará
simplemente de variable.
-Dichas probabilidades no provienen de la observación directa de un hecho realizado
sino que son postuladas a partir de la experiencia previa o de ciertas condiciones
teóricas. En el ejemplo de la moneda estamos suponiendo que es idealmente
equilibrada.
Probabilidad como Medida de Posibilidad
-En una variable discreta, la probabilidad de cada valor se interpreta como la medida de la
posibilidad de que dicho valor sea observado.  En los ejemplos presentados ½ es la medida
asignada tanto a la posibilidad de que un alumno elija la comisión A como de que salga cara
cuando se arroja una moneda.
-Las características de la variable empírica u observada tales como media, varianza, etcétera
pueden definirse en el modelo para la variable.
Modelos para Discretas y para Continuas
Hay modelos de probabilidad para variables discretas y para variables continuas.
La diferencia esencial entre ambos casos es que, mientras que en las variables
discretas las probabilidades se concentran en puntos individuales: cada punto se
lleva un “pedacito” de la probabilidad total que es 1, en las continuas cada punto
aisladamente “no se lleva nada” sino que la probabilidad total de 1 “se desparrama”
a lo largo de todo un intervalo de valores de números reales (un continuo), de modo
que la probabilidad de cada punto individualmente considerado es cero. En síntesis:
en los modelos de probabilidad para variables discretas las probabilidades son de los
puntos y en las continuas de los intervalos.
Función de Probabilidad Puntual:
Un modelo para una variable discreta consiste en una Función de Probabilidad Puntual, que
se exhibe en una tabla totalmente análoga a la de distribución de frecuencias relativas o se
genera a partir de una fórmula. A cada valor xi se le asigna su correspondiente probabilidad.
P(X = x ) es la probabilidad de que la variable X tome el valor x .
i i

Las probabilidades asignadas a los valores de la variable verifican las  propiedades de la


frecuencia relativa, a saber:
 0 P(X = xi) ≤1  Es un número no negativo y menor o igual a 1.
 i=1nP(X  =  x ) = 1  La suma de todas las probabilidades es 1.
i

Función de Densidad de Probabilidad:


Un modelo para una variable continua consiste en una función cuya gráfica es una curva que
encierra un área total igual a 1. Las probabilidades que se le asignan a los intervalos son las áreas
bajo la curva sobre el intervalo. 
Parámetros Característicos
Los resúmenes estadísticos que se computan a partir de una tabla de frecuencias también se pueden
considerar en un modelo de probabilidad.
Son de particular interés la media y la varianza porque modelizan los correspondientes parámetros
poblacionales.
La Media en el modelo es llamada la Esperanza de la variable y se simboliza con E(X) o también con
μ. La Varianza se expresa con V(X) o con 2
Bernoulli de Parámetro p
Una variable se distribuye según el modelo Bernoulli cuando toma sólo dos valores.
Estos dos valores se denominan “éxito”, que se codifica con 1 y “fracaso”, que se codifica con 0. La
probabilidad asignada al éxito se denota con “p” y la de fracaso con q = 1-p .
Notación: X ~ B(p)
Ejemplos:
La cara que queda hacia arriba al arrojar una moneda arroja dos resultados cara o ceca.
La respuesta de un sujeto a un ítem, cuando es evaluada como correcta o incorrecta.
El resultado de un alumno en un examen, cuando se lo clasifica en aprobado o desaprobado
Modelo Binomial de Parámetros n, p
Una variable sigue un modelo de probabilidad Binomial de parámetros n, p (y se denota X ~ B(n,p)) si
cuenta la cantidad de éxitos que ocurren en n observaciones de una variable Bernoulli de parámetro
p, que son independientes y con la misma probabilidad de éxito p.
Modelo Binomial. Supuesto de Estabilidad
Condición de Estabilidad: la probabilidad de éxito debe permanecer constante en las n
observaciones de la variable Bernoulli.
En el primer ejemplo la probabilidad de que salga cara en cada lanzamiento de la moneda es ½. En el
segundo ejemplo la probabilidad de responder correctamente cada uno de los 10 ítems es 1/5. Si en
algún ítem se modificara la cantidad de opciones; por ejemplo, en lugar de ser cinco, fueran tres las
opciones de respuesta, la probabilidad de éxito cambiaría y no se mantendría la condición de
estabilidad.
Modelo Binomial. Supuesto de Independencia.
Condición de Independencia: la probabilidad de obtener éxito en una observación no aumenta ni
disminuye si se conoce el resultado de otra observación.
La probabilidad de que salga cara en la tercera tirada no cambia si se sabe que en los lanzamientos
anteriores salió cara, por ejemplo. La probabilidad de responder correctamente un ítem, por
ejemplo el quinto, no varía si se sabe que el ítem anterior se contestó mal.
Modelo Binomial. Cálculo de Probabilidades
Si se considera la variable del segundo ejemplo que cuenta la cantidad de ítems correctamente
respondidos por azar entre los 10 presentados es, según se afirmó, Binomial de parámetros n=10 y
p=0,20; en símbolos X~B(10;0,20). Los valores de X son:  0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
La asignación de probabilidades a los valores de una variable con distribución Binomial de
parámetros n y p, puede efectuarse con aplicaciones como, por ejemplo, Probability Distributions o
EXCEL, entre otras. 
Distribución Normal
Es un Modelo de Variable Continua para la cual son más frecuentes los valores próximos a la media y
menos frecuentes los valores alejados de ella.
Ejemplos: cociente intelectual, extraversión, el razonamiento espacial y variables biológicas tales
como el peso, la altura, la fuerza, la agudeza visual.
Distribución Normal. Tipificación
La probabilidad asignada a un intervalo de valores de X  es el área debajo de la curva normal
que se apoya sobre dicho intervalo.
De todas las curvas normales, se han calculado las áreas de la normal estándar. A
partir  de estas áreas se pueden conocer las probabilidades asignadas a cualquier
intervalo de valores de una variable normal X con media m y desviación estándar s.
El Cociente Intelectual se distribuye normalmente en la población general con una media de

100 y una desviación estándar de 15. 


a. Hallar
El porcentaje de la población con un CI superior a 110.
Hay que hallar P(X > 110) y multiplicarla por 100.
En la App Probability se elige la distribución Normal, se indican los parámetros, se pone x =
110 y se elige la primera ventana y se lee la probabilidad a la derecha (puede redondearse a
4 decimales). En este caso es 0,25249.
Respuesta: 25,25% de la población tiene un CI superior a 110.
Distribución Ji cuadrado(χ2
Otro modelo de variables por ser utilizado en este curso para variables continuas será la
distribución Ji Cuadrado (χ2).
Entre sus varios usos se destacan:
Inferencia sobre una varianza
Test de bondad de ajuste
Test de independencia
Sus probabilidades se buscan con programas estadísticos.
A diferencia de la distribución normal, la 2 no es simétrica. Uno de los parámetros de los que
depende son los “grados de libertad” que, en los problemas aplicados, están en relación con
el tamaño de muestra. 

UNIDAD 11: Prueba de Hipótesis: y La Lógica


Hipótesis Estadística
Es una afirmación referida a cualquier característica de la distribución de probabilidades de una
variable aleatoria o de varias variables  aleatorias observadas conjuntamente.
Como las variables aleatorias y sus distribuciones de probabilidades modelizan a variables empíricas
que describen problemas reales referidos a poblaciones, también puede afirmarse que: Una
Hipótesis Estadística es una afirmación referida a cualquier característica de la población de valores
de una variable o de varias variables observadas conjuntamente.
La variable X se distribuye normalmente.
La probabilidad de éxito de cierta variable Bernoulli es p = 0,4.
La esperanza de cierta variable normal es m < 50.
Dos variables X e Y son independientes.
La correlación lineal entre X e Y es  > 0,3.
En los ejemplos 2,3 y 5 las afirmaciones recaen sobre parámetros de la distribución: son hipótesis
paramétricas.  En los ejemplos 1 y 4 las hipótesis son no paramétricas.
Es un procedimiento basado sobre información muestral que proporciona un criterio racional para
tomar decisiones bajo incertidumbre.
Consiste en confrontar dos hipótesis que se oponen y, a partir de lo observado en una muestra,
tomar partido por una de ellas. La decisión no es certera; está sujeta a la posibilidad de error, pero el
método permite conocer la probabilidad de cometer distintos tipos de errores.
Las hipótesis que se confrontan (o contrastan) se llaman Nula y Alternativa. Respectivamente se las
denota con H y H .
0 1

En la bibliografía estadística también se alude a este método con los nombres de Contraste de
Hipótesis o Test de Hipótesis.
Hipótesis Nula y Alternativa
De las dos hipótesis que se contrastan, nula y alternativa, una y sólo una es verdadera.
La hipótesis nula obedece su nombre a que típicamente postula la “nulidad” del efecto de un
tratamiento sobre la variable de interés.  Por ejemplo, si se pusiera a prueba un nuevo tipo de
tratamiento para cierta patología, la hipótesis nula (H ) afirmaría que “el tratamiento no tiene
0

efecto”, “no produce cambios con respecto a los tratamientos anteriores” versus la hipótesis
alternativa (H ) que afirmaría que el tratamiento es eficaz para lograr mejoras en la salud. En ese tipo
1

de situaciones (que son las típicas pero no las únicas) la hipótesis del investigador está reflejada en la
alternativa.
Al finalizar una prueba de hipótesis se tomará una de dos decisiones posibles: Rechazar H , lo que
0

implica la aceptación de su hipótesis contraria H , o bien mantener H por no encontrarse suficiente


1 0

evidencia muestral a favor de H .1

El rol de estas hipótesis en el procedimiento no es simétrico. Como se verá, el método es


“conservador” de H ; la mantiene mientras no se encuentre suficiente evidencia muestral en su
0

contra.

Prueba de Hipótesis
La lógica.
Antes de afrontar la lógica de la prueba de hipótesis, recordemos que cada hipótesis, nula y
alternativa, afirman algo sobre la población. Si suponemos provisoriamente verdadera a una
de ellas; por ejemplo, H , tendremos (provisoriamente) información sobre la población de
0

donde proviene la muestra que vamos a examinar para tomar la decisión. A partir de ese
conocimiento (provisorio) sabremos qué resultados muéstrales son más o menos probables
utilizando la distribución de probabilidades de los estadísticos involucrados en el análisis.
Ejemplo.
Hipótesis sobre una Media
Supongamos que la variable X = Puntaje en el test de palabras y colores Stroop es una
variable tipificada en la población argentina según  la escala T; es decir con m = 50 y s = 10.
Se quiere probar que en la ciudad de Córdoba la media es superior a 50 (suponiendo que la
desviación estándar es la misma, s = 10). Entonces se desean contrastar las hipótesis:
H : m = 50
0

H : m > 50
1

Para tomar una decisión entre ambas, se seleccionará una muestra de 64 personas de la
ciudad de Córdoba, se calculará su media y, según lo que se observe, se mantendrá H o se 0

rechazará para aceptar la alternativa. 


  m es un valor desconocido sobre el que sólo hay hipótesis; dos hipótesis que se confrontan.
Sobre ese parámetro queremos hacer inferencias. Para ello extraeremos una muestra al azar
de la población y miraremos el valor de la media en la muestra: X, ya que ella es el
estimador de m.
Aún cuando fuera verdad que m = 50, cabe esperar que X no sea exactamente 50, ya que la
muestra no es lo mismo que la población, alguna diferencia entre X y m puede ocurrir por
azar. Pero si el valor de X fuera “mucho mayor” que 50, sospecharíamos que m no es 50 sino
mayor.

Entonces podemos interpretar que: Si los habitantes de la ciudad de Córdoba puntuaran en


el test de Stroop con una media de 50 y se sacara muestras aleatorias de 64 cordobeses, sólo
5 de cada 100 muestras podrían dar una media superior a 52.
Es decir, es improbable que al sacar una muestra de 64 personas su media sea mayor a 52 si
esa muestra proviene de una población donde la media es 50. 
Por tanto, si al extraer una muestra se observara una media mayor a 52, o habría
que pensar que se está en presencia de una de las 5 muestras entre 100 que podría darnos
un resultado así, o habría que pensar que si dio eso es porque la media de las personas de la
ciudad de Córdoba es superior a 50.
Entre pensar que ocurrió algo que sólo podía ocurrir 5 de cada 100 veces o pensar
que se partió de una hipótesis falsa, se opta por lo segundo y se rechaza H . 
0

En cambio, si en la muestra se observara un valor inferior a 52, aunque no sea 50;


por ejemplo 51, esa diferencia de un punto por encima de la media hipotética (50) se
atribuiría al error muestral, a lo que cabe esperar del muestreo por azar, y se dice que “no es
significativa”, no conduce al rechazo de H .
0

Nivel de Significación
Se designa con la letra a.
Nivel de significación a = P(rechazar H siendo H verdadera)
0 0

Para hablar con propiedad, no decir que a es “el error de tipo I” sino “la probabilidad de
cometer error de tipo I”.
El nivel de significación lo fija el investigador según cuánto esté dispuesto a arriesgarse en cuanto al
Error de Tipo I; cuanto más pequeño lo ponga, más se pondrá a cubierto de cometer este error. Por
eso será más “conservador de H ” y se necesitará más “evidencia muestral” para rechazarla. El valor
0

más habitual para a es 0,05; también se utilizan 0,10 ó 0,01.

Potencia de la Prueba

Es la probabilidad de detectar la falsedad de la H . Por tanto, tiene que ver con la


0

sensibilidad de la prueba de hipótesis para detectar cuando ésta es falsa.


Se designa con 1 – b porque con b se denota la probabilidad de error de tipo II, es decir, la
de mantener H cuando es falsa.
0

Potencia 1 – b  = P(rechazar H siendo H falsa).


0 0

Cuanto menor es a, mayor es b y, por tanto, menor es la potencia, porque se está pidiendo
más evidencia para rechazar H . En otras palabras, cuanto menor es el nivel de significación,
0

más conservadora es la prueba de hipótesis de la hipótesis nula.


A diferencia de a, la potencia no es un valor fijo sino que depende de cada situación; es una
función del verdadero valor del parámetro bajo la hipótesis alternativa.
En el ejemplo del test de Stroop, la potencia para detectar que m no es 50 si su verdadero
valor fuera 53, sería más alta que si su verdadero valor fuera 51. Cuanto más cercano esté el
valor del parámetro a lo que formula la hipótesis nula, más difícil será detectarlo con una
muestra o más grande debería ser la muestra para aumentar su sensibilidad.
Resumiendo, la potencia
disminuye cuanto menor es [Link] cuanto mayor es el tamaño de muestra.
aumenta cuanto más discrepa el verdadero valor del parámetro de lo que postula H . 0
El valor crítico es 56,71. Por tanto, 

Regla de decisión: Se rechazará H si y sólo si el valor observado de la media muestral es


0

inferior a 56,71.

Formulación de las hipótesis

 Las hipótesis se formulan “antes” de mirar los datos. 


Aunque en el enunciado de un ejercicio se tiene toda la información de entrada, en la
realidad el investigador primero se plantea las hipótesis y luego va a tomar la muestra;
luego “no fuerza” la formulación de las hipótesis a partir de los datos sino que las tiene
planteadas previamente.
Cuidado en la interpretación de la expresión 
“diferencia significativa”.
La expresión “diferencia significativa” se aplica al estadístico en relación al parámetro o
entre los estadísticos.
En nuestro ejemplo “significativa” era la diferencia entre el valor observado para la media
en una muestra: 56 (el valor del estadístico) y el valor de la media postulado en H : 60. Esa
0

diferencia de 4 centésimos resultaba “estadísticamente significativa” porque conducía al


rechazo de H y, por tanto, a admitir que el programa tendría efecto en la dirección
0
esperada; esto es, disminuyendo la media poblacional.
Sin embargo, de eso no se infiere que dicho efecto sea “importante o de gran interés”. No
quiere decir que se hayan encontrado evidencias de que la media poblacional fuera “mucho
menor que la histórica” de 60.
Diferencia Estadísticamente Significativa

Para que una diferencia estadísticamente significativa pueda interpretarse como relevante
en términos del problema planteado, debe acompañarse por una medida del “tamaño del
efecto”.

Tamaño del Efecto


d  DE COHEN  Y g  DE HEDGES PARA LOS
CONTRASTES DE HIPÓTESIS SOBRE MEDIAS

Tests Unilaterales
Cuando la prueba es unilateral (se rechaza a una sola cola), ¿por qué no se considera lo que podría
ocurrir en la otra cola?
En nuestro ejemplo estamos contrastamos que el programa no tiene efecto (H ) contra que
0

disminuye los tiempos de reacción. Por tanto, se está ignorando la posibilidad de que el
entrenamiento empeorara las cosas; es decir, que aumentara los tiempos de reacción.
La lógica de este proceder es que, en los tests unilaterales se busca dar evidencia a favor de H . En
1

este caso sería: “Si hay evidencia de que el programa mejora los tiempos de reacción, lo
implementaremos”.
Si hay evidencias de que el tiempo de reacción es inferior a 60, con más razón hay evidencias en
contra de cualquier valor postulado superior a 60. Entonces no sería necesario considerar la
situación de m > 60 en H .
0

Por tanto, en el contraste de H : m = 60   vs H : m < 60 está implícito el contraste H : m ≥ 60 vs H : m <


0 1   0 1

60 porque si se concluye que  m < 60, se rechaza que es igual y también se rechaza que es mayor a
60.
Valor p

De modo que podemos interpretar el valor p como

Por eso, si bien es equivalente tomar la decisión comparando “valor del estadístico vs valor
crítico” que comparando “valor p vs a”, el valor p es más informativo, ya que no sólo nos
indica si rechazamos o no H al nivel de riesgo elegido sino que nos dice cuál es el mínimo
0

riesgo que podríamos haber tomado en el sentido del error de tipo I.


De ahí que otros nombres que recibe el valor p en la bibliografía estadística es “nivel
justo de significación” o “nivel crítico de significación”. Lo más común, entre quienes aplican
la estadística es llamarlo “p-value” (pi-value) porque es como aparece en las salidas
computacionales de los softwares en inglés.
Pruebas (Tests) de Hipótesis:
Medias, Proporciones e Independencia
Caps. 12 y 13

Diversas Pruebas de Hipótesis


La lógica de todas las pruebas de hipótesis es la misma. Ahora veremos los aspectos particulares de
algunas de ellas.
Lo que cambia es el estadístico de prueba y su distribución de probabilidades bajo H0
dependiendo de sobre qué parámetros se formulan las hipótesis, los supuestos sobre las
variables que intervienen, el diseño de la experiencia y el tamaño de muestra.

Test sobre μ cuando σ es conocida


X = Variable sobre cuya población de valores se realizarán las inferencias.
Denotamos con  m = E(X) y s = DS(X); esto es, respectivamente, la media y la desviación estándar de
la población de todos los valores de X.
Supuestos: Se necesitará suponer que X se distribuye normalmente cuando el tamaño de muestra
sea pequeño (típicamente n < 30) para que se pueda conocer la distribución de probabilidades del
estadístico de prueba y hallar los valores críticos de la zona de rechazo o calcular el valor p.
Hipótesis
H:m=m
0 0

H : la que corresponda a cada problema (m < m ,   m > m   o   m ≠ m ).


1 0 0 0

El estadístico de prueba es X porque es el estimador del parámetro m sobre el cual se están


formulando las hipótesis.
Variable – Supuestos Planteo de las Hipótesis
1) Mencionar la/s variable/s de interés en la población respecto de la cual se desea hacer
inferencia estadística y explicitar los supuestos mínimos necesarios  (si los hubiere) para llevar a
cabo la prueba.
X = Puntaje en el ENT-r de los niños de 5 años de la ciudad de Sta. Fe.
Supuesto: σ = 6
2) Plantear las hipótesis por contrastar
H : m = 19
0 No difieren en promedio de la población española.
H : m ≠ 19
1 Difieren en promedio de la población española.
3) Elegir un nivel de significación
a = 0,10

También podría gustarte