Poblacion:
En estadística, una población es un conjunto de elementos o eventos similares que son de
interés para alguna pregunta o experimento. Una población estadística puede ser un grupo de
objetos existentes o una hipotética y potencialmente infinita grupo de objetos concebidos como
una generalización de la experiencia.
Formula:
Estos son: La población es el número completo de individuos con características afines que
conforman los posibles participantes de nuestro estudio. En la fórmula la población es
representada con la letra N. La muestra es la cantidad representativa de esa población y se
indica con la letra n.
Ejemplos:
Para estudiar cuál es el candidato presidencial por el cual votarán los peruanos en las próximas
elecciones, se toma una muestra de 3500 personas de todo el país. La pregunta es la siguiente,
¿por quién votará en las próximas elecciones presidenciales? Determine la población, muestra e
individuos.
En este caso, la población sería la población electoral del país, es decir, peruanos con derecho a
voto.
La muestra sería el conjunto de 3500 peruanos que forman parte de la población.
Un individuo sería cada uno de los peruanos con derecho a voto.
Muetras y sus tipos:
En estadística, una muestra es un subconjunto de casos o individuos de una población. En
diversas aplicaciones, interesa que una muestra sea representativa, y para ello debe escogerse
una técnica de muestra adecuada que produzca una muestra aleatoria adecuada. También es
un subconjunto de la población, y para ser representativa, debe tener las mismas características
de la población. Si se obtiene una muestra sesgada, su interés y utilidad son más limitados, en
función del grado de sesgos que presente.1
Tipos:
Muestra probabilística
El muestreo probabilístico es el tipo más utilizado durante las
investigaciones. En este, todos los elementos de la población o universo
tienen la posibilidad de ser parte de la muestra.
Dentro de la muestra probabilística podemos encontrar los siguientes
tipos de muestreo:
Muestreo aleatorio simple: método de selección más básico, en el
que cada sujeto posee un número de identificación y, mediante un
sorteo aleatorio, algunos son seleccionados para la muestra. Para
realizarla se debe conocer la cantidad de individuos que serán
necesarios para completar toda la muestra.
Muestreo sistemático: con este método se enumera la población a
trabajar y los investigadores se encargan de listar a cada individuo en
grupos de 10, de forma aleatoria. Luego se elige a uno de los primeros
de cada grupo al azar, formando de esta manera la muestra.
Muestreo estratificado: consiste en dividir a la población en estratos
o grupos que compartan características similares. Luego se seleccionan
proporcionalmente algunos individuos de cada grupo.
Muestreo por conglomerados: se da cuando la población ya se
encuentra dividida de forma natural en grupos, por lo que se
seleccionan individuos aleatoriamente de cada conglomerado para
conformar la muestra.
Muestra no probabilística
En la muestra no probabilística, los elementos se seleccionan a través
de procesos que no brindan, a todos los individuos de la población, la
misma posibilidad de ser elegidos para la muestra.
A su vez, este deriva en los siguientes tipos de muestreo:
Muestreo por cuotas: los investigadores forman la muestra
partiendo de determinadas características, con el fin de lograr la misma
distribución de características en la muestra que en la población. Por
ejemplo, si en una población hay 70% hombres y 30% mujeres, los
individuos de la muestra deberán estar distribuidos de la misma
manera.
Muestreo por conveniencia: aquí el investigador suele elegir a los
individuos de su muestra solo por su proximidad. Generalmente, el
investigador no reconoce esta muestra como una representación de
toda una población, sino que la realiza para conocer opiniones, datos e
información de manera rápida.
Muestreo por bola de nieve: se utiliza cuando el investigador
requiere que un sujeto de su muestra ayude a identificar a otro con las
mismas características y, a su vez, estos a otros, para formar la muestra
deseada.
Muestra discrecional: también conocida como muestreo por juicio o
criterio, se da cuando el investigador selecciona los individuos de su
muestra en base a determinado conocimiento de la población. Por
ejemplo, si desea realizar una investigación de personas con problemas
psicológicos en el embarazo, seleccionará aquellas mujeres que hayan
pasado por la experiencia del embarazo.
Formula:
En donde:
n = es el tamaño de la muestra poblacional a obtener.
N = es el tamaño de la población total.
σ = representa la desviación estándar de la población. En caso de
desconocer este dato es común utilizar un valor constate que equivale a
0.5
Z = es el valor obtenido mediante niveles de confianza. Su valor es una
constante, por lo general se tienen dos valores dependiendo el grado de
confianza que se desee siendo 99% el valor más alto (este valor equivale
a 2.58) y 95% (1.96) el valor mínimo aceptado para considerar la
investigación como confiable.
e = representa el límite aceptable de error muestral, generalmente va
del 1% (0.01) al 9% (0.09), siendo 5% (0.5) el valor estándar usado en
las investigaciones.
Ejemplos:
Para estimar la proporción de habitantes de una ciudad que poseen
ordenador personal se toma una muestra de tamaño n. Calcula el valor
mínimo de n para garantizar, con un nivel de confianza del 95 %, que el
error de estimación no supera el 2 %. (Como se desconoce la
proporción, se hará a partir del caso más desfavorable, que será 0,5).
Punto muestral:
Punto Muestral Es cada uno de los resultados de un espacio muestral.
En los ejemplos anteriores podemos decir que: En un Dado, 1 ó 2 ó 3 ó 4
ó 5 ó 6 es cada uno de los puntos muestrales al lanzar un dado. En una
moneda, “cara” ó “sello” es cada uno de los puntos muestrales al lanzar
una moneda.
Formula:
Ejemplos:
Por ejemplo:
S ={x|x es una ciudad de más de un millón de habitantes}.
que se lee “S es el conjunto de todas las x tales que x es una ciudad
con más de un millón de habitantes”. La raya vertical se lee “tal
que”. De manera similar, si S es el conjunto de todos los puntos (x,y) que
se encuentran en el límite o en el interior de un círculo de radio igual a 2
y centro en el origen, se expresa:}
S = {(x,y)|x2 + y2 ≤4 }.
El que se describa el espacio muestral a través de una regla o
listando sus elementos dependerá del problema específico que se
esté manejando. Establecer una regla tiene ventajas prácticas, sobre
todo en los muy abundantes experimentos en los que un listado se
convierte en una tarea bastante tediosa.
TamaÑo de la musetras:
El tamaño de la muestra de una muestra estadística es el número de
observaciones que la componen. El tamaño de la muestra normalmente
es representado por "n" y siempre es un número entero positivo. No se
puede hablar de ningún tamaño exacto de la muestra, ya que puede
variar dependiendiendo de los diferentes marcos de investigación.
Formula:
La fórmula se ve así: Tamaño de la muestra = N / (1 + N*e2) N = tamaño
de la población de estudio e = margen de error
Ejemplos:
Tipos de muestreos:
Tipos de muestreo aleatorio o probabilístico
Hablamos de muestreo aleatorio en los casos en que todos los sujetos
que forman parte de una población tienen la misma probabilidad de ser
escogidos como parte de la muestra. Los muestreos de esta clase son
más populares y útiles que los no aleatorios, principalmente porque
tienen una elevada representatividad y permiten calcular el error de la
muestra.
1. Muestreo aleatorio simple
En este tipo de muestreo las variables relevantes de la muestra tienen la
misma función de probabilidad y son independientes entre ellas. La
población tiene que ser infinita o bien finita con reposición de
elementos. El muestreo aleatorio simple es el que más se utiliza en la
estadística inferencial, pero es menos eficaz en muestras muy grandes.
2. Estratificado
El muestreo aleatorio estratificado consiste en dividir la población en
estratos; un ejemplo de esto sería estudiar la relación entre el grado de
satisfacción vital y el nivel socioeconómico. A continuación se extrae un
número determinado de sujetos de cada uno de los estratos por tal de
mantener la proporción de la población de referencia.
3. De conglomerados
En estadística inferencial los conglomerados son conjuntos de
elementos poblacionales, como pueden ser las escuelas o los centros
hospitalarios públicos de un municipio. Al llevar a cabo este tipo de
muestreo se divide la población (en los ejemplos, una localidad
concreta) en varios conglomerados y se elige de forma aleatoria
algunos de ellos para estudiarlos.
4. Sistemático
En este caso se empieza dividiendo el número total de sujetos u
observaciones que conforman la población entre el que se quiere utilizar
para la muestra. Posteriormente se escoge un número al azar de entre
los primeros y se va sumando de forma constante este mismo valor; los
elementos seleccionados pasarán a formar parte de la muestra.
Muestreos no aleatorios o no probabilísticos
Los muestreos no probabilísticos utilizan criterios con un bajo nivel de
sistematización que procuran asegurar que la muestra tenga un cierto
grado de representatividad. Este tipo de muestreos se emplean
principalmente cuando no es posible llevar a cabo otros de tipo
aleatorio, lo cual es muy habitual a causa del elevado coste de los
procedimientos de control.
1. Intencional, opinático o de conveniencia
En el muestreo intencional el investigador escoge de forma voluntaria
los elementos que conformarán la muestra, dando por supuesto que
esta será representativa de la población de referencia. Un ejemplo que
resultará familiar a los estudiantes de psicología es la utilización de
alumnos como muestra opinática por parte de profesores universitarios.
2. Muestreo de bola de nieve o en cadena
En este tipo de muestreo los investigadores establecen contacto con
sujetos determinados; a continuación estos consiguen a nuevos
participantes para la muestra hasta completarla. El muestreo de bola
de nieve se usa generalmente cuando se trabaja con poblaciones de
difícil acceso, como en el caso de adictos a sustancias o de miembros de
culturas minoritarias.
3. Muestreo por cuotas o accidental
Hablamos de muestreo por cuotas cuando los investigadores escogen
un número concreto de sujetos que cumplan unas características
determinadas (p. e. mujeres españolas de más de 65 años con deterioro
cognitivo severo) a partir de su conocimiento sobre los estratos de la
población. El muestreo accidental se usa con frecuencia en las
encuestas.
Media aritmetica, geometrica y armonica:
La media geométrica
En matemáticas y estadística, la media aritmética, también llamada
promedio o media, de un conjunto finito de números es el valor
característico de una serie de datos cuantitativos, objeto de estudio que
parte del principio de la esperanza matemática o valor esperado, se
obtiene a partir de la suma de todos sus valores dividida entre el
número de sumandos. Cuando el conjunto es una muestra aleatoria,
recibe el nombre de media muestral, siendo uno de los principales
estadísticos muestrales . La media aritmética se obtiene al sumar todos
los datos que tenemos y dividir el resultado entre el número total de
esos dato.
Formula:
Dados los n números la media aritmética se define como:
Por ejemplo, la media aritmética de 8, 5 y -1 es igual a:
Se utiliza la letra x con una barra horizontal sobre el símbolo para
representar la media de una muestra (x ), mientras que la letra µ (mu)
se usa para la media aritmética de una población, es decir, el valor
esperado de una variable.
En otras palabras, es la suma de n valores de la variable y luego
dividido entre n, donde n es el número de sumandos, o en el caso de
estadística el número de datos que da el resultado.
Ejemplos
Considere los siguientes datos: 3, 8, 4, 10, 6, 2 y calcule los siguientes
incisos:
a) Calcular su media.
b) Si los todos los datos anteriores los multiplicamos por 3 . ¿Cuál será
la nueva media?.
observamos que si todos los valores de la variable se multiplican por la
media aritmética queda multiplicada por 3 .
Entonces, es posible representar la propiedad que acabamos de ver en
la siguiente fórmula
con una constante.
La media geométrica
En matemáticas y estadística, la media geométrica de una cantidad
arbitraria de números (por decir n números) es la raíz n-ésima del
producto de todos los números; es recomendada para datos de
progresión geométrica, para promediar razones, interés compuesto y
números índice.
Formula:
Por ejemplo, la media geométrica de 2 y 18 es la raíz cuadrada del
producto de ambos
Otro ejemplo, la media geométrica de 1, 3 y 9 sería la raíz cúbica del
producto de los tres números
Ejemplos:
Se estima que la zona metropolitana de los Angeles - Long Beach, en
California mostrará el mayor aumento en el número de empleos entre
los años 1989 y 2010. Es de esperar que el número de empleos aumente
de 5164900 hasta 6286800. Cuál es la tasa de incremento anual media
geométrica esperada?
La Empresa Wells Fargo Mortgage & Equity Trust expresó las siguientes
tasas de ocupación para algunas de sus propiedades de ingreso
industrial. Cuál es el valor medio geométrico de la tasa de ocupación?
La media armónica
La media armónica (designada usualmente mediante H) de una
cantidad finita de números es igual al recíproco, o inverso, de la media
aritmética de los recíprocos de dichos valores y es recomendada para
promediar velocidades.
La media armónica se utiliza para calcular la media de un conjunto
de números. Aquí el número de elementos será promediado y divido
entre las suma de los recíprocos de los elementos. La media armónica
siempre es la media más baja.
Formula:
Media armónica fórmula :
Media armónica = N/(1/a1+1/a2+1/a3+1/a4+.......+1/aN)
donde
X = La puntuación individual
N = Tamaño de la muestra (Número de resultados)
Ejemplos:
Para encontrar la media armónica de la 1,2,3,4,5.
Paso 1: Calcula el número total de valores.
N=5
Paso 2: Ahora determina la media armónica utilizando la fórmula de
arriba.
N/(1/a1+1/a2+1/a3+1/a4+.......+1/aN)
= 5/(1/1+1/2+1/3+1/4+1/5)
= 5/(1+0.5+0.33+0.25+0.2)
= 5/2.28
Tan, Media armónica = 2.19
Moda y mediana:
la moda
En la estadística, la moda es el valor con mayor frecuencia en una de las
distribuciones de datos. Esto va en forma de una columna cuando
encontremos dos modas, es decir, dos datos que tengan la misma
frecuencia absoluta máxima. Una distribución trimodal de los datos es
en la que encontramos tres modas. En el caso de la distribución
uniforme discreta, cuando todos los datos tienen la misma frecuencia,
se puede definir las modas como indicado, pero estos valores no tienen
utilidad. Por eso algunos matemáticos califican esta distribución como
«sin moda».
El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos
con datos agrupados antes de definir la moda, se ha de definir el
intervalo modal.
Formula:
La moda, cuando los datos están agrupados, es un punto que divide al
intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud
del intervalo, que verifiquen que:
Siendo la frecuencia absoluta del intervalo de la moda las frecuencias
absolutas de los intervalos anterior y posterior, respectivamente, al
intervalo modal.
Ejemplos:
Un pediatra obtuvo la siguiente tabla, sobre los meses de edad de 50
niños de su consulta en el momento de andar por primera vez:
Meses
Meses Niños
9 1
10 4
11 9
12 16
13 11
14 8
15 1
Calcular la moda.
Solución:
Miramos en la columna de niños y la frecuencia absoluta mayor que es
16 corresponde a la edad de 12 meses. Así, la moda(M 0) en este caso
es: M 0 = 12
la mediana
En el ámbito de la estadística, la mediana (del latín mediānus 'del
medio'1) representa el valor de la variable de posición central en un
conjunto de datos ordenados. Se le denota mediana.
Formula:
a mediana se encuentra en el intervalo donde la frecuencia acumulada
llega hasta la mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre.
es el límite inferior de la clase donde se encuentra la mediana
es la semisuma de las frecuencias absolutas
es la frecuencia absoluta de la clase mediana
es la frecuencia acumulada anterior a la clase mediana
es la amplitud de la clase
La mediana es independiente de las amplitudes de los intervalos.
Ejemplos:
Hallar la mediana de la siguientes series de números:
3, 5, 2, 6, 5, 9, 5, 2, 8
En primer lugar ordenamos de menor a mayor
2, 2, 3, 5, 5, 5, 6, 8, 9
Como la serie tiene un número impar de medidas la mediana es la
puntuación central de la misma
Ordenamos de menor a mayor
Como la serie tiene un número par de puntuaciones la mediana es la
media entre las dos puntuaciones centrales
Desviacion tipica y estandard:
la desviación típica
En estadística, la desviación típica (también conocida como desviación
estándar y desvío típico y representada de manera abreviada por la
letra griega minúscula sigma σ o la letra latina s, así como por las siglas
SD (de standard deviation, en algunos textos traducidos del inglés)) es
una medida que se utiliza para cuantificar la variación o la dispersión de
un conjunto de datos numéricos.1
Una desviación estándar baja indica que la mayor parte de los datos de
una muestra tienden a estar agrupados cerca de su media (también
denominada el valor esperado), mientras que una desviación estándar
alta indica que los datos se extienden sobre un rango de valores más
amplio.
Formula:
La primera es elevando al cuadrado las desviaciones, dividir entre el
número total de observaciones y por último hacer la raíz cuadrada para
deshacer el elevado al cuadrado, tal que
Ejemplos:
Hallar la desviación media, la varianza y la desviación típica de la series
de números siguientes:
1)
Media aritmética
Desviación media
Varianza
Desviación típica
2)
Media aritmética
Desviación media
Varianza
Desviación típica
La desviación estándar
Es la medida de dispersión más común, que indica qué tan dispersos
están los datos con respecto a la media. Mientras mayor sea la
desviación estándar, mayor será la dispersión de los datos.
El símbolo σ (sigma) se utiliza frecuentemente para representar la
desviación estándar de una población, mientras que s se utiliza para
representar la desviación estándar de una muestra. La variación que es
aleatoria o natural de un proceso se conoce comúnmente como ruido.
La desviación estándar se puede utilizar para establecer un valor de
referencia para estimar la variación general de un proceso.
Formula:
1. Calcula la Media (el promedio simple de los números)
2. Luego, para cada número: resta la media y eleva al cuadrado el
resultado
3. Luego calcula la media de esas diferencias al cuadrado.
4. Toma la raíz cuadrada de eso y ¡listo!
Ejemplos:
Calcular la desviación estándar de las siguientes puntuaciones de un
jugador de baloncesto en los últimos partidos:
Puntuaciones: 18, 20, 20, 22, 20, 20
Calculamos la media aritmética ( ):
Número de valores: 6
Media Aritmética = (18 + 20 + 20 + 22 + 20 + 20) / 6 = 120 / 6 = 20
Calculamos la Desviación Estándar:
σ2 = [(18-20)2 + (20-20)2 + (20-20)2 + (22-20)2 + (20-20)2 + (20-20)2] /
6 = 16 / 6 = 8 /3 = 2,67
Desviación estándar: σ = √ 2,67 = 1,63
Varianza:
En teoría de probabilidad, la varianza o variancia (que suele
representarse como σ2) de una variable aleatoria es una medida de
dispersión definida como la esperanza del cuadrado de la desviación de
dicha variable respecto a su media. Su unidad de medida corresponde al
cuadrado de la unidad de medida de la variable: por ejemplo, si la
variable mide una distancia en metros, la varianza se expresa en metros
al cuadrado. La varianza tiene como valor mínimo 0. La desviación
estándar (raíz cuadrada positiva de la varianza) es una medida de
dispersión alternativa, expresada en las mismas unidades que los datos
de la variable objeto de estudio.
Hay que tener en cuenta que la varianza puede verse muy influida por
los valores atípicos y no se aconseja su uso cuando las distribuciones de
las variables aleatorias tienen colas pesadas. En tales casos se
recomienda el uso de otras medidas de dispersión más robustas.
El término varianza fue acuñado por Ronald Fisher en un artículo
publicado en enero de 1919 con el título The Correlation Between
Relatives on the Supposition of Mendelian Inheritance.
Formula:
sea una variable aleatoria con media se define la varianza
de la variable aleatoria , denotada por o simplemente como:
Desarrollando la definición anterior, se obtiene la siguiente definición
alternativa (y equivalente):
Si una distribución no tiene esperanza, como ocurre con la de Cauchy,
tampoco tiene varianza. Existen otras distribuciones que, aun teniendo
esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto
cuando su índice satisface
Caso continuo
Si la variable aleatoria es continua con función de densidad
entonces
donde
y las integrales están definidas sobre el rango de la variable aleatoria ,
es decir, .
Caso discreto
Si la variable aleatoria es discreta con función de probabilidad
entonces
donde
Ejemplos:
¿Cuántos números de cinco cifras se pueden formar con los números 1,
2, 3?
Primero notemos que se nos pide formar un número con cinco cifras
donde cada cifra solo puede tomar tres valores, esto es , así que
asumimos repetición, ya que de no asumir que los elementos pueden
repetirse tendríamos a lo más números con 3 cifras. También, notemos
que se cumplen las condiciones.
· Entran todos los elementos.
· Sí importa el orden. No es lo mismo 121 que 211.
· Sí se repiten los elementos. Es fácil deducirlo.
Así, tenemos variaciones con repetición de 3 elementos tomando 5,
esto es , , así, la cantidad de números que se pueden formar
está dada por:
Probabilidad y tipos de probabilidades:
La probabilidad asociada a un suceso o evento aleatorio es una medida
del grado de certidumbre de que dicho suceso pueda ocurrir. Se suele
expresar como un número entre 0 y 1, donde un suceso imposible tiene
probabilidad cero y un suceso seguro tiene probabilidad uno.
Una forma empírica de estimar probabilidades consiste en obtener la
frecuencia con la que sucede un determinado acontecimiento mediante
la repetición de experimentos aleatorios, bajo condiciones
suficientemente estables. En algunos experimentos de los que se
conocen todos los resultados posibles, las probabilidades de estos
sucesos pueden ser calculadas de manera teórica, especialmente
cuando todos son igualmente probables.
La teoría de la probabilidad es la rama de las matemáticas que estudia
los experimentos o fenómenos aleatorios.
Formula:
El cálculo de las probabilidades se lleva a cabo según la fórmula
siguiente:
Probabilidad = Casos favorables / casos posibles x 100 (para llevarlo a
porcentaje)
Así, por ejemplo, podemos calcular la probabilidad de que una moneda
salga cara en un único lanzamiento, pensando que sólo puede salir una
cara (1) de las dos que hay (2), esto es, 1 / 2 x 100 = 50% de
probabilidad.
En cambio, si decidimos calcular cuántas veces saldrá la misma cara en
dos lanzamientos seguidos, deberemos pensar que el caso favorable
(cara y cara o sello y sello) es uno entre cuatro posibilidades de
resultado (cara y cara, cara y sello, sello y cara, sello y sello). Por ende,
1 / 4 x 100 = 25% de probabilidad.
Ejemplos:
La moneda de México, tiene 2 caras: águila y sello. ¿Cuál es la
probabilidad de obtener águila al lanzar una moneda?
Solución:
Primero calculamos el número total de casos posibles que se dan al
lanzar la moneda. En este problema, son 2 casos posibles, se obtiene
águila o se obtiene sello.
Ahora, calculamos el número de casos favorables. Si lanzamos la
moneda, tenemos 1 caso de águila. Por lo tanto, la probabilidad de
obtener águila sería:
Podemos colocar como respuesta: 0,5 o 50%.
Tipos de probabilidad
Existen los siguientes tipos de probabilidad:
Frecuencial. Aquella que determina la cantidad de veces que un
fenómeno puede ocurrir, considerando un número determinado de
oportunidades, a través de la experimentación.
1. Matemática. Pertenece al ámbito de la aritmética, y aspira al
cálculo en cifras de la probabilidad de que determinados eventos
aleatorios tengan lugar, a partir de la lógica formal y no de su
experimentación.
2. Binomial. Aquella en la que se estudia el éxito o fracaso de un
evento, o cualquier otro tipo de escenario probable que tenga dos
posibles resultados únicamente.
3. Objetiva. Se denomina así a toda probabilidad en la que
conocemos de antemano la frecuencia de un evento, y
simplemente se dan a conocer los casos probables de que ocurra
dicho evento.
Subjetiva. Contrapuesta a la matemática, se sustenta en ciertas
eventualidades que permiten inferir la probabilidad de un evento,
aunque alejada de una probabilidad certera o calculable. De allí su
subjetividad.
4. Hipergeométrica. Aquella que se obtiene gracias a técnicas de
muestreo, creando grupos de eventos según su aparición.
5. Lógica. La que posee como rasgo característico que establece la
posibilidad de ocurrencia de un hecho a partir de las leyes de la
lógica inductiva.
6. Condicionada. Aquella que se emplea para comprender la
causalidad entre dos hechos distintos, cuando puede determinarse
la ocurrencia de uno tras la ocurrencia del otro.
Distribuncion de probabilidades:
La distribución normal suele conocerse como la «campana de Gauss».
En teoría de la probabilidad y estadística, la distribución de probabilidad
de una variable aleatoria es una función que asigna a cada suceso
definido sobre la variable la probabilidad de que dicho suceso ocurra. La
distribución de probabilidad está definida sobre el conjunto de todos los
sucesos y cada uno de los sucesos es el rango de valores de la variable
aleatoria. También puede decirse que tiene una relación estrecha con
las distribuciones de frecuencia. De hecho, una distribución de
probabilidades puede comprenderse como una frecuencia teórica, ya
que describe cómo se espera que varíen los resultados.
La distribución de probabilidad está completamente especificada por la
función de distribución, cuyo valor en cada x real es la probabilidad de
que la variable aleatoria sea menor o igual que x.
Formula:
Notación
Término Description
α parámetro de forma 1
β parámetro de forma 2
Γ función gamma
a límite inferior
b límite superior
Cuando a = 0, b = 1,
Ejemplos:
Si una persona compra una papeleta en una rifa, en la que puede ganar
de 5000 € ó un segundo premio de 2000 € con probabilidades de:
0.001 y 0.003 . ¿Cuál sería el precio justo a pagar por la papeleta?
Si una persona compra una papeleta en una rifa, en la que puede ganar
de 5000 € ó un segundo premio de 2000 € con probabilidades de: 0.001
y 0.003 . ¿Cuál sería el precio justo a pagar por la papeleta?
Sesgos:
En estadística se llama sesgo de un estimador a la diferencia entre su
esperanza matemática y el valor numérico del parámetro que estima.
Un estimador cuyo sesgo es nulo se llama insesgado o centrado. En
notación matemática, dada una muestra x₁,…,xₙ y un estimador T(x₁,
…,xₙ) del parámetro poblacional θ, el sesgo es: El no tener sesgo es una
propiedad deseable de los estimadores. Una propiedad relacionada con
esta es la de la consistencia: un estimador puede tener un sesgo pero el
tamaño de este converge a cero conforme crece el tamaño muestral.
Formula:
Notación
Término Description
zi,j jésima medición de la iésima parte
refi valor de referencia de la iésima parte
mi número de réplicas de la iésima parte
Ejemplos:
Ejercicio 4 Para cada una de las leyes siguientes ( ):
Leyes binomiales
Leyes geométricas
Leyes de Poisson
Leyes hipergeométricas
Leyes binomiales negativas
Representar gráficamente la función de distribución y la función cuantil
de .
7. Determinar el conjunto de los pares de números enteros
tales que la probabilidad del intervalo para la ley sea
superior o igual a .
8. Entre estos intervalos determinar aquel cuya longitud sea la más
pequeña y la probabilidad sea la más alta.
9. Entre estos intervalos determinar aquel cuya longitud sea la más
pequeña y la probabilidad sea la más alta.
Estimacion puntual y por intervalo:
La estimación puntual consiste en encontrar un valor para , denotado
por , que sea función de la muestra aleatoria y que permita modelar o
describir de manera adecuada el fenómeno aleatorio. En otras
palabras, sea una variable poblacional con densidad , siendo
desconocido, el problema consiste en, seleccionada una muestra
aleatoria encontrar el estadístico que mejor
estime el parámetro , este estadístico se denotará por .
Por ejemplo, si se pretende estimar la talla media de un determinado
grupo de individuos, puede extraerse una muestra y ofrecer como
estimación puntual la talla media de los individuos.
Formula:
La media muestral que sirve como estimación puntual de la media
poblacional.
La desviación típica muestral que sirve de estimación para ldesviación
típica de la población.
Ejemplos:
Si decimos que la estimación del porcentaje de voto de un determinado
partido es del 37 %, estaremos realizando una estimación puntual.
Si decimos que la estimación de porcentaje de voto de dicho partido se
encuentra entre el 32 % y el 45 % con un nivel de confianza del 95 %,
estaremos considerando una estimación por intervalos de confianza.
Estimación puntual.
Media muestral.
Dada una muestra { x1, x2, ... , xn } de una población que sigue una
distribución normal de media μ desconocida, un estimador puntual para
la media poblacional μ es la media muestral.
Hipotesisi nula, alternativa:
En estadística, una hipótesis es una afirmación sobre un parámetro que
sucede de la población (como la media o desviación típica), y se
representa con H₀. Es un punto de partida para la investigación que no
se rechaza a menos que los datos de la muestra parezcan evidenciar
que es falsa (es decir, que sí hay una relación entre los parámetros o
fenómenos). Técnicamente, la hipótesis nula es una aplicación a la
estadística del método de reducción al absurdo, por el cual se supone,
en principio, lo contrario de lo que se desea probar, hasta que los datos
y pruebas obtenidas demuestran que el punto de partida era falso o
absurdo y, por tanto, se rechaza. De esa forma, se demuestra lo que se
quería probar. Dado que la hipótesis nula tiene la forma lógica de un
enunciado universal, para afirmar que la hipótesis nula es verdadera se
requiere estudiar a toda la población. La hipótesis nula generalmente
incluye un no en su enunciado.
Formula:
se quiere demostrar que una batería dura más (o menos) de seis horas,
la hipótesis nula será:
H0: La duración promedio de una batería no es diferente de seis horas.
Es decir, no hay relación entre la duración de la batería y el parámetro
matemático: μ=6 horas. La hipótesis alternativa (a probar) es H1: La
duración promedio de la batería es diferente de 6 horas.
Hipótesis nula para la distribución χ²:
«Si este material genético segrega en proporciones mendelianas, no
habrá diferencias entre las frecuencias observadas (Oi) y las frecuencias
esperadas (Ei)».
Hipótesis nula para la distribución t de Student:
«Si la humedad no influye sobre el número de huevos por desove, no
habrá diferencias entre las medias de esta variable para cada región».
Ejemplos:
¿A nadie le gusta leer libros?
H1: Ninguna persona hoy en día lee libros porque lo consideran
aburrido y poco interesante.
H0: En realidad pudimos demostrar lo contrario a esto, viendo que hoy
en día más personas están leyendo libros gracias a las nuevas
plataformas online de paga. Donde los pueden disfrutar aun más que
en físico.
¿Todos los perros muerden?
H1: En esta hipótesis propongo la teoría de que la mayoría de los perros
muerden, pero en realidad es algo muy refutable.
H2:Realmente no todos los perros muerden, y si lo hacen es porque
están intentando protegerse de algo o alguien.
Hipotesis alternativa:
En estadística, una hipótesis es una afirmación sobre un parámetro que
sucede de la población (como la media o desviación típica), y se
representa con H₀. Es un punto de partida para la investigación que no
se rechaza a menos que los datos de la muestra parezcan evidenciar
que es falsa (es decir, que sí hay una relación entre los parámetros o
fenómenos). Técnicamente, la hipótesis nula es una aplicación a la
estadística del método de reducción al absurdo, por el cual se supone,
en principio, lo contrario de lo que se desea probar, hasta que los datos
y pruebas obtenidas demuestran que el punto de partida era falso o
absurdo y, por tanto, se rechaza. De esa forma, se demuestra lo que se
quería probar. Dado que la hipótesis nula tiene la forma lógica de un
enunciado universal, para afirmar que la hipótesis nula es verdadera se
requiere estudiar a toda la población. La hipótesis nula generalmente
incluye un no en su enunciado.
Formula:
(H 0: μ = 850 vs. H 1: μ > 850)
Ejemplos:
Una empresa está interesada en lanzar un nuevo producto al mercado.
Tras realizar una campaña publicitaria, se toma la muestra de 1 000
habitantes, de los cuales, 25 no conocían el producto. A un nivel de
significación del 1% ¿apoya el estudio las siguientes hipótesis?
a. Más del 3% de la población no conoce el nuevo producto.
b. Menos del 2% de la población no conoce el nuevo producto
Datos:
n = 1000
x = 25
Donde:
x = ocurrencias
n = observaciones
= proporción de la muestra
= proporción propuesta
Solución:
a)
a = 0,01
H0 es aceptada, ya que zprueba (-0,93) es menor que ztabla (2,326),
por lo que no es cierto que más del 3% de la población no conoce el
nuevo producto
b)
a = 0,01
H0 es rechazada, ya que zprueba (1,13) es menor que ztabla (2,326),
por lo que es cierto que menos del 2% de la población no conoce el
nuevo producto.
Erores tipo 1 y 2:
Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error
de tipo I. La probabilidad de cometer un error de tipo I es α, que es el
nivel de significancia que usted establece para su prueba de hipótesis.
Un α de 0.05 indica que usted está dispuesto a aceptar una
probabilidad de 5% de estar equivocado al rechazar la hipótesis nula.
Para reducir este riesgo, debe utilizar un valor menor para α. Sin
embargo, usar un valor menor para alfa significa que usted tendrá
menos probabilidad de detectar una diferencia si esta realmente existe.
Formula:
Para entender la interrelación entre los errores de tipo I y tipo II, y para
determinar cuál error tiene consecuencias más graves para su situación,
considere el siguiente ejemplo.
Un investigador médico desea comparar la efectividad de dos
medicamentos. Las hipótesis nula y alternativa son:
Hipótesis nula (H0): μ1= μ2
Los dos medicamentos tienen la misma eficacia.
Hipótesis alternativa (H1): μ1≠ μ2
Los dos medicamentos no tienen la misma eficacia.
Un error de tipo I se produce si el investigador rechaza la hipótesis
nula y concluye que los dos medicamentos son diferentes cuando, en
realidad, no lo son. Si los medicamentos tienen la misma eficacia, el
investigador podría considerar que este error no es muy grave,
porque de todos modos los pacientes se beneficiarían con el mismo
nivel de eficacia independientemente del medicamento que tomen.
Sin embargo, si se produce un error de tipo II, el investigador no
rechaza la hipótesis nula cuando debe rechazarla. Es decir, el
investigador concluye que los medicamentos son iguales cuando en
realidad son diferentes. Este error puede poner en riesgo la vida de
los pacientes si se pone en venta el medicamento menos efectivo en
lugar del medicamento más efectivo.
Cuando realice las pruebas de hipótesis, considere los riesgos de
cometer errores de tipo I y tipo II. Si las consecuencias de cometer
un tipo de error son más graves o costosas que cometer el otro tipo
de error, entonces elija un nivel de significancia y una potencia para
la prueba que reflejen la gravedad relativa de esas consecuencias.
Ejemplos
Error tipo I: rechazar Ho siendo verdadera.
Error tipo II: rechazar H1 siendo verdadera.
Se ha comprobado que el tiempo de espera ( en minutos ) hasta ser
atendido, en cierto servicio de urgencias, sigue un modelo normal de
probabilidad.
A partir de una muestra de 100 personas que fueron atendidas en
dicho servicio, se ha calculado un tiempo medio de espera de 14,25
minutos y una desviación típica de 2,5 minutos.
¿Podríamos afirmar, con un nivel de significación del 5 % que el tiempo
medio de espera, en este servicio de urgencias, no es de 15 minutos?
1. Se formula la hipótesis nula H0 y la hipótesis alternativa H1.
Hipótesis nula : H0 : μ = 15
Hipótesis alternativa : H1 : μ ≠ 15
Puesto que nuestra hipótesis nula está formulada en forma de
igualdad, tenemos un contraste bilateral.
2. Identificamos la distribución de probabilidad y el tamaño de la
muestra.
Por el enunciado sabemos que la población sigue una distribución
normal. Tomamos una muestra de tamaño n = 100 con una media μ
= 14,25 y desviación típìca σ = 2,5. La muestra se distribuye :
3. Construimos las regiones de aceptación y rechazo.
Construimos nuestra región de aceptación a partir de un nivel de
significación α = 0,05. Como es un contraste bilateral, emplearemos
zα/2 :
Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error
de tipo II. La probabilidad de cometer un error de tipo II es β, que
depende de la potencia de la prueba. Puede reducir el riesgo de cometer
un error de tipo II al asegurarse de que la prueba tenga suficiente
potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo
suficientemente grande como para detectar una diferencia práctica
cuando esta realmente exista.
Formula:
Para entender la interrelación entre los errores de tipo I y tipo II, y para
determinar cuál error tiene consecuencias más graves para su situación,
considere el siguiente ejemplo.
Un investigador médico desea comparar la efectividad de dos
medicamentos. Las hipótesis nula y alternativa son:
Hipótesis nula (H0): μ1= μ2
Los dos medicamentos tienen la misma eficacia.
Hipótesis alternativa (H1): μ1≠ μ2
Los dos medicamentos no tienen la misma eficacia.
Un error de tipo I se produce si el investigador rechaza la hipótesis
nula y concluye que los dos medicamentos son diferentes cuando, en
realidad, no lo son. Si los medicamentos tienen la misma eficacia, el
investigador podría considerar que este error no es muy grave,
porque de todos modos los pacientes se beneficiarían con el mismo
nivel de eficacia independientemente del medicamento que tomen.
Sin embargo, si se produce un error de tipo II, el investigador no
rechaza la hipótesis nula cuando debe rechazarla. Es decir, el
investigador concluye que los medicamentos son iguales cuando en
realidad son diferentes. Este error puede poner en riesgo la vida de
los pacientes si se pone en venta el medicamento menos efectivo en
lugar del medicamento más efectivo.
Cuando realice las pruebas de hipótesis, considere los riesgos de
cometer errores de tipo I y tipo II. Si las consecuencias de cometer
un tipo de error son más graves o costosas que cometer el otro tipo
de error, entonces elija un nivel de significancia y una potencia para
la prueba que reflejen la gravedad relativa de esas consecuencias.
Ejemplos:
Error tipo I: rechazar Ho siendo verdadera.
Error tipo II: rechazar H1 siendo verdadera.
Se ha comprobado que el tiempo de espera ( en minutos ) hasta ser
atendido, en cierto servicio de urgencias, sigue un modelo normal de
probabilidad.
A partir de una muestra de 100 personas que fueron atendidas en
dicho servicio, se ha calculado un tiempo medio de espera de 14,25
minutos y una desviación típica de 2,5 minutos.
¿Podríamos afirmar, con un nivel de significación del 5 % que el tiempo
medio de espera, en este servicio de urgencias, no es de 15 minutos?
1. Se formula la hipótesis nula H0 y la hipótesis alternativa H1.
Hipótesis nula : H0 : μ = 15
Hipótesis alternativa : H1 : μ ≠ 15
Puesto que nuestra hipótesis nula está formulada en forma de
igualdad, tenemos un contraste bilateral.
2. Identificamos la distribución de probabilidad y el tamaño de la
muestra.
Por el enunciado sabemos que la población sigue una distribución
normal. Tomamos una muestra de tamaño n = 100 con una media μ
= 14,25 y desviación típìca σ = 2,5. La muestra se distribuye :
3. Construimos las regiones de aceptación y rechazo.
Construimos nuestra región de aceptación a partir de un nivel de
significación α = 0,05. Como es un contraste bilateral,
emplearemos zα/2 :
4. Calcular el estadistíco de contraste y verificar la hipótesis.
Nuestro estadístico de contraste es el tiempo de media de espera en
urgencias, μ = 14,25.
En este caso, 14,25 ∉ ( 14,51 ; 15,49 ).
Nuestro estadístico de contraste no pertenece a la región de
aceptación.
5. Interpretación de la decisión.
Como nuestro estadístico de contraste no pertenece a la región de
aceptación, rechazamos la hipótesis nula.
Por lo tanto, no podemos afirmar que el tiempo medio de espera sea
de 15 minutos.
Hemos rechazado la hipótesis nula por no poder afirmar que el
tiempo medio de espera sea de 15 minutos, pero podemos estar
equivocados. De ser así, estariamos cometiendo un error de tipo I.
Si la muestra seleccionada hubiera tenido un tiempo medio de
espera de 14,52 minutos (apenas 16 segundos más) hubieramnos
aceptado la hipótesis nula. En caso de equivocación, estariamos
comentiendo un error de tipo II
Nivel de confianza:
Matemáticas Estadística Nivel de confianza. El nivel de confianza es la
probabilidad de que el parámetro a estimar se encuentre en el intervalo
de confianza. El nivel de confianza (p) se designa mediante 1 − α, y se
suele tomar en tanto por ciento. Los niveles de confianza más
usuales son: 90%; 95% y 99%
Formula:
Si tiene este bit de información, junto con el tamaño de la muestra y la
desviación estándar, puede calcular el nivel de confianza mediante la
siguiente fórmula: z = 0.5 × tamaño del intervalo de confianza × √ n / s.
Ejemplos:
Si al lanzar 80 veces una moneda se obtienen 45 caras, ¿se puede
aceptar que la moneda está trucada, con un nivel de significación del 5
%?
Nivel de significancia:
El nivel de significancia, también denotado como alfa o α, es la
probabilidad de rechazar la hipótesis nula cuando es verdadera. Por
ejemplo, un nivel de significancia de 0.05 indica un riesgo de 5% de
concluir que existe una diferencia cuando en realidad no hay ninguna
diferencia.
Estos tipos de definiciones pueden ser difíciles de entender debido a su
carácter técnico. ¡Una imagen hace que sea mucho más fácil entender
los conceptos!
El nivel de significancia determina qué tan lejos del valor de la hipótesis
nula dibujaremos esa línea en la gráfica. Para graficar un nivel de
significancia de 0.05, debemos sombrear el 5% de la distribución que
está más alejado de la hipótesis nula.
Formula:
Una prueba de hipótesis estándar se basa en dos hipótesis.
Hipótesis nula: la suposición predeterminada de una prueba estadística
que está intentando refutar (por ejemplo, un aumento en el coste no
afectará el número de compras).
Hipótesis alternativa: una teoría alternativa que contradice su hipótesis
nula (por ejemplo, un aumento en el coste reducirá el número de
compras). Esta es la hipótesis que se espera probar.
Esto nos permitirá determinar qué teoría, la nula o alternativa, está
mejor respaldada por los datos. Hay muchas metodologías de prueba
de hipótesis, y una de las más comunes es el test Z (Z-test en inglés),
que es lo que veremos en el siguiente ejemplo.
Antes de adentrarnos en el test-Z, es importante revisar algunos de los
conceptos estadísticos en los que se basa la dicho test.
Ejemplos:
1%, 5%, 10% = alpha => Niveles de significación.
99%, 95%, 90% = (1-alpha) => Intervalo de confianza.
Los intervalos de confianza y los niveles se significación son
complementarios dado que la suma de ambos es el área de la función
de densidad. Entonces,
PSI 20
Nivel de significación e intervalo de confianza se complementan
Regresionn lineal:
En estadística, la regresión lineal o ajuste lineal es un modelo
matemático usado para aproximar la relación de dependencia entre
una variable dependiente Y, m variables independientes Xᵢ con m ∈ℤ⁺ y
un término aleatorio ɛ. Este modelo puede ser expresado como:
Y=β₀+β₁X₁+⋯+βₘXₘ+ɛ donde: Y es la variable dependiente o
variable de respuesta. X₁,X₂,…,Xₘ son las variables explicativas,
independientes o regresoras.
Formula:
El modelo lineal relaciona la variable dependiente con variables
regresoras con o cualquier transformación de éstas que
generen un hiperplano de parámetros
desconocidos:
donde
es una variable aleatoria que recoge todos aquellos factores de la
realidad no controlables u observables y que por tanto se asocian
con el azar, y es la que confiere al modelo su carácter estocástico. En
el caso más sencillo, con una sola variable explícita, el hiperplano es
una recta:
El problema de la regresión consiste en elegir unos valores
determinados para los parámetros desconocidos , de modo que la
ecuación quede completamente especificada. Para ello se necesita
un conjunto de observaciones o una muestra proveniente de este
modelo. En una observación i-ésima
cualquiera, se registra el comportamiento simultáneo
de la variable dependiente y las variables explícitas (las
perturbaciones aleatorias se suponen no observables).
Los valores escogidos como estimadores de los parámetros
, son los coeficientes de regresión sin que se pueda garantizar que
coincidan con parámetros reales del proceso generador. Por tanto,
en
Los valores son por su parte estimaciones o errores de la
perturbación aleatoria.
Ejemplos:
Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14,
20, 32, 42 y 44 kilos.
1Hallar la ecuación de la recta de regresión de la edad sobre el peso.
2¿Cuál sería el peso aproximado de un niño de seis años?
Calculamos los promedios
Calculamos la covarianza y la varianza de
La recta de regresión de la edad sobre el peso es aquella que pasa por
el punto y tiene pendiente
Despejamos y obtenemos la recta de regresión
Para encontrar el peso aproximado de un niño de seis años, sustituimos
en la ecuación de regresión y obtenemos
Instrumentos para recoger datos estadisticos de una
muestra:
Las técnicas de recolección de datos son las distintas formas o
maneras de obtener la información. Son ejemplos de técnicas: la
observación directa, el análisis documental, análisis de contenido, etc.
La investigación no tiene sentido sin las técnicas de recolección de
datos. Estas técnicas conducen a la verificación del problema planteado.
Cada tipo de investigación determinara las técnicas a utilizar y cada
técnica establece sus herramientas, instrumentos o medios que serán
empleados.
Todo lo que va a realizar el investigador tiene su apoyo en la técnica
de la observación. Aunque utilice métodos diferentes, su marco
metodológico de recogida de datos se centra en la técnica de la
observación y el éxito o fracaso de la investigación dependerá de cual
empleó.
¿Cómo deben ser las técnicas?
Válidas cuando mide lo que realmente desea medir, es su eficacia
para predecir el comportamiento de los fenómenos que estudiamos y
serán confiables cuando estén en relación con factores tales como a la
consistencia y exactitud de los resultados, si esta se volviese a aplicar el
resultado debería ser muy parecido o similar.
¿Cuándo deben aplicarse las técnicas de recolección de información?
Durante todo el proceso de la investigación, tanto para conformar el
marco teórico, como en el marco metodológico; en el teórico
dependemos más de la consulta bibliográfica y su fichaje; mientras que
en el metodológico por ser el trabajo operativo de desmenuzar y
escrutar las variables se requiere del manejo de Instrumentos más
detallados, específicos y diversificados.