0% encontró este documento útil (0 votos)
2K vistas49 páginas

CUESTIONARIO

Este documento contiene 25 preguntas de opción múltiple sobre conceptos estadísticos como variables cualitativas y cuantitativas, medidas de tendencia central y dispersión, representaciones gráficas, y otros. Las preguntas abarcan temas como frecuencias, parámetros, estadísticos, diagramas y gráficos para diferentes tipos de variables. También incluye 3 preguntas de soluciones sobre comparar variabilidad, media aritmética, y medidas de centralización.

Cargado por

Ángel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
2K vistas49 páginas

CUESTIONARIO

Este documento contiene 25 preguntas de opción múltiple sobre conceptos estadísticos como variables cualitativas y cuantitativas, medidas de tendencia central y dispersión, representaciones gráficas, y otros. Las preguntas abarcan temas como frecuencias, parámetros, estadísticos, diagramas y gráficos para diferentes tipos de variables. También incluye 3 preguntas de soluciones sobre comparar variabilidad, media aritmética, y medidas de centralización.

Cargado por

Ángel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Preg. 1.

Ref:1000
En una muestra de pacientes, el número de varones dividido entre el
total de pacientes es:
a Una frecuencia relativa.
b Una frecuencia absoluta.
c Una variable cuantitativa.
d Una variable cualitativa.
e Un valor de la variable.
Preg. 2. Ref:2000
Cuál de las siguientes medidas define mejor la tendencia central de
los datos: 5 , 4, 42, 4, 6
a La mediana.
b La media.
c El sesgo
d El rango.
e La proporción.
Preg. 3. Ref:1100
Señale cuál de las siguientes afirmaciones es falsa:
La aparición o no de bacterias en un cultivo es una variable
a
dicotómica
b La estatura de un individuo es una variable cuantitativa discreta.
El lugar que ocupa una persona entre sus hermanos (de menor a
c
mayor edad) es una variable ordinal.
d El estado civil es una variable cualitativa.
e La glucemia es continua.
Preg. 4. Ref:1180
Los diagramas de sectores son muy útiles para comparar:
a Dos variables cualitativas en una población.
b Dos variables cuantitativas en una población.
c Una variable cualitativa en dos poblaciones.
d Una variable cuantitativa en dos poblaciones.
e Una variable cuantitativa con otra cualitativa.
Preg. 5. Ref:1210
En el caso de una variable ordinal, el número n de datos válidos es:
a La suma de las frecuencias absolutas.
b La frecuencia absoluta acumulada de la categoría más frecuente.
c La suma de las frecuencias relativas.
d La frecuencia relativa acumulada en la última catetgoría.
e La (a) y la (d) son ciertas.
Preg. 6. Ref:259000
En un estudio sobre problemas cervicales preguntamos a los
pacientes acerca del tipo de almohada que usan. Las respuestas
deberían ser consideradas como una variable:
a Cualitativa nominal
b Numérica
c Discreta
d Continua.
e Ordinal
Preg. 7. Ref:315000
Elija la afirmación correcta sobre variables observadas en individuos:
a Poseer vivienda propia es una variable numérica.
b Poseer animales de compañía es una variable cualitativa.
c La nacionalidad es una variable ordinal.
d El tipo de almohada que usa es variable ordinal.
e La longitud de la cama donde duerme es variable discreta.
Preg. 8. Ref:327013
La estadística en Ciencias de la Salud se utiliza para obtener
información sobre situaciones de caracter:
a Determinista.
b Sistemático.
c Exhaustivo.
d Aleatorio.
e Excluyente.
Preg. 9. Ref:327014
Elija la afirmación que pueda considerarse admisible al leer un estudio
estadístico:
Se estudió a una muestra en vez de a la población, para mayor
a
precisión.
Se estudió a la población para obtener información sobre la
b
muestra.
c Se estudió a una muestra representativa de la población.
d Se estudiaron todas las variables de la población.
e Se observó a un individuo de cada variable.
Preg. 10. Ref:327017
Elija la afirmación correcta:
Los valores de cualquier variable deben ser agrupados en
a
intervalos.
Las variables deben ofrecer valores que no se repitan en los
b
diferentes individuos.
Las modalidades de una variable deben poder ser observadas en
c
todos los individuos.
Los individuos pueden poseer diferentes modalidades de la misma
d
variable.
e Todo lo anterior es falso.
Preg. 11. Ref:327018
En cuanto a la presentación ordenada del estudio de una variable
aislada:
a Lo más informativo es mostrar las medidas de tendencia central.
b Lo más informativo es mostrar las medidas de dispersión.
Se deben presentar todos los valores observados de la variable,
c
uno a uno, de menor a mayor.
Las representaciones gráficas dan más información que las tablas
d
de frecuencia.
e A veces no tiene sentido usar frecuencias acumuladas.
Preg. 12. Ref:327019
En las representaciones gráficas de variables cualitativas, la regla
fundamental a tener en cuenta es:
Las alturas en cada modalidad son proporcionales al valor de la
a
variable.
Las áreas para cada modalidad son proporcionales al valor de la
b
variable.
Las áreas para cada modalidad son proporcionales a las
c
frecuencias acumuladas.
Las áreas para cada modalidad son proporcionales a las
d
frecuencias absolutas o relativas.
Las alturas para cada modalidad son proporcionales a las
e
frecuencias acumuladas.
Preg. 13. Ref:327020
Entre las representaciones gráficas para variables cualitativas
tenemos:
a Histogramas.
b Diagramas integrales.
c Diagramas diferenciales.
d Diagramas de cajas y bigotes.
e Nada de lo anterior.
Preg. 14. Ref:327021
Elija la opción correcta.
a Un parámetro es algo calculado sobre cada individuo.
b Un parámetro es calculado sobre la muestra.
c Una variable se calcula sobre los parámetros de una población.
d Un estadístico se calcula sobre la población.
e Nada de lo anterior es correcto.
Preg. 15. Ref:327265
Disponemos de la distribución de edades de los individuos de una
población. El número de ellos que no es mayor de edad, es:
a Una frecuencia relativa.
b Una frecuencia absoluta.
c Una frecuencia acumulada.
d Una variable numérica.
e Una variable cualitativa.
Preg. 16. Ref:327282
Conocemos la distribución de estudiantes entre las distintas facultades
del campus de Teatinos. El número de estudiantes de Psicología es:
a Una frecuencia relativa.
b Una frecuencia absoluta.
c Una frecuencia acumulada.
d Un porcentaje.
e Una variable cualitativa.
Preg. 17. Ref:327315
De los siguientes conceptos indique el que no tenga sentido:
a Diagrama de barras para la variable "Grupo sanguíneo"
b Pictograma para la variable "Altura"
c Diagrama integral para la variable "Nivel de colesterol"
d Diagrama de sectores para la variable "Sexo"
e Histograma para la variable "Peso"
Preg. 18. Ref:327336
Se llama parámetro a:
Una función de valor numérico definida sobre alguna característica
a
observable en los individuos de una población.
b Una función definida sobre los valores numéricos de una muestra.
c Cualquier variable observable de una población
d Las variables numéricas de la muestra
e Cualquier función sobre las variables observadas
Preg. 19. Ref:327339
Si queremos representar gráficamente los porcentajes de una variable
cuantitativa continua debemos usar:
a Pictogramas
b Diagrama de barras
c Diagrama diferencial acumulado
d Histograma
e No existe gráfica posible
Preg. 20. Ref:327483
El grado de satisfacción (poco/regular/mucho) con la política española
la trataría como:
a una variable cualitativa nominal.
b una variable cuantitativa discreta.
c una variable cualitativa ordinal.
d una variable numérica continua.
e ninguna de las anteriores es correcta.
Preg. 21. Ref:327484
Con respecto a la modalidades de una variable cualquiera:
a Pueden siempre agruparse en clases.
b Deben formar un sistema exhaustivo.
c No pueden agruparse en intervalos.
d No tienen porqué formar un sistema excluyente.
e Solo dos son correctas.
Preg. 22. Ref:327489
Cuando hablamos de número de cumpleaños que ha tenido una
persona estamos ante:
a Una variable cualitativa ordinal.
b Una variable cualitativa nominal.
c Una variable cuantitativa discreta.
d Una variable cuantitativa continua.
e El número de cumpleaños no es una variable.
Preg. 23. Ref:327515
Los gráficos indicados para variables cualitativas son:
a Los diagramas de barras y los histogramas
b Los diagramas de barras, los de sectores y los pictogramas
c Los histogramas y pictogramas
d Sólo los diagramas de barras
e Los diagramas integrales
Preg. 24. Ref:327534
Las frecuencias acumuladas tienen sentido para:
a Variables ordinales
b Variables numéricas
c Variables nominales
d Todas son correctas.
e Las opciones a) y b) son correctas.
Preg. 25. Ref:327564
Disponemos de la distribución de edades de los individuos de una
población. El número de ellos que tiene dos o menos hijos es:
a Una variable cualitativa.
b Una variable numérica.
c Una frecuencia acumulada.
d Son correctas a) y b)
e Ninguna es correcta.
Preg. 26. Ref:327694
¿Qué gráfico elegirías para representar una las respuestas a una
encuesta sobre el número de hijos que tiene la población?
a Histograma
b Diagrama de sectores
c Pictograma
d Diagrama de Barras
e Ninguna de las anteriores

Soluciones: (1,a) (2,a) (3,b) (4,c) (5,a) (6,a) (7,b) (8,d) (9,c) (10,c)
(11,e) (12,d) (13,e) (14,e) (15,c) (16,b) (17,b) (18,a) (19,d) (20,c) (21,b)
(22,c) (23,b) (24,e) (25,c) (26,d)
Preg. 1. Ref:4000
Para comparar la variabilidad relativa de la tensión arterial diastólica y
el nivel de colesterol en sangre de una serie de individuos, utilizamos
a Las desviaciones típicas.
b Los rangos.
c Los coeficientes de variación.
d La diferencia de las medias.
e La diferencia de las varianzas.
Preg. 2. Ref:6000
La media aritmética de una variable cuantitativa:
a Es siempre un valor de la variable.
b No tiene sentido calcularla para variables discretas.
c Es el valor más representativo de una modalidad.
d Si la variable es discreta, puede no ser única.
e Existe siempre.
Preg. 3. Ref:7000
Las siguientes medidas son todas de centralización, excepto:
a La media.
b La moda.
c La mediana.
d Rango intercuartílico.
e El percentil 50.
Preg. 4. Ref:26000
En un estudio descriptivo se obtiene una que el peso tiene una media
de 60 kg y una desviación típica de 20 kg., mientras que la media de
las edades es 15 años, con una desviación típica de 5 años. Entonces:
a Hay más dispersión en pesos que en edades.
b Hay más dispersión en edades que en pesos.
c Peso y edad están dispersos de modo equivalente.
No tiene sentido compararlos al no coincidir las unidades de
d
medida.
Para comparar ambas dispersiones debemos usar la
e
covarianza.
Preg. 5. Ref:1120
¿Cuál de las siguientes características no se corresponde con el
concepto de mediana?
a Es el centro de gravedad de la distribución.
b No se ve afectada por los valores extremos.
c Deja por debajo el mismo número de datos que por encima.
d Es el segundo cuartil.
e Todo lo anterior se corresponde con la mediana.
Preg. 6. Ref:1140
Señale cual de las siguientes afirmaciones es verdadera:
La media, la mediana y el rango orientan sobre la tendencia central
a
de los datos.
b La desviación típica me orienta sobre la "validez" de la media.
c El rango me orienta sobre la simetría de la distribución.
Las marcas de clase de una variable cualitativa se calculan como
d
los puntos medios de los intervalos.
La media, mediana y moda resumen todo tipo de información de los
e
datos.
Preg. 7. Ref:1160
Señale cuál de las siguientes afirmaciones es falsa:
La media aritmética es siempre el centro de gravedad de la
a
distribución.
b En una distribución continua simétrica, media y mediana coinciden.
c La media aritmética cambia cuando cambia algún dato.
d La mediana no siempre cambia cuando lo hace algún dato.
En las distribuciones continuas simétricas todas las medidas de
e
centralización coinciden.
Preg. 8. Ref:1170
El coeficiente de variación:
a Permite comparar la dispersión de dos poblaciones.
b Es menor que la media.
c Es menor que la desviación típica.
d No depende de la media ni la desviación típica.
e Depende de la escala que se use al medir la variable.
Preg. 9. Ref:1280
Se pide a unos enfermos que valoren su grado de mejoría tras un
tratamiento en una escala de 1 a 5. De la siguiente colección de
posibilidades, cuál cree que resume mejor los mismos:
a Media, Mediana y Moda.
b Percentil 25, Percentil 50, Percentil 75.
c Media y desviación típica.
d Mediana y desviación típica.
e Rango
Preg. 10. Ref:1290
Al aplicar un tratamiento a un paciente, puede que este empeore, no le
haga efecto, o mejore. Si dicho tratamiento se aplica a una población
de 100 pacientes, ¿qué medidas cree que resumen mejor los datos?
a Media, mediana, moda, desviación típica y asimetría.
b Mediana y coeficiente de variación.
c Media y coeficiente de variación.
d Percentil 25, percentil 50 y percentil 75.
e Ninguna de las anteriores.
Preg. 11. Ref:1300
En cierta población se observa la distribución de los grupos
sanguíneos. Si queremos resumir la información obtenida podemos
utilizar:
a Moda.
b Mediana.
c Frecuencias acumuladas absolutas.
d Frecuencias relativas.
e Nada de lo anterior.
Preg. 12. Ref:1310
De las siguientes medidas, cuáles podria utilizar para argumentar en
favor o en contra de la asimetría de la variable edad:
a Percentil 25 y percentil 75.
b Media y Percentil 60.
c Media y mediana
d Media y desviación típica.
e Ninguna de las anteriores.
Preg. 13. Ref:1320
La pregunta: ¿qué nivel de colesterol sólo es superado por el 5% de
los individuos?, tiene por respuesta:
a El percentil 95.
b El percentil 5.
c Los percentiles 2,5 y 97,5
d 95%.
e Nada de lo anterior.
Preg. 14. Ref:1330
Qué peso no llega a alcanzar el 40% de los individuos de una
población:
a El 40%.
b El 60%.
c El percentil 60.
d El percentil 40.
e Los percentiles 20 y 60.
Preg. 15. Ref:1370
Una distribución presenta asimetría negativa siempre que:
a Hay más valores negativos que positivos.
b Hay menos valores negativos que positivos.
c No es simétrica.
d La media es menor que la varianza.
e Nada de lo anterior es cierto.
Preg. 16. Ref:238000
La media aritmética de una variable discreta:
a Puede ser un valor de la variable.
b No debería ser utilizada como medida de centralización.
c Es lo mismo que el percentil 50.
d Puede no ser única.
e Todo lo anterior es falso.
Preg. 17. Ref:318000
Se pregunta a los individuos su opinión sobre una cuestión, pudiendo
valorar estos su respuesta en términos de: en contra, en parte a favor,
muy a favor, totalmente de acuerdo. Elija la afirmación correcta:
a Podemos calcular la media.
b Podemos calcular el coeficiente de variación.
c La variable es de tipo ordinal
d La variable es de tipo cualitativo nominal.
e Nada de lo anterior es cierto.
Preg. 18. Ref:321000
Un estadístico es:
a Un valor numérico definido sobre los valores de una muestra.
b La media muestral.
c Un valor numérico definido sobre los valores de una población.
d Un individuo de una muestra.
e Ninguna de las anteriores son correctas
Preg. 19. Ref:327022
La calificación de selectividad que sólo es superada por el 12% de los
estudiantes se denomina:
a Percentil 12.
b Cuantil 0,88
c Cuantil 0,12
d Decil 88
e Nada de lo anterior es correcto.
Preg. 20. Ref:327023
En una población, el 70% de las alturas consideradas "más normales"
se encuentran:
a Por encima del percentil 70.
b Por debajo del cuantil 0,30
c Entre el percentil 30 y el 70
d Entre el percentil 15 y el 85.
e Entre la media y la mediana.
Preg. 21. Ref:327024
Las medidas de centralización, en cuanto a la información que ofrecen
sobre una variable numérica, preferimos (por orden, de peor a mejor):
a media, mediana, moda
b moda, media, mediana
c media, moda, mediana.
No se puede en general recomendar una como mejor que las
d
otras.
e Todo lo anterior es falso.
Preg. 22. Ref:327025
Si una muestra posee valores anómalos, de las siguientes cuál
usarías como medida de dispersión:
a Varianza.
b Desviación típica.
c Rango intercuartílico.
d Rango.
e Máximo y coeficiente de variación.
Preg. 23. Ref:327026
Si queremos saber cómo de disperso está una variable relativamente
con respecto a la magnitud de los valores centrales de la misma,
usaremos:
a Varianza.
b Desviación típica.
c Rango intercuartílico.
d Rango.
e Coeficiente de variación.
Preg. 24. Ref:327027
Si el coeficiente de asimetría en una población presenta el valor 0,99
entonces:
a La distribución presenta una cola a la derecha.
b La distribución presenta una cola a la izquierda.
c La distribución es más apuntada que la normal.
d La distribución es menos apuntada que la normal.
e La distribución es prácticamente simétrica.
Preg. 25. Ref:327028
Si la media del peso en una población es 60 kg. y la mediana 65kg.,
entonces afirmamos que la distribución del peso en la población es:
a Platicúrtica.
b Mesocúrtica.
c Leptocúrtica.
d Asimétrica.
e Unimodal.
Preg. 26. Ref:327262
Si el coeficiente de asimetría en una población presenta el valor -5,22
entonces:
a La distribución presenta una cola a la derecha.
b La distribución presenta una cola a la izquierda.
c La distribución es más apuntada que la normal.
d La distribución es menos apuntada que la normal.
e Ese valor de asimetría es imposible.
Preg. 27. Ref:327266
Medimos el número de glóbulos rojos y el de blancos en cada
individuo de una población. Se observa determinada variabilidad en
esas cantidades. Queremos saber de qué tipo de célula se presenta
mayor variabilidad
a Compararemos las desviaciones típicas.
b Compararemos los rangos.
c Estudiaremos la covarianza.
d Estudiaremos el coeficiente de correlación lineal de Pearson.
e Compararemos los coeficientes de variación.
Preg. 28. Ref:327272
En una muestra de 1000 mujeres se estudia su número de hijos. Si
quiero tener el máximo de información sobre la variable del estudio,
preferimos:
a Media, Mediana y Moda.
b Percentil 25, Percentil 50, Percentil 75.
c Media y desviación típica.
d Media, mediana, cuartiles, asimetría, curtosis y desviación típica.
e Distribución de frecuencias
Preg. 29. Ref:327273
Una variable continua presenta una fuerte asimetría positiva. De entre
las siguientes posibilidades, cuál es preferible para resumir la
información que hay en la muestra.
a La mediana.
b La media y la desviación típica.
c Los cuartiles.
d El mínimo y el máximo.
e El diagrama de cajas de Tukey.
Preg. 30. Ref:327274
El 3% de los individuos tiene una altura superior a 190cm. El 5% mide
menos de 150cm. Conocemos:
a El percentil 3
b El cuantil 0,06
c El percentil 95
d El percentil 97
e Nada de lo anterior.
Preg. 31. Ref:327316
En un grupos de niños se tiene una altura media de 150cm con
desviación típica de 10cm. La edad media es 12 años, con desviación
típica de 3 años. ¿Dónde se presenta mayor dispersión?
a En edades.
b En alturas.
c Las dispersiones son similares.
No se puede decir con esos datos qué variable está más
d
dispersa.
e Nada de lo anterior.
Preg. 32. Ref:327317
De los siguientes representaciones gráficas, cual muestra
directamente las observaciones extremas:
a Diagrama de excesos
b Barras.
c El diagrama de observaciones atípicas.
d Pictograma
e Cajas de Tukey.
Preg. 33. Ref:327318
El peso presenta una distribución con gran asimetría positiva en un
grupo de individuos obesos. ¿Qué valor divide a los mismos en dos
grupos con la misma cantidad de individuos?
a La moda
b El percentil 25.
c El percentil 75
d La media.
e Ninguno de los anteriores.
Preg. 34. Ref:327345
Respecto a las medidas de centralización:
a La media no debe usarse en distribuciones muy asimétricas.
b La moda puede no ser única.
c En distribuciones simétricas media, mediana y moda coinciden.
d Las tres anteriores son correctas.
e Sólo la a) y la b) son correctas
Preg. 35. Ref:327347
Para medir la variabilidad de una variable utilizamos:
a El coeficiente de variación
b La desviación típica
c El coeficiente de determinación.
d Todas las anteriores.
e Sólo la a) y la b).
Preg. 36. Ref:327348
Si queremos comparar la variabilidad de dos variables diferentes
utilizaremos:
a Las desviaciones típicas.
b Las puntuaciones típicas.
c Los coeficientes de variación.
d Las varianzas.
e Ninguna de las anteriores.
Preg. 37. Ref:327457
El coeficiente de asimetría en una población vale 3. Elija la afirmación
correcta:
a La distribución presenta una cola a la derecha.
b La distribución presenta una cola a la izquierda.
c La distribución es simétrica.
d La distribución es más apuntada que la normal
e La media es igual a la mediana.
Preg. 38. Ref:327476
¿Qué altura no es superada por el 75% de los individuos?
a Primer cuartil
b Cuantil 0.75
c Percentil 25
d Cuantil 75
e Segundo cuartil
Preg. 39. Ref:327492
¿Cuál de las siguientes medidas define mejor la tendencia central de
los datos: 1, 2, 4, 5, 9, 1, 3, 9, 400?
a Media.
b Cuantil 0,5.
c Moda
d Desviación típica.
e Ninguna de las anteriores.
Preg. 40. Ref:327506
Las siguientes medidas son de posición excepto:
a Percentil
b Cuartil
c Mediana
d Media
e Deciles
Preg. 41. Ref:327523
De las siguientes variables ¿con cuáles NO puedo calcular la media?
a temperatura corporal
b pH del estómago
c grupo sanguíneo
d número de glóbulos rojos
e edad
Preg. 42. Ref:327524
De las siguientes variables con cuál sería menos adecuado un
diagrama de barras?
a Número de hijos
b Número de coches que posee la familia
c Número de cigarros fumados al día
d Número de glóbulos rojos
e Número de mascotas.
Preg. 43. Ref:327525
¿cuál des estas características no es propia de la media?
a Es sensible a valores extremos
b Es el centro de gravedad de los datos
c en distribuciones simétricas, coincide con la mediana
d Deja el mismo número de datos por arriba que por abajo
e Las opciones a) y b)
Preg. 44. Ref:327551
La altura superada por el 25% de la población es:
a El percentil 75
b El percentil 25
c Entre el percentil 25 y 75
d El cuantil 0.25
e El percentil 5
Preg. 45. Ref:327555
Cuál es la mediana de los siguientes datos 22, 5, 9, 11, 10, 14, 7
a5
b9
c 11
d 10
e 14
Preg. 46. Ref:327573
Si el cuantil 0,9 del peso es 70 kilogramos, quiere decir esto:
a Que una frecuencia del 70% individuos pesa más de 70 kilogramos.
Que una frecuencia del 90% de individuos pesa más de 70
b
kilogramos.
Que una frecuencia del 90% individuos pesa menos de 70
c
kilogramos.
Que una frecuencia de 70% de individuos pesa menos de 90
d
kilogramos.
e Todas son falsas.
Preg. 47. Ref:327576
¿Cuál de las siguientes es una medida de dispersión poco sensible a
valores extremos?
a Rango.
b Moda.
c Desviación típica.
d Rango intercuartílico.
e Varianza.
Preg. 48. Ref:327597
En una distribución: P25 =40, P50 =60 y P75 =70.
a La distribución es simétrica
b La distribución sugiere asimetría negativa
c La distribución sugiere asimetría positiva
d La distribución es leptocúrtica
e Las opciones a) y d) son ciertas
Preg. 49. Ref:327614
Qué nivel de oxígeno en sangre es tal que el 70% de los individuos
presenta un valor superior al mismo:
a Percentil 70
b Percentil 30
c 1º Cuartil
d 3º Cuartil
e Todas son falsas
Preg. 50. Ref:327639
En los diagramas de Tukey, se representan entre otros:
a El mínimo y el máximo
b La moda y la mediana
c Los cuartiles
d Las opciones b) y c) son correctas
e Las opciones a) y c) son correctas
Preg. 51. Ref:327650
En una distribución la mediana es 20 y la media es 26:
a Con seguridad hay asimetría negativa
b Con seguridad hay asimetría positiva
c Hay colas hacia la derecha y hacia la izquierda.
d Los datos son simétricos.
Los datos sugieren una cola hacia la derecha. Habría que estudiarlo
e
con más detalle.
Preg. 52. Ref:327703
Rango Intercuartílico:
a Es sensible a los datos extremos.
b Es la distancia ente el primer y segundo cuartil.
c Es la raíz cuadrada de la varianza
d Sus unidades son el cuadrado de las variables.
Mide el grado de dispersión de los datos, independientemente de
e
su causa.
Preg. 53. Ref:328021
Cual de las siguientes frases no nos encontraríamos nunca en un
estudio estadístico.
a La media era mayor que la mediana.
b El rango de la variable es negativo.
c La correlación de las variables es negativa.
d La asimetría es negativa.
e La media es negativa.
Preg. 54. Ref:328022
Elija la afirmación falsa:
a Una variable solo puede recibir un valor en cada individuo.
b En las variables nominales se pueden calcular percentiles.
c La mediana no se puede calcular en cualquier tipo de variable.
En todas las variables numéricas podemos calcular medidas de
d
dispersión.
En todas las variables numéricas podemos calcular medidas de
e
centralización.
Preg. 55. Ref:328085
En una población la altura tiene una distribución simétrica, con el 80%
de los individuos comprendidos entre 150cm y 180cm. Entonces:
a El percentil 20 es 150 cm.
b El percentil 80 es 180cm.
c El percentil 10 es 150 cm.
d La desviación típica es 15 cm.
e El rango intercuartílico es 15cm.
Preg. 56. Ref:328099
Los habitantes de una sociedad A tienen una renta anual media de
20.000€ (DT 5.000€). En otra sociedad B, la renta anual media es de
30.000€ (DT 5.000€).
a Hay más variabilidad relativa en la sociedad A.
b Hay más variabilidad relativa en la sociedad B.
c Hay la misma variabilidad relativa en ambas sociedades.
El 95 % de los habitantes de cada sociedad tienen salarios
d
comprendidos en una horquilla de 5.000€
e Nada de lo anterior es cierto.
Preg. 57. Ref:328239
La pregunta: ¿Entre qué valores de colesterol se encuentra el 90% de
los individuos más frecuentes?, tiene por respuesta:
a por encima del percentil 95.
b por debajo del percentil 5.
c Entre los percentiles 5 y 95
d 90%.
e Nada de lo anterior.

Soluciones: (1,c) (2,e) (3,d) (4,c) (5,a) (6,b) (7,e) (8,a) (9,b) (10,d)
(11,d) (12,c) (13,a) (14,d) (15,e) (16,a) (17,c) (18,a) (19,b) (20,d) (21,d)
(22,c) (23,e) (24,a) (25,d) (26,b) (27,e) (28,e) (29,e) (30,d) (31,a) (32,e)
(33,e) (34,e) (35,e) (36,c) (37,a) (38,b) (39,b) (40,d) (41,c) (42,d) (43,d)
(44,a) (45,d) (46,c) (47,d) (48,b) (49,b) (50,e) (51,e) (52,e) (53,b) (54,b)
(55,c) (56,a) (57,c)
Preg. 1. Ref:226140
Para conocer los índices predictivos en un test diagnóstico para una
enfermedad que tiene un 1% de afectados en la población, será
necesario conocer:
a Sensibilidad y verdaderos positivos
b Prevalencia.
c Verdaderos positivos y prevalencia.
d Especificidad y verdaderos negativos
e Falsos positivos y verdaderos positivos.
Preg. 2. Ref:35000
Si la probabilidad de tener la enfermedad A es del 5%, la de tener la
enfermedad B es del 10% y la de tener al menos una de las dos es del
13%, ¿cúal es la probabilidad de tener las dos?
a Cero
b 1%
c 2%
d 5%
e 8%
Preg. 3. Ref:37000
Cierto tests diagnóstico acierta sobre el 100% de los individuos
enfermos y el 50% de los sanos. Cierta persona pasa el test con
resultado negativo. Entonces:
a Esta sana.
b Esta enferma.
c Existe una probabilidad del 50% de que esté sana.
d Existe una probabilidad del 75% de que esté sana.
e Existe una probabilidad del 75% de que esté enferma.
Preg. 4. Ref:38000
¿Cómo se calcula la sensibilidad de un test diagnóstico?
Contabilizando el número de tests positivos en una muestra
a
aleatoria de individuos.
Contabilizando el número de tests negativos en una muestra
b
aleatoria de individuos.
Contabilizando el número de tests positivos en una muestra
c
aleatoria de enfermos.
Contabilizando el número de tests negativos en una muestra
d
aleatoria de sanos.
e Ninguna de las anteriores es cierta.
Preg. 5. Ref:39000
Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y
el 0% de los individuos enfermos. Elegida una persona al azar:
a Hay una probabilidad del 50% de que esté enferma.
b Hay una probabilidad del 0% de que esté enferma.
c Hay una probabilidad del 100% de que esté enferma.
d El test será negativo.
e Ninguna de las anteriores es cierta.
Preg. 6. Ref:109000
En una población, hay tantos hombres como mujeres, el 20% son
varones y fumadores y el 20% de las mujeres fuman. Entonces:
a Fuman tantos hombres como mujeres.
b Por cada mujer fumadora hay dos hombres fumadores.
c Por cada hombre fumador hay dos mujeres fumadoras.
d Hay un 40% de fumadores en la población.
e Nada de lo anterior es cierto.
Preg. 7. Ref:226100
Para estudiar la efectividad de un test diagnóstico ante una
enfermedad se toma un grupo de 200 personas enfermas y 200 que
no la padecen, y se observan los resultados. ¿Qué podemos estimar
directamente de ellos?
a La sensibilidad y especificidad del test.
b La incidencia de la enfermedad en la población.
c El índice predictivo de verdaderos positivos.
d Son correctas (a) y (c).
e Todo lo anterior.
Preg. 8. Ref:327033
El porcentaje de individuos fumadores o con bronquitis se puede
interpretar como una probabilidad:
a De un suceso intersección
b Condicionada.
c De un suceso unión.
d A posteriori.
e De un suceso complementario.
Preg. 9. Ref:327034
El porcentaje de individuos con bronquitis entre los fumadores se
puede interpretar como una probabilidad:
a De un suceso intersección
b Condicionada.
c De un suceso unión.
d A posteriori.
e De un suceso complementario.
Preg. 10. Ref:327035
El porcentaje de individuos con bronquitis que además son fumadores
se puede interpretar como una probabilidad:
a De un suceso intersección
b Condicionada.
c De un suceso unión.
d A posteriori.
e De un suceso complementario.
Preg. 11. Ref:327036
El 12% de los individuos de una población padece osteoporosis. EL
25% de ellos lo sabe. ¿Qué tasa de individuos tiene osteoporosis y lo
desconoce?
a 3%
b 6%
c 9%
d 12%
e 25%
Preg. 12. Ref:327038
La osteoporosis afecta 4 veces más a mujeres que a hombres. El 8%
de las mujeres padece osteoporosis en una población donde hay
tantos hombres como mujeres. ¿Cuál es la prevalencia de la
osteoporosis en la población?
a 2%
b 5%
c 8%
d 10%
e 12%
Preg. 13. Ref:327039
Elija la afirmación correcta relativa a pruebas diagnósticas:
La sensibilidad se obtiene usando la noción subjetiva de
a
probabilidad.
El índice predictivo positivo se obtiene directamente de la noción
b
frecuentista de probabilidad.
La tasa de verdaderos positivos se obtiene directamente de la
c
noción frecuentista de probabilidad.
La prevalencia de la enfermedad se obtiene a partir del teorema de
d
Bayes.
e nada de lo anterior es cierto.
Preg. 14. Ref:327264
El 2% de la población padece diabetes. Si de ellos, el 30% no está
diagnósticado, esta cantidad puede entenderse como una
probabilidad...
a De un suceso intersección
b Condicionada.
c De un suceso unión.
d A posteriori.
e De un suceso complementario.
Preg. 15. Ref:327267
En una población, el 5% son enfermos diagnosticados de una
enfermedad, la cual padece el 10% de la población. La probabilidad de
estar diagnósticado para un individuo enfermo es:
a 2%
b 5%
c 15%
d 50%
e No puede calcularse con esos datos.
Preg. 16. Ref:327269
Una prueba diagnóstica de cierta enfermedad, tiene una tasa de
aciertos del 90% tanto sobre enfermos como sanos. La incidencia de
la enfermedad en la población es del 50%. Si se pasa el test a una
persona y sale positivo, la probabilidad de que realmente esté enferma
es:
a 45%
b 50%
c 75%
d 90%
e 100%
Preg. 17. Ref:327322
Una enfermedad tiene una incidencia del 50% en la población. Un test
para detectarla posee una tasa de verdaderos positivos del 80%, y de
falsos positivos del 20%. Si un individuo resulta ser positivo, la
probabilidad de que esté enfermo es:
a 20%
b 40%
c 50%
d 60%
e 80%
Preg. 18. Ref:327360
Se define la sensibilidad de un test como:
a La probabilidad de que si el test da positivo el sujeto esté enfermo.
b La probabilidad de que si el sujeto está enfermo el test de positivo.
c La probabilidad de que si el test da negativo el sujeto esté sano.
d La probabilidad de que si el sujeto está sano el test de negativo.
e Ninguna de las anteriores.
Preg. 19. Ref:327362
En una población el 30% son hombres de los cuales son deportistas el
20%, frente al 25% de las mujeres. Escogida una persona al azar es
deportista. La probabilidad de que sea mujer es (aproximadamente):
a 0,235
b 0,60
c 0,74
d 0,25
e No puede calcularse con esos datos.

Soluciones: (1,e) (2,c) (3,a) (4,c) (5,d) (6,b) (7,a) (8,c) (9,b) (10,a)
(11,c) (12,b) (13,c) (14,b) (15,d) (16,d) (17,e) (18,b) (19,c)
Preg. 1. Ref:226160
Se realiza una auditoría de historias clínicas tomando una primeria
historia al azar y después sucesivamente, la que ocupa la vigésima
posición detrás de la anterior. Este procedimiento de muestreo se
denomina:
a Por conglomerados.
b Sistemático.
c Correlativo.
d Consecutivo.
e Equidistante.
Preg. 2. Ref:226150
Se realiza un estudio con objeto de determinar el tiempo de
supervivencia en pacientes con cáncer. Para ello de los dos hospitales
existentes en una ciudad, se selecciona aleatoriamente uno de ellos, y
se elige una muestra aleatoria de pacientes, atendiendo al tipo de
cáncer: El muestreo realizado es:
a Sistemático.
b Aleatorio.
c Por conglomerados.
d Estratificado.
e Por conglomerados y estratificado.
Preg. 3. Ref:48000
La edad de los individuos de una población sigue una distribución
normal. Se extrae aleatoriamente una muestra de 300 pacientes cuya
media es de 50 años, y la desviación típica es 10 años. Entonces:
Aproximadamente el 95% de los pacientes tienen edades entre
a
30 y 70 años.
Existe una probabilidad del 95% de que la verdadera media de la
b
población esté entre 30 y 70 años.
Aproximadamente el 95% de los pacientes tienen edades entre
c
40 y 60 años.
Existe una probabilidad del 95% de que la verdadera media de la
d
pobllación esté entre 40 y 60 años.
Existe una probabilidad del 95% de que la verdadera media de la
e
pobllación esté entre 45 y 55 años.
Preg. 4. Ref:66000
Se desea estimar confidencialmente el número medio de veces que
asiste a un servicio de salud los individuos de una población. Para ello
se toman muestras aleatorias entre los individuos que asisten
regularmente a los mismos. Esta técnica de muestreo es:
a Un muestreo aleatorio simple.
b Un muestreo aleatorio estratificado.
c Un muestreo aleatorio por conglomerados.
d Incorrecta.
e Ninguna de las anteriores.
Preg. 5. Ref:283000
En un intervalo de confianza para una media, buscamos disminuir el
margen de error. Cuál de las siguientes posibilidades nos permite
realizarlo:
a Aumentar el tamaño muestral y la confianza.
b Aumentar el tamaño muestral y disminuir la confianza.
c Aumentar la confianza.
d Disminuir la varianza muestral.
e Aumentar la varianza muestral.
Preg. 6. Ref:327043
Deseamos conocer la opinión de los ciudadanos de Málaga sobre el
sistema de salud pública. Para ello elegimos una muestra aleatoria de
entre los abonados a telefónica. Entonces:
a La población de estudio es la de los ciudadanos de Málaga.
b La población de estudio es la de los abonados a telefónica.
c La población objetivo es la de los abonados a telefónica.
d El conjunto de abonados a telefónica son la muestra.
e Nada de lo anterior es cierto.
Preg. 7. Ref:327044
Se quiere hacer un estudio sobre el tabaquismo en la provincia de
Málaga. Queremos asegurarnos tener cierto número de individuos de
la zona litoral, la capital y del interior, pues creemos que en cada una
de esas zonas la incidencia es diferente. Haremos un muestreo:
a Aleatorio simple.
b Estratificado.
c Sistemático.
d Por grupos.
e No probabilístico.
Preg. 8. Ref:327045
Una estimación confidencial para un nivel de confianza fijado, da por
respuesta:
a Una aproximación de la media.
b Una aproximación de una proporción.
c Una probabilidad.
d Un intervalo.
e Un nivel de significación.
Preg. 9. Ref:327050
Cuando la población objetivo y de estudio en un muestreo difieren
mucho, entonces:
a Debe usarse el método de respuestas aleatorizadas.
b Pueden existir sesgos.
c No pueden seleccionarse unidades de muestreo.
d Se debe usar un muestreo no probabilístico.
e Nada de lo anterior es correcto.
Preg. 10. Ref:327169
¿A qué se debe el sesgo de selección?
a A falta de sinceridad en los individuos de la muestra.
b A las diferencia existente entre diversas muestras.
c A la diferencia entre la población de estudio y la población objetivo.
d A no usar la técnica de respuesta aleatorizada.
e A nada de lo anterior.
Preg. 11. Ref:327240
El perímetro torácico en un grupo de militares presenta distribución
gaussiana con 95 cm de media y 5 cm de desviación típica. Elegimos
a una muestra de 100 indivíduos y calculamos la media de la misma.
Elija la afirmación correcta:
a La media de la muestra valdrá 95cm.
La media de la muestra sería un valor comprendido entre 90 y
b
100 cm con confianza del 68%.
La media de la muestra será un valor comprendido entre 95 y
c
100 cm con confianza del 95%.
La media de la muestra será un valor comprendido entre 94 y 96
d
cm con confianza del 95%.
e Todo lo anterior es falso.
Preg. 12. Ref:327291
Elija la afirmación correcta sobre teoría de muestreo:
La población de estudio es aquella de la que finalmente
a
extraeremos una muestra aleatoria.
El sesgo de selección es la diferencia existente entre la población
b
de estudio y la muestra.
c Cuando se pueda, se prefieren los muestreos no probabilísticos.
El muestreo aleatorio simple es normalmente el más económico en
d
la práctica.
e El mejor tipo de muestreo es el sistemático.
Preg. 13. Ref:327332
El consumo diario de Calorías se distribuye en una población de
forma normal, con media 2500 y desviación típica 100. Si elijo una
muestra de tamaño 100, entre qué valores espero encontrar su media
(con una probabilidad del 95% de acertar):
a Entre 2400 y 2600.
b Entre 2300 y 2700.
c Entre 2490 y 2510.
d Entre 2480 y 2520.
e Entre 2498 y 2502.
Preg. 14. Ref:327366
Un intervalo de confianza será más amplio cuando:
a La varianza sea mayor
b El nivel de confianza sea mayor.
c El tamaño de muestra sea mayor.
d Todas las anteriores son correctas
e Sólo dos de las anteriores son ciertas.
Preg. 15. Ref:327469
En una muestra aleatoria de 100 individuos se obtiene una media
muestral de 50, la desviación típica es 20. Elija la afirmación correcta:
El 68% de los individuos de la muestra tiene sus valores
a
comprendidos entre 48 y 52.
El 95% de los individuos de la muestra tiene sus valores
b
comprendidos entre 46 y 54.
Hay una probabilidad del 68% de que la media de la población
c
esté comprendida entre 30 y 70.
Hay una probabilidad del 95% de que la media de la población
d
esté entre 46 y 54.
e Todo lo anterior es falso.
Preg. 16. Ref:328091
Para un estudio epidemiológico sobre dolencias de suelo pélvico en
mujeres en la provincia de málaga, se decide seguir la siguiente
estrategia de muestreo: Se elige aleatoriamente 10 poblaciones de la
provincia, y en cada una de ellas se elige aleatoriamente 10 calles. Allí
se elige aleatoriamente 5 números de la calle y se estudia a las
mujeres que aceptan participar. El muestreo es:
a Aleatorio simple
b Por conglomerados.
c Estratificado.
d Sistemático.
e Estratificado y por conglomerados.
Preg. 17. Ref:328101
Una muestra aleatoria de 64 pacientes refleja que el presión arterial
diastólica media es 150 (DT 16), con distribución aproximadamente
normal. Elija la afirmación correcta.
La media de la población está con confianza del 95% entre 134
a
y 166
La media de la población está con confianza del 68% entre 142
b
y 158
La media de la población está con confianza del 95% entre 148
c
y 152
La media de la población está con confianza del 95% entre 146
d
y 154
e El error típico es de 1 punto.

Soluciones: (1,b) (2,e) (3,a) (4,d) (5,b) (6,b) (7,b) (8,d) (9,b) (10,c)
(11,d) (12,a) (13,d) (14,e) (15,d) (16,b) (17,d)
1. ¿Cuáles son las diversas etapas implicadas en un proyecto de análisis
estadístico?
 Comprender el problema de investigación
 Explorar los datos.
 Preparar los datos para el modelado mediante la detección de valores atípicos, el tratamiento
de los valores perdidos, la transformación de las variables, etc.
 Ejecutar el modelo y analizar el resultado.
 Validar el modelo utilizando un nuevo conjunto de datos.
 Empezar a aplicar el modelo y realizar un seguimiento de los resultados para analizar el
rendimiento del modelo durante un período de tiempo.

2. ¿En que consiste la estadística descriptiva?


Tienen por objeto fundamental describir y analizar las características de un conjunto de datos,
obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las
relaciones existentes con otras poblaciones, a fin de compararlas.

3. ¿En que consiste la inferencia estadística?


Es una parte de la Estadística que comprende los métodos y procedimientos para deducir
propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (una
muestra).

4. ¿Por qué la limpieza de datos juega un papel vital en el análisis


estadístico?
La limpieza de datos incluye encontrar, corregir o eliminar datos erróneos de una base de datos.

El proceso permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego
substituir, modificar o eliminar estos datos sucios («data duty»).

Con esto se busca que los datos obtenidos se encuentren en las condiciones adecuadas al momento
de realizar los análisis estadísticos pertinentes a la investigación.

Podría tomar hasta un 80% del tiempo de trabajo, por lo que es una parte crítica de la tarea de
análisis.
5. ¿Qué es la regresión lineal?
La regresión lineal es una técnica estadística donde la puntuación de una variable Y se predice a
partir de la puntuación de una segunda variable X siguiendo una recta descrita por un intercepto y
una pendiente.

Se dice que X es la variable predictora e Y la variable respuesta.

6. ¿Qué es mejor tener buenos datos o buenos modelos? Y ¿cómo se


define «bueno»?
Una buena información de partida (datos) es sin duda más importante que los buenos modelos.
Si la calidad de los datos no es de buena, tendremos que pasar mucho tiempo de limpieza y
procesamiento previo de los datos.

¿Cómo se define bueno?

– Buenos datos: datos pertinentes para el proyecto.


– Buen modelo: modelo pertinente en relación con el proyecto y/o que se generaliza con conjuntos
de datos externos.

7. ¿Necesitamos el término de intersección en un modelo de regresión?


– Garantiza que los residuos tienen una media de cero
– Garantiza que las estimaciones mínimos cuadrados sean imparciales
– La línea de regresión se mueve hacia arriba y hacia abajo, mediante el ajuste de la constante, a un
punto en el que la media de los residuales es cero.

8. ¿Cuáles son los supuestos requeridos para la regresión lineal?


Los datos utilizados en el ajuste del modelo son representativos de la población
La verdadera relación subyacente entre X e Y es lineal
La varianza de los residuos es constante

(homoscedástica, no heterocedástica)
Los residuos son independientes.
Los residuos se distribuyen normalmente.

9. ¿Qué es una «distribución normal»?


Los datos se distribuyen generalmente de diferentes maneras con un sesgo hacia la izquierda o hacia
la derecha, etc… Sin embargo, hay casos en los que los datos se distribuyen alrededor de un valor
central sin ningún sesgo de distribución, formando una curva en forma de campana.

10. ¿Qué es la colinealidad y qué hacer con él? ¿Cómo eliminar


multicolinealidad?
Colinealidad / Multicolinealidad:
– En la regresión múltiple: cuando dos o más variables están altamente correlacionados
– Proporcionan información redundante
– Los errores estándar de los coeficientes de regresión de las variables afectadas tienden a ser
grandes
– La prueba de hipótesis de que el coeficiente es igual a cero puede conducir a un error de rechazar
falsamente la hipótesis nula de ningún efecto de la explicativo (error tipo II)
– Lleva a sobreajuste

Cómo eliminar la multicolinealidad:


– Elimine algunas de las variables afectadas
– Utilice regresión con componentes principales: da predictores no correlacionados
– Combine las variables afectadas
– Utilice la regresión contraída (ridge)
– Utilice la regresión parcial por mínimos cuadrados (PLS)

Cómo detectar la multicolinealidad:

– Se observan grandes cambios en los coeficientes individuales cuando se añaden o eliminan una
variable predictora
– Se observan coeficientes de regresión insignificante para los predictores afectados pero también un
rechazo de la

hipótesis conjunta de que los coeficientes son todos cero (prueba F) – VIF: es la proporción de las
varianzas del coeficiente cuando se ajusta el modelo completo dividido por la varianza del
coeficiente cuando se ajusta con él.

– Regla de oro: VIF > 5 indica multicolinealidad (aunque otros autores consideran 10 y otros 20
como puntos de corte).
– Matriz de correlación parcial.

11. Diagnóstico, ¿Cómo comprobar si el modelo de regresión se ajusta


bien a los datos?
R cuadrado / R cuadrado ajustado:
– R2 Describe el porcentaje de la variación total descrito por el modelo
– R2 siempre aumenta cuando se añaden nuevas variables: el R2aj incorpora grados de libertad del
modelo para ajustar el R2 al aumentar las variables predictoras.
Prueba F:
– Evaluar la hipótesis «H0: todos los coeficientes de regresión son iguales a cero» Vs «H1: al menos
uno no es cero»
– Indica si el R2 es confiable

RMSE:
– Es una medida absoluta de ajuste (mientras que R2 es una medida relativa de ajuste)

12. ¿Qué es la validación cruzada?


Es una técnica de validación de modelos para evaluar si los resultados de un análisis estadístico
pueden ser generalizados a un conjunto de datos independientes.
Se utiliza principalmente en entornos en los que el objetivo es la predicción y se quiere estimar la
precisión con un modelo. El objetivo de la validación cruzada es definir un conjunto de datos para
probar el modelo en la fase de entrenamiento (es decir, conjunto de datos de validación) con el fin de
limitar problemas como el sobreajuste, y obtener una visión sobre si el modelo se puede generalizar
a un conjunto de datos independientes.

13. ¿Qué es la interpolación y extrapolación?


Estimar un valor de 2 valores desconocidos de una lista de valores es de interpolación. La
extrapolación se aproxima a un valor mediante la ampliación de un conjunto conocido de valores o
hechos.

14. ¿Qué significa el valor P o p-valor?


El P-valor se utiliza para determinar la significación de los resultados después de una prueba de
hipótesis y siempre está entre 0 y 1.

Si asumimos un nivel de significación del 5% podemos decir que:

 P> 0,05 significa que la hipótesis nula no puede ser rechazada.


 P <= 0,05 denota una evidencia en contra de la hipótesis nula es decir, la hipótesis nula puede
ser rechazada.

15. ¿Cuál es la diferencia entre el aprendizaje supervisado un aprendizaje


no supervisado?
Se hace referencia al Aprendizaje Supervisado cuando un algoritmo aprende algo de los datos de
entrenamiento y este conocimiento se puede aplicar luego a los datos de prueba.
Si el algoritmo no aprende nada de antemano porque no hay variable de respuesta o porque no
disponemos de datos de entrenamiento, entonces diremos que estamos ante un Aprendizaje no
supervisado.
16. ¿Qué es un outlier o valor atípico? ¿Qué es un inlier? ¿Cómo se
detectan los valores atípicos y cómo se manipulan?
Los valores atípicos:
– Son observaciones que están lejos de las demás observaciones
– Pueden ocurrir por casualidad en cualquier distribución
– A menudo indican un error de medición o una distribución de cola larga
– El error de medición: descartarlos o utilizar la estadística robusta – Distribución de cola larga: gran
asimetría, no puede utilizar las herramientas que suponen una distribución normal
– Los valores atípicos se pueden identificar mediante gráficos o métodos univariantes.
– Los valores atípicos pueden ser evaluados individualmente o ser sustituidos.
– Todos los valores extremos no son valores atípicos.

La identificación de valores atípicos:


– No existe un método matemático rígido
– Ejercicio subjetivo: tenga cuidado
– Boxplots
– Gráficos QQ (cuantiles muestrales Vs cuantiles teóricos)

Manejo de los valores extremos:


– Depende de la causa
– Retención: cuando el modelo subyacente es conocido
– Problemas de regresión: sólo excluye los puntos que presenten un alto grado de influencia en los
coeficientes estimados (distancia de Cook)

Inlier:
– Observaciones que se encuentan dentro de la distribución general de los demás valores observados
– No perturba los resultados, pero son ? e inusuales

– Un simple ejemplo: una observación registrada en la unidad equivocada (° F en lugar de ° C)

La identificación de inliers:
– Utiliza la distancia a Mahalanobi – Deséchelos

17. ¿Cómo tratar los valores ausentes (datos perdidos o que faltan)?
Si no se identifica ningún patrón en las ausencias entonces los valores ausentes pueden ser
sustituidos por la mediana o media (imputación) o simplemente pueden ser ignorados.

De todas maneras se debe tener cuidado en el porcentaje de valores perdidos que tiene una variable,
por ejemplo, si el 80% de los valores de una variable están ausentes, entonces mejor no considerar la
variable.

Si los datos faltan por azar: la eliminación no tiene ningún efecto de polarización, pero disminuye el
poder del análisis disminuyendo el tamaño efectivo de la muestra
Imputación simple. Sustituir los datos ausentes por los valores medios (o mediana, etc.) de los
restantes datos.

* En general es una mala práctica.

* Si solo queremos estimar la media, la asignación de valores medios preserva la media de los datos
observados.

* Conduce a una subestimación de la desviación estándar.

* Distorsiona las relaciones entre las variables «tirando» los estimadores de las correlaciones hacia el
cero. Recomendado: imputación Knn o por mezcla de Gauss

18. ¿Qué es un falso positivo y un falso negativo?


Falso positivo: informar incorrectamente la presencia de una condición o efecto cuando no existe
realmente. Por ejemplo: test VIH positivo cuando el paciente es en realidad el VIH negativo.
Falso negativo: informar erróneamente la ausencia de una condición cuando en realidad existe.
Ejemplo: no detectar una enfermedad cuando el paciente tiene la enfermedad.

19. ¿Qué es la potencia estadística?


* Sensibilidad de una prueba de hipótesis

* Probabilidad de que la prueba rechace correctamente la hipótesis nula cuando la hipótesis


alternativa es cierta

* Capacidad de una prueba para detectar un efecto, si el efecto existe realmente

* Potencia = P (rechazar H0 | H1 es verdadera)

* A medida que aumenta la potencia, las posibilidades de error de tipo II (falso negativo)
disminuyen

* Se utiliza en el diseño de experimentos, para calcular el tamaño de muestra mínimo necesaria para
que uno pueda razonablemente detectar un efecto.

* Se utiliza para comparar las pruebas. Ejemplo: entre una prueba paramétrico y una prueba no
paramétrica con la misma hipótesis.
20. ¿En que consiste una muestra?
Es un subconjunto limitado extraído de una población con el objeto de reducir el campo de
experiencias. Las propiedades que obtengamos se harán extensivas a toda la población.

21. ¿Que es el muestreo?


En estadística se conoce como muestreo a la técnica para
la selección de una muestra a partir de una población Esto no es más que el procedimiento empleado
para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener
una o más muestras de población.

22. ¿Qué es un individuo en Estadística?


Cada uno de los elementos del colectivo (la población) que es objeto estudio.

23. ¿Qué es una población en Estadística?


El conjunto de todos los individuos que son objeto de interés desde un punto de vista estadístico.

24. ¿Que se entiende por probabilidad?


La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al
llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo
condiciones suficientemente estables.

25. ¿Que se entiende por una población homogénea?


Es una población que comparte unas mismas características y se entre sí.

26. ¿Que se entiende por un parámetro estadístico?


Se llama parámetro estadístico, medida estadística o parámetro poblacional a un valor representativo
de una población, como la media aritmética, la proporción de individuos que presentan determinada
característica, o la desviación típica.

Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del estudio
de una variable estadística.
27. ¿Que se entiende por un estimador?
Se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro
de una población a partir de los datos proporcionados por una muestra.
En estadística, un estimador es un estadístico (esto es, una función de la muestra) usado para estimar
un parámetro desconocido de la población. Por ejemplo, si se desea conocer el precio medio de un
artículo (el parámetro desconocido) se recogerán observaciones del precio de dicho artículo en
diversos establecimientos (la muestra) y la media aritmética de las observaciones puede utilizarse
como estimador del precio medio.

28. ¿Que se entiende por error de estimación?


Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta
más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de
confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la
muestra estudiada.

29. ¿Que se entiende por error de muestreo?


Es la imprecisión que se comete al estimar una característica de la población de estudio (parámetro)
mediante el valor obtenido a partir de una parte o muestra de esa población (estadístico). Este error
depende de muchos factores, entre ellos, del procedimiento de extracción de esa parte de la
población (diseño muestral), del número de unidades que se extraen (tamaño de la muestra), de la
naturaleza de la característica a estimar, etc.

30. ¿Que se entiende por una estimación robusta?


La estadística robusta es una aproximación alternativa a los métodos estadísticos clásicos. El objeto
es producir estimadores que no sean afectados indebidamente por valores atípicos (outliers) o por
variaciones pequeñas respecto a las hipótesis de los modelos.

Por ejemplo, la mediana es un estimador robusto de la centralidad de los datos, y no así la media
aritmética.

31. ¿Cuales son las principales debilidades de la media aritmética?


– Es sensible a los valores extremos.
– No es recomendable emplearla en distribuciones muy asimétricas.
– Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al
conjunto de valores de la variable. – Es la media aritmética que se utiliza cuando a cada valor de la
variable se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder
calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la
variable.

32. ¿Que se entiende por una variable?


Una variable es una característica que es medida en diferentes individuos, y que es susceptible de
adoptar diferentes valores.

33. ¿En que consiste una variable cualitativa?


Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente,
corresponden a categorías o niveles. Sí se pueden etiquetar las categorías, es decir, convertir a
valores numéricos antes de que se trabaje con ellos.

Las características cualitativas pueden clasificarse como:


Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una
escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por
ejemplo, leve, moderado, grave
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de
orden, por ejemplo los colores o el lugar de residencia.

34. ¿En que consiste una variable cuantitativa?


Son aquellas variables que se pueden expresar numéricamente y se obtienen a través de mediciones
y conteos.

Las características cuantitativas pueden clasificarse como:


Variable discreta: Solo puede tomar valores enteros. Es la variable que presenta separaciones o
interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican
la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo:
El número de hijos (1, 2, 3, 4, 5).

Variable continua: Puede tomar valores reales (con decimales). Es la variable que puede adquirir
cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg,
2.5 kg…) o la altura (1.64 m, 1.65 m, 1.66 m…), que solamente está limitado por la precisión del
aparato medidor, en teoría permiten que siempre exista un valor entre dos cualesquiera.

35. ¿Qué son las variables dependiente e independiente?


Según la influencia que asignemos a unas variables sobre otras, podrán ser:
 Variables independientes: Son las que el investigador escoge para establecer agrupaciones en
el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las
variables de confusión, que modifican al resto de las variables independientes y que de no
tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
 Variables dependientes: Son las variables de respuesta que se observan en el estudio y que
podrían estar influenciadas por los valores de las variables independientes
COMPUTO
Crear una tabla dinámica para analizar datos de una hoja de cálculo

Excel para Office 365 Excel para Office 365 para Mac Excel para la Web Excel 2019 Más...

Una tabla dinámica es una herramienta avanzada para calcular, resumir y analizar datos
que le permite ver comparaciones, patrones y tendencias en ellos.
Registro (base de datos)
Ir a la navegaciónIr a la búsqueda

Filas en Excel

En informática, o concretamente en el contexto de una base de datos relacional,


un registro (también llamado fila o tupla) representa un objeto único
de datos implícitamente estructurados en una tabla. En términos simples, una tabla de una
base de datos puede imaginarse formada de filas y columnas o campos. Cada fila de una
tabla representa un conjunto de datos relacionados, y todas las filas de la misma tabla
tienen la misma estructura.
Un registro es un conjunto de campos que contienen los datos que pertenecen a una
misma repetición de entidad. Se le asigna automáticamente un número consecutivo
(número de registro) que en ocasiones es usado como índice aunque lo normal y práctico
es asignarle a cada registro un campo clave para su búsqueda.

Campo (informática)
Ir a la navegaciónIr a la búsqueda

En informática, un campo es un espacio de almacenamiento para un dato en particular.1


En las bases de datos, un campo es la mínima unidad de información a la que se puede
acceder; un campo o un conjunto de ellos forman un registro, donde pueden existir
campos en blanco, siendo este un error del sistema operativo. Aquel campo que posee un
dato único para una repetición de entidad, puede servir para la búsqueda de una entidad
específica.
En las hojas de cálculo los campos son llamados "celdas".

FUNCIONES LÓGICAS
Las funciones lógicas en Excel se utilizan en la toma de
decisiones. Nos permiten evaluar el cumplimiento de una
condición, y en base al resultado, decidiremos si se debe
ejecutar una determinada acción.

Encuentra el detalle y ejemplos de cada función haciendo clic


sobre su nombre.

FUNCIÓN INGLÉS DESCRIPCIÓN


FALSO FALSE Devuelve el valor lógico FALSO.

NO NOT Cambia FALSO por VERDADERO y VERDADERO por FALSO.

O OR Comprueba si alguno de los argumentos es VERDADERO y devuelve VERDADERO o FA

SI IF Comprueba si se cumple una condición y devuelve un valor si se evalúa como VERDA

SI.ERROR IFERROR Devuelve un valor si la expresión es un error y otro valor si no lo es.

SI.ND IFNA Devuleve el valor que especificas, si la expresión se convierte en &N/A. De lo contrar

VERDADERO TRUE Devuelve el valor lógico VERDADERO.

XO XOR Devuelve una «Exclusive Or» lógica de todos los argumentos.

Y AND Comprueba si todos los argumentos son VERDADEROS y devuelve VERDADERO o FAL
FUNCIONES MATEMÁTICAS Y TRIGONOMÉTRICAS
Las funciones matemáticas en Excel son utilizadas para
ejecutar operaciones aritméticas como la suma y el producto de
dos números mientras que las funciones trigonométricas nos
permitirán realizar cálculos como el seno, coseno y tangente de
un ángulo especificado.

Encuentra el detalle y ejemplos de cada función haciendo clic


sobre su nombre.

FUNCIÓN INGLÉS DESCRIPCIÓN

ABS ABS Devuelve el valor absoluto de un número, es decir, un número sin

ACOS ACOS Devuelve el arcoseno de un número, en radianes, dentro del inte

ACOSH ACOSH Devuelve el coseno hiperbólico inverso de un número.

ACOT ACOT Devuelve el arco tangente de un número en radianes dentro del r

ACOTH ACOTH Devuelve la cotangente hiperbólica inversa de un número.

AGREGAR AGGREGATE Devuelve un agregado de una lista o base de datos.

ALEATORIO RAND Devuelve un número aleatorio mayor o igual que 0 y menor que 1

ALEATORIO.ENTRE RANDBETWEEN Devuelve un número aleatorio entre los números que especifique

ASENO ASIN Devuelve el arcoseno de un número en radianes, dentro del inter

ASENOH ASINH Devuelve el seno hiperbólico inverso de un número.

ATAN ATAN Devuelve el arco tangente de un número en radianes, dentro del


ATAN2 ATAN2 Devuelve el arco tangente de las coordenadas X e Y especificadas

ATANH ATANH Devuelve la tangente hiperbólica inversa de un número.

BASE BASE Convierte un número en una representación de texto con la base

COCIENTE QUOTIENT Devuelve la parte entera de una división.

COMBINA COMBINA Devuelve la cantidad de combinaciones con repeticiones de una c

COMBINAT COMBIN Devuelve el número de combinaciones para un número determin

CONV.DECIMAL DECIMAL Convierte una representación de texto de un número en una base

COS COS Devuelve el coseno de un ángulo.

COSH COSH Devuelve el coseno hiperbólico de un número.

COT COT Devuelve la cotangente de un ángulo.

COTH COTH Devuelve la cotangente hiperbólica de un número.

CSC CSC Devuelve la cosecante de un ángulo.

CSCH CSCH Devuelve la cosecante hiperbólica de un ángulo.

ENTERO INT Redondea un número hasta el entero inferior más próximo.

EXP EXP Devuelve e elevado a la potencia de un número determinado.

FACT FACT Devuelve el factorial de un número.

FACT.DOBLE FACTDOUBLE Devuelve el factorial doble de un número.


GRADOS DEGREES Convierte radianes en grados.

LN LN Devuelve el logaritmo natural de un número.

LOG LOG Devuelve el logaritmo de un número en la base especificada.

LOG10 LOG10 Devuelve el logaritmo en base 10 de un número.

M.C.D GCD Devuelve el máximo común divisor.

M.C.M LCM Devuelve el mínimo común múltiplo.

M.UNIDAD MUNIT Devuelve la matriz de la unidad para la dimensión especificada.

MDETERM MDETERM Devuelve el determinante matricial de una matriz.

MINVERSA MINVERSE Devuelve la matriz inversa de una matriz dentro de una matriz.

MMULT MMULT Devuelve el producto matricial de dos matrices, una matriz con e

MULTINOMIAL MULTINOMIAL Devuelve el polinomio de un conjunto de números.

MULTIPLO.INFERIOR.MAT FLOOR.MATH Redondea un número hacia abajo, al entero más cercano o al mú

MULTIPLO.SUPERIOR.MAT CEILING.MATH Redondea un número hacia arriba, al entero más cercano o al mú

NUMERO.ARABE ARABIC Convierte un número romano en arábigo.

NUMERO.ROMANO ROMAN Convierte un número arábigo en romano, en formato de texto.

PI PI Devuelve el valor Pi con precisión de 15 dígitos.

POTENCIA POWER Devuelve el resultado de elevar el número a una potencia.


PRODUCTO PRODUCT Multiplica todos los números especificados como argumentos.

RADIANES RADIANS Convierte grados en radianes.

RAIZ SQRT Devuelve la raíz cuadrada de un número.

RAIZ2PI SQRTPI Devuelve la raíz cuadrada de (número * Pi).

REDOND.MULT MROUND Devuelve un número redondeado al múltiplo deseado.

REDONDEA.IMPAR ODD Redondea un número positivo hacia arriba y un número negativo

REDONDEA.PAR EVEN Redondea un número positivo hacia arriba y un número negativo

REDONDEAR ROUND Redondea un número al número de decimales especificado.

REDONDEAR.MAS ROUNDUP Redondea un número hacia arriba, en dirección contraria a cero.

REDONDEAR.MENOS ROUNDDOWN Redondea un número hacia abajo, hacia cero.

RESIDUO MOD Proporciona el residuo después de dividir un número por un divis

SEC SEC Devuelve la secante de un ángulo.

SECH SECH Devuelve la secante hiperbólica de un ángulo.

SENO SIN Devuelve el seno de un ángulo determinado.

SENOH SINH Devuelve el seno hiperbólico de un número.

SIGNO SIGN Devuelve el signo de un número: 1, si el número es positivo; cero

SUBTOTALES SUBTOTAL Devuelve un subtotal dentro de una lista o una base de datos.
SUMA SUM Suma todos los números en un rango de celdas.

SUMA.CUADRADOS SUMSQ Devuelve la suma de los cuadrados de los argumentos.

SUMA.SERIES SERIESSUM Devuelve la suma de una serie de potencias.

SUMAPRODUCTO SUMPRODUCT Devuelve la suma de los productos de rangos o matrices correspo

SUMAR.SI SUMIF Suma las celdas que cumplen determinado criterio o condición.

SUMAR.SI.CONJUNTO SUMIFS Suma las celdas que cumplen un determinado conjunto de condic

SUMAX2MASY2 SUMX2PY2 Devuelve la suma del total de las sumas de cuadrados de número

SUMAX2MENOSY2 SUMX2MY2 Suma las diferencias entre cuadrados de dos rangos o matrices co

SUMAXMENOSY2 SUMXMY2 Suma los cuadrados de las diferencias en dos rangos correspondi

TAN TAN Devuelve la tangente de un ángulo.

TANH TANH Devuelve la tangente hiperbólica de un número.

TRUNCAR TRUNC Convierte un número decimal a uno entero al quitar la parte deci

¿Qué es Dato en Excel?

Un dato en Excel corresponde a la información que se almacena en las celdas


de la hoja de cálculo. En general, cada celda tiene un solo tipo de dato.
Además de ser almacenada Excel, los datos pueden ser utilizados para realizar
cálculos, crear gráficos, buscar información o filtrar valores.

Los tres tipos de datos comúnmente utilizados en Excel son: datos tipo texto,
datos numéricos y datos tipo formula.
Crear un gráfico SmartArt
Excel para Office 365 Word para Office 365 Outlook para Office 365 Más...

Crea un Gráfico SmartArt para hacer una representación visual de tu


información de forma rápida y sencilla. Puede elegir entre
numerosos diseños para transmitir de forma eficaz sus mensajes o
ideas. Gráficos SmartArt se pueden crear en Excel, Outlook,
PowerPoint y Word, y se pueden usar en Office.

Para obtener información general sobre Gráficos SmartArt, incluidas


las consideraciones para elegir el mejor tipo de gráfico y diseño para
mostrar los datos o proporcionar un concepto, consulte elegir un
elemento gráfico SmartArt.

1.048.576 filas en Excel


ESTRUCTURA

Las partes principales de un manual en general pueden ser las siguientes:

Tabla de contenido

Introducción

Instrucciones para el uso del manual

Cuerpo del manual

Flujogramas

Glosario de términos

Conclusiones

Recomendaciones

Anexos

También podría gustarte