Modulo01
1.¿Cuál es la técnica de análisis que cuantifica los patrones y las correlaciones encontrados en una
muestra grande de un conjunto de datos?
R. análisis cuantitativo
2.¿Qué disciplina se utiliza para analizar datos utilizando técnicas científicas y herramientas
automatizadas para encontrar patrones ocultos y correlaciones?
R. analítica
3.¿Cuál es la técnica de análisis en la que se analiza una pequeña muestra de datos con mayor
profundidad para describir diferentes calidades de datos usando palabras en lugar de números?
R. Analisis cualitativo
4.¿Qué tipo de sistema almacena datos operacionales normalizados que se pueden usar como
datos analíticos estructurados para soluciones de big data?
R. OLTP (procesamiento de transacciones en línea)
5.____________________los algoritmos pueden modificar el comportamiento de una
computadora usando un circuito de retroalimentación
R. Maching Learning
6.¿Qué tipo de sistema se usa en análisis de diagnóstico, predictivo y prescriptivo y puede servir
como una fuente de datos para soluciones de big data?
R. OLAP ()
7.¿Cuáles son los dos tipos principales de aprendizaje automático?
Supervisado y No Supervisado
8.nombrar tres controladores(drivers) de big data
R. Cualquiera de los siguientes:
- análisis y ciencia de datos
- digitizacion
- tecnología asequible y hardware básico
- social media
- Comunidades y dispositivos hiperconectados
- Cloud Computing
¿Cuáles son las cinco características de los datos que las soluciones de big data pueden procesar?
R. Volumen, Velocidad, Variedad, Veracidad, Valor
9.__ se puede usar para automatizar el análisis de datos usando extracción de datos(data mining),
aprendizaje automático, análisis estadístico y técnicas de análisis cuantitativo
R. Analitica (Analytics)
10.¿Cuáles son los tres tipos de datos que Big Data Solutions necesita para poder procesar?
R. Estructurado, Semi Estructurado, No Estructurado
11.¿Qué tipo de datos procesados por las soluciones de big data tiene la relación más baja de
ruido a señal?
R. Datos Estructurados
12.¿Cuáles son los cuatro tipos principales de análisis (Analytics)?
R. Descriptivo, Diagnostico, Predictivo, Prescriptivo
13._________ se basa en los otros tipos de análisis al sugerir un curso de acción que se puede
tomar para remediar un problema o un objetivo comercial
R. Analitica preescriptiva
14.cuanto menor es la fidelidad de los datos, mayor valor tiene para la empresa
R. Falso
Modulo2
1. Enumere las tres etapas del ciclo de vida que ocurren después de la extracción de datos
R. Algunas son:
-Validación y limpieza (Cleansing) de datos
-Agregación y representación de datos
-Análisis de datos (Data Analysis)
-Visualización de datos
-Uso de los resultados del análisis
2.Enumere los cuatro tipos principales de técnicas de análisis de big data
R.
- análisis estadístico
- semántica
- aprendizaje automático (machine learning)
- análisis visual
identificar la técnica de análisis que se basa en las matemáticas y se puede utilizar para determinar
la media o la moda de un conjunto de datos, o inferir relaciones dentro de los datos
R. Analisis Estadistico
3.dentro del Tests A/B , la versión de "control" de un elemento se somete al experimento antes de
la versión llamada "tratamiento"
R. Falso. -> ambos están sujetos al experimento simultáneamente
4. La técnica de análisis estadístico conocida como___ se usa generalmente para encontrar
relaciones lineales con datos que pueden ayudar a explicar un cierto fenómeno
R. Correlacion
5.La técnica ___ se centra en cómo se relaciona una variable dependiente con una variable
independiente, y se puede usar para hacer predicciones sobre los valores de la variable
dependiente desconocida.
R. Regresion
6. Una desventaja de usar la técnica de regresión es que solo se puede probar una variable
independiente
R. Falso... se puede usar más de una variable independiente, aunque solo uno puede experimentar
cambios
7. Enumere dos técnicas de análisis visual
R.Algunas son:
Mapas de calor
Analisis de series temporales
Analisis de red
Analisis de datos espaciales
8. cuando se aplica la técnica de análisis de red, las conexiones entre entidades siempre van en
ambos sentidos
R.Falso
9. Explicar la ley de la utilidad marginal decreciente
R. cada nuevo lote de datos que se agrega a un conjunto de datos tiene menos valor que la
muestra de datos original
10.Un sistema de recomendación se utiliza para hacer predicciones sobre las preferencias de un
cliente y sugerir productos en consecuencia, utilizando ___ filtrado y / o ___ filtrado
R.colaborativo, basado en el contenido
11.¿Cuál es la técnica de análisis utilizada para permitir que una computadora comprenda el habla
humana tal como la entienden los humanos?
R. Procesamiento de lenguaje natural (NLP)
12.Nombre los 8 mecanismos de analisis de big data
-Dispositivo de almacenamiento
-Motor de procesamiento
-Gestor de recursos
-Motor de transferencia de datos
-Motor de consultas (Query Engine)
-Motor analítico (Analytics Engine)
-Motor de flujo de trabajo (Workflow)
-Motor de coordinación
13.El mecanismo ___ generalmente usa los servicios provistos por el motor de coordinación para
administrar el procesamiento de datos en múltiples servidores, de modo que no necesita escribir
su propia lógica de coordinación
R. motor de procesamiento
14.El mecanismo ___ facilita el movimiento de datos dentro y fuera del almacenamiento
R.Motor de transferencia de datos
15.Enumere los tres posibles tipos de funcionalidades del motor de ingreso de transferencia de
datos y los mecanismos del motor de salida de transferencia de datos
R. evento, archivo, relacion
16.El mecanismo _ es responsable de programar la solicitud de procesamiento de acuerdo con los
requisitos de carga de trabajo, y es necesaria para la interoperabilidad en entornos de Big Data.
R. Gestor de recursos
17.Las diferencias en la estructura de datos y la semántica pueden complicar la etapa __
R. agregación y representación de datos
18.Nombre dos formas en que los resultados del análisis de datos obtenidos durante la etapa de
resultados de análisis de utilización pueden ser utilizados
R.-entrada automatizada para sistemas empresariales
-optimización de procesos comerciales
-alertas
19.La técnica de análisis ___ que se aplica para detectar datos que son significativamente
diferentes de la mayoría de los datos en un conjunto de datos determinado
R.detección de valores atípicos
20.La agrupación en clústeres es una (n) ___ técnica que divide los datos en diferentes grupos para
que cada grupo tenga un conjunto único de propiedades
R.Aprendizaje No supervisado
21.___ es una técnica de análisis que utiliza técnicas de extracción de datos, aprendizaje
automático y procesamiento de lenguaje para extraer valor del texto no estructurado
R. análisis de texto
22.____ El procesamiento de cargas de trabajo de forma manual impone retrasos más largos en
las respuestas, mientras que los datos en ___ cargas de trabajo de procesamiento se procesan sin
demoras
R. lote (batch), transaccional
23.El mecanismo __ abstrae el motor de procesamiento de los usuarios finales al proporcionar una
interfaz de usuario frontal
R. Motor de consultas (Query Engine)
24.La etapa ___ está dedicada a desarrollar objetivos y metas bien definidos que se pueden
cumplir llevando a cabo un proyecto de análisis de big data
R. Evaluación de caso de negocios
25.Datos que sirven como entrada para la técnica __ necesitan contener coordenadas de
ubicación exactas, o información que se puede usar para calcular las coordenadas
R. Analisis de datos espacial
26.Explica la ley de los grandes números
R. La confianza con la que se puede hacer una predicción aumenta a medida que aumenta el
tamaño de los datos que se analizan
27.¿Qué mecanismo de la tecnología Big Data se puede usar para diseñar y procesar una secuencia
larga de operación que se iniciará en ciertos intervalos?
R. motor de flujo de trabajo
28.La técnica ____ se implementa para determinar la actitud de un individuo y es efectiva para
detectar la insatisfacción del cliente
R. Analisis de sentimientos
29.El ___ es un sistema de archivos que puede almacenar archivos de gran tamaño en un clúster
de servidores
R. Sistema de Archivos distribuidos
Modulo3
1. Durante mi análisis de un conjunto de datos, comencé aplicando __ para determinar si dos
variables que ya he identificado están relacionadas entre sí. Esta aplicación me proporciona un
valor os 0.80, que básicamente indica que las dos variables están relacionadas entre sí.
En base a este hallazgo, luego aplico ___ para predecir el valor de la variable dependiente,
utilizando los valores conocidos de la variable independiente
R. Correlacion -&- Regresion
2.Como parte de la iniciativa de Big Data para el almacenamiento y análisis de archivos de registro,
una empresa comienza a construir una solución de Big Data. Los archivos de registro deben
extraerse de varios servidores en toda la empresa. el equipo de TI importa los archivos necesarios
y los guarda en la plataforma Big Data. Los requisitos iniciales dictan que cualquier analista que
carezca de habilidades de programación debería ser capaz de ejecutar consultas simples basadas
en la agregación en el conjunto de datos del archivo de registro. Después de un análisis exitoso del
conjunto de datos inicial, los analistas quieren incorporar datos diarios de registro en sus análisis.
El equipo de TI cumple con este requisito de tal manera que las importaciones de datos no
necesitan realizarse manualmente todos los días. Enumere todos los diferentes mecanismos de big
data que se implementan en la solución Big Data de la compañía.
R. hay 6 mecanismos de big data que se utilizan para construir la plataforma de big data:
-Dispositivo de almacenamiento (distributed file system)
- Gestor de recursos
- Motor de procesamiento (batch)
- Motor de transferencia de datos
- Motor de consultas (Query Engine)
- Motor de flujo de trabajo (Workflow)
3.Me piden que analice un gran conjunto de datos que consiste en transacciones financieras para
revelar cualquier patrón interesante en los datos. Una rápida mirada al conjunto de datos muestra
que los datos se han registrado en orden cronológico. Como resultado, realizo ___ para descubrir
cualquier patrón oculto en los datos. Al examinar un subconjunto de datos, descubro que una
parte de las transacciones no desprende las mismas propiedades que la mayoría de las
transacciones. Grabo las propiedades manifestadas por la porción de las transacciones. A
continuación, aplico la técnica ___ basada en el aprendizaje supervisado para identificar estas
transacciones
R. Analisis te series temporales -&- Detección de datos atípicos (outliers)
4.Cual de esas declaraciones es cierta?
1.NLP se basa únicamente en el aprendizaje supervisado
2.La agrupación (clustering) y la clasificación se pueden usar con fines de minería de datos
3.La regresión se puede usar primero para determinar si dos variables en un conjunto de datos
están relacionadas entre sí. La correlación puede usarse para predecir el valor de la variable
dependiente
4. La detección de valores atípicos puede basarse tanto en técnicas de aprendizaje supervisadas
como no supervisadas
R. 4
5.Un analista de investigación médica está explorando un conjunto de datos que contiene datos
relacionados con pacientes que padecen una enfermedad en particular en todo el país. su tarea
inicial es identificar primero el número total de pacientes relacionados con cada región. Luego
ejecuta varias consultas para establecer la razón por la cual los hombres son más propensos a
contraer esta enfermedad que las mujeres. Finalmente, usa un algoritmo para determinar las
posibilidades de que una persona contraiga esta enfermedad, en base a los casos conocidos
existentes.
¿Qué tres tipos de análisis acaban de describirse?
R. - Descriptivo
- Diagnostico
- Predictivo
6.Me han pedido que implemente un sistema de recomendación que recomienda canciones a los
oyentes de música en línea que registran sus preferencias de escucha en el sitio web de la
compañía. Una gran cantidad de datos sobre las preferencias de escucha de los usuarios ya está
disponible como resultado. En base a esta información, decido usar una técnica de aprendizaje
automático que compara las preferencias de escucha de un usuario objetivo con usuarios que
tienen preferencias de escucha similares. La técnica de aprendizaje automático utiliza los
resultados de esta comparación para proporcionar nuevas sugerencias de canciones al usuario
objetivo. ¿Qué técnica de filtrado estoy usando para implementar mi sistema de recomendación?
R. Filtrado colaborativo
7.A medida que implemente un ciclo de vida de análisis de Big Data en múltiples conjuntos de
datos que contienen datos de texto (archivos csv) de diferentes fuentes de datos, primero elimino
cualquier información innecesaria durante la etapa ___. Los datos requeridos para el análisis se
distribuyen en múltiples conjuntos de datos. Como resultado, me uno al conjunto de datos
necesarios juntos durante el estado__. Descubrí que algunos conjuntos de datos tienen la misma
información bajo diferentes etiquetas, si concilio estos conjuntos de datos durante la etapa ___.
Después de analizar con éxito los datos, presento mis hallazgos a la gerencia durante la etapa ___.
Sin embargo, uno de los gerentes no está seguro si las fugas son correctas. Puedo determinar la
exactitud de las cifras haciendo un seguimiento de los conjuntos de datos cuyos campos había
utilizado para calcular las figuras, porque recordé agregar metadatos durante la etapa __.
R.
-Adquisición de datos y filtrado
-Agregación y representación de datos
-Agregación y representación de datos
-Visualización de datos
-Adquisición de datos y filtrado
8.Se puede utilizar un motor de transferencia de datos basado en eventos tanto en la extracción
de datos como en la validación de datos y los pasos de limpieza del ciclo de vida de análisis Big
Data para la transformación automatizada y la limpieza de los datos de entrada.
R. Verdadero
9.¿Cuál de las siguientes afirmaciones es falsa?
- Dentro de las pruebas A / B, la versión de control se prueba primero antes de probar la versión
de tratamiento.
- Obtener un valor de 0 del análisis de correlación sugiere que no hay mucho valor en el análisis de
regresión, ya que las dos variables no están relacionadas entre sí en absoluto.
- Obtener un valor de 0 del análisis de correlación sugiere que el análisis de regresión puede
aplicarse más, para predecir una disminución en la variable dependiente a medida que aumenta el
valor de la variable dependiente
R. la primera declaración es falsa Tanto la versión de control como la versión de tratamiento
deben probarse al mismo tiempo
10.Una empresa de servicios públicos que es responsable de suministrar agua posee una gran
cantidad de tuberías que están interconectadas. Estas tuberías se ejecutan desde las plantas de
tratamiento hasta el nivel de propiedad. El sistema actual para analizar la infraestructura de
tuberías utiliza una base de datos relacional para almacenar todos los segmentos de tubería. Esta
base de datos se utiliza para consultar los datos de la tubería como parte del mantenimiento
general, así como para reparar fugas. Se informó que los usuarios están experimentando un
retraso severo cuando realizan consultas basadas en enlaces de localización entre tuberías. Usted
determina que se debe realizar un análisis para trazar las entidades como nodos y las conexiones
como bordes entre los nodos en los datos de las tuberías.
¿Qué técnica de análisis se requiere?
R. Analisis de red
11Se me proporciona un gran conjunto de datos y se me instruye para descubrir cualquier patrón
interesante dentro de los datos. El conjunto de datos contiene atributos que son pertinentes para
descubrir patrones ocultos, decido realizar __ análisis de datos durante el paso de análisis de datos
del ciclo de vida de análisis de Big Data.
R. Exploratorio
---
La mayor parte de estas prácticas relacionadas con el análisis pueden ser aplicadas por —o de
alguna forma están relacionadas con— algunas de las técnicas de análisis precedentes. La
siguiente lista describe brevemente cómo pueden estar relacionadas estas áreas temáticas.
- Análisis cuantitativo: algunos ejemplos de análisis cuantitativo son la correlación y la regresión.
Los tests A/B pueden utilizar las técnicas de análisis cuantitativo para comparar los resultados.
-Análisis cualitativo: el NLP, la analítica de texto (text analytics) y el análisis de sentimientos
(Sentiment Analysis) pueden ser utilizados para respaldar el análisis cualitativo. -Minería de datos
(Data Mining): la minería de datos (Data Mining) puede ser ejecutada o respaldada por medio de
correlaciones, mapas de calor, análisis de series temporales, análisis de redes, análisis de datos
espaciales, agrupamiento (Clustering), detección de datos atípicos (outliers), procesamiento de
lenguaje natural y analítica de texto (text analytics).
- Analítica descriptiva: los tests A/B, mapas de calor y análisis de datos espaciales son considerados
formas de analítica descriptiva.
- Analítica diagnóstica: las correlaciones, la regresión, los análisis de series temporales, análisis de
redes y análisis de datos espaciales son considerados formas de analítica diagnóstica. - Analítica
predictiva: las correlaciones, la regresión, los análisis de series temporales, la clasificación, el
agrupamiento (Clustering), la detección de datos atípicos (outliers), el filtrado (filtering),
procesamiento de lenguaje natural, la analítica de texto (text analytics) y el análisis de
sentimientos (Sentiment Analysis) son considerados formas de analítica predictiva. -Analítica
prescriptiva: la analítica prescriptiva está basada en técnicas de analítica predictiva, y por lo tanto
está relacionada con las mismas técnicas de análisis que la analítica predictiva. Asimismo, la
analítica prescriptiva puede emplear mapas de calor, análisis de redes y análisis de datos
espaciales para ilustrar los resultados de forma gráfica.
-Aprendizaje supervisado: la clasificación, detección de datos atípicos (outliers), filtrado (filtering),
procesamiento de lenguaje natural, analítica de texto (text analytics) y el análisis de sentimientos
(Sentiment Analysis) pueden utilizar el aprendizaje supervisado.
-Aprendizaje no supervisado: el agrupamiento (Clustering), la detección de datos atípicos
(outliers), filtrado (filtering), procesamiento de lenguaje natural, analítica de texto (text analytics) y
el análisis de sentimientos (Sentiment Analysis) pueden hacer uso del aprendizaje no supervisado.
Modulo4
1. Enumerar cualquiera de las tres categorías de conjuntos de datos de big data comunes
R. - Alto Volumen
-Alta velocidad
-Alta variedad
-Alta veracidad
-Alto Valor
2. Enumerar los tres tipos de algoritmos de aprendizaje automático
R. -Aprendizaje Supervisado
-Aprendizaje Sin Supervisar
-Aprendizaje Semi supervisado
3.Identificar la disciplina donde se usan principios, procesos y técnicas distintos para la extracción
de conocimiento a partir de grandes cantidades de datos
R. Ciencia de los datos (data science)
4.La __ usa ecuaciones matemáticas o conjuntos de reglas para representar relaciones entre
atributos de dato
R. moda (model)
5.Siempre se establece una hipótesis antes de realizar un análisis de datos exploratorios
R. Falso... la hipótesis a menudo se desconoce hasta después de que se realiza el análisis de datos
exploratorios porque a menudo se desconoce qué fenómenos existen en grandes cantidades de
datos hasta después del análisis.
6.Enumere las dos estadísticas usadas para medir qué tan consistentemente un proceso genera
datos
R. -Varianza
-Desviacion estandar
7.un set de valores puede tener solo una moda
R.Falso. -> un conjunto de valores puede ser bimodal o multimodal para tener dos o más modas
respectivamente
8.Describe el proceso de munging de datos (data munging)
R.Los datos brutos se extraen y manipulan aplicando técnicas de limpieza, filtrado, validación y
transformación de formato para preparar los datos para el análisis.
9.El proceso de derivar conclusiones de los datos generados a partir de procesos estocásticos se
conoce como __
R. inferencia estadística
10.¿Cuál es la estadística utilizada para representar el promedio de un conjunto de datos que se
encuentra al dividir la suma de todos los valores por el recuento de todos los valores?
R. Media
11.Nombra los ocho tipos de variables que representan los atributos medibles u observables de un
objeto
R.
-Discreto -continuo -ordinal -binario
-cuantitativo -independiente -aleatorio
12.Identifique la estadística que proporciona información sobre el margen o ancho de un conjunto
de datos y puede obtenerse restando el valor mínimo del valor máximo
R. Rango
13.Enumera los tres tipos generales de pociones en las que se pueden dividir, clasificar u ordenar
los datos
R. Quartiles, Quintiles, Percentiles
14.Cuando los valores extremos producen una media falsa, el ___ puede obtenerse al encontrar el
valor medio entre un número impar de todos los valores ordenados
R. Mediana
15.Identifique el término utilizado para definir un conjunto de atributos relacionados con el
objeto, como nombres de clientes y direcciones de correo electrónico
R. Observacion
16.La ____ representa hasta qué punto el promedio de valores múltiples de un estimador,
calculado a partir de muestras de múltiplos, proviene del parámetro de población
R. sesgo(bias)
Técnicamente, un sesgo representa qué tan lejos está el promedio de los múltiples valores de un
estimador (calculado a partir de múltiples muestras) del correspondiente parámetro de población.
17.___ es un valor no negativo que muestra la dispersión de los valores en comparación con la
media de los valores del centro de una distribución
R. Variaza
18.Identifique la estadística utilizada para ayudar a tomar decisiones sobre datos de manera
estandarizada al concentrarse en los valores que están más cerca o más lejos del conjunto normal
de valores
R. PuntuacionZ
19.Nombra los ocho tipos de distribuciones utilizados para resumir las ocurrencias de diferentes
valores o resultados de una variable
R.
-frecuencia -probabilidad
-muestreo -binomial
-geométrico -poisson
-normal -uniforme
20.La cantidad de asimetría en una distribución de probabilidad cuando se mide a partir del valor
de la media es una medida de __
R. Sesgo (Skewness)
21.Explica la diferencia entre distribuciones de probabilidad discretas y continuas
R. Una distribución discreta considera que cada valor específico de la variable aleatoria tiene una
probabilidad distinta de cero, mientras que la probabilidad es cero para un valor específico y no es
cero para una serie de intervalos en distribuciones continuas.
22.¿Qué distribución discreta se puede usar para encontrar la probabilidad de que un evento
ocurra aleatoriamente un número fijo de veces dentro de un intervalo de tiempo o espacio fijo,
pidiendo que se conozca con anticipación la ocurrencia promedio o la tasa de ocurrencia?
R. Distribucion de Poisson
23.La ___ es una distribución de probabilidad continua simétrica donde la mayoría de los valores
se encuentran muy cerca del valor medio
R. Distribucion normal
24.la probabilidad de que ocurra cualquier valor de la variable aleatoria, o de un valor dentro de
un intervalo, es igualmente posible y lo mismo que se mide en un ___
R. Distribucion uniforme
25.Identificar la ciencia donde se usa una descripción numérica de datos como entrada para
técnicas de resumen y visualización, que se llevan a cabo para interpretar datos con el fin de
formular preguntas
R. Estadistica Descriptiva
26.___ se refiere al grado de asociación lineal entre dos variables que se mide utilizando un
coeficiente
R. Correlacion
27.Una hipótesis nula se basa en hechos, lo que significa que hay evidencia detrás del fenómeno
observado
R. Falso.Lo opuesto es cierto cuando las observaciones se basan exclusivamente en el cambio
utilizando datos de muestra, lo que significa que no hay verdad detrás de los fenómenos
observados.
28.El ___ es la probabilidad de obtener un valor, calculado a partir de la muestra, tan extremo o
más extremo que el valor observado original, bajo el supuesto de que la hipótesis nula es
verdadera
R. P- Valor
29.Proporcione una descripción de la técnica conocida como análisis de series temporales
R.Se puede analizar una colección ordenada en el tiempo de valores registrados en intervalos de
tiempo regulares para pronosticar e identificar tendencias a largo plazo, patrones periódicos
estacionales y variaciones irregulares a corto plazo en los valores de una variable.
30.Un__ es una característica de los datos, como las columnas en una tabla de base de datos que
representan instancias de datos como se muestran en filas
R. Atributo
31.Identifique cinco de las siete técnicas de visualización que se pueden usar para mostrar datos
R.
-Gráfico de barras
-Gráfico de líneas
-Histograma
-Polígonos de frecuencia
-Diagrama de dispersión (scatter plot)
-Diagrama de tallos y hojas (stem and leaf plot)
-Tabulación cruzada
32.El proceso de ____ implica la extracción de atributos cuantitativos de los datos y la producción
de varios resúmenes numéricos y gráficos, con el fin de desarrollar una comprensión de los datos
R. Analisis de datos Exploratorio
33.Identificar dos de los tres tipos de resúmenes numéricos
R.Los resúmenes numéricos emplean técnicas de estadística descriptiva para resumir los datos.
Existen tres tipos de resúmenes numéricos:
- Medidas de tendencia central
- Medidas de variación o dispersión
- Medidas de asociación
34.El proceso de __ se usa como una técnica de aprendizaje automático no supervisada para crear
grupos de elementos donde cada grupo contiene elementos similares
R. Agrupamiento (Clustering)
35.La técnica ____ se usa cuando las instancias se clasifican según su similitud, con un número de
ejemplos definidos por el usuario
R. Clasificación: k-NN (K-vecinos más cercanos)
36.Identificar el algoritmo de agrupamiento utilizado como una medida basada en la distancia para
crear grupos de elementos homogéneos
R. Agrupamiento (Clustering): k-medias
37.El estimador de la varianza en el valor predicho o el término de error se conoce como el __
R. error medio cuadrado (mean squared error)
38.Las discrepancias entre el valor predicho y el valor real se conocen como ___ o ___ que
generalmente se representan como un valor constante
R. Término de error o ruido
Modulo7
1. Enumere las tres propiedades asociadas con el teorema CAP
R.consistencia, disponibilidad y tolerancia al particionado
2. ¿Qué significa el principio de diseño de la base de datos ACID?
R.- atomicidad (Atomicity) - consistencia (Consistency)
- aislamiento (Isolation) - durabilidad (Durability))
3. ¿Qué significa el principio de diseño de la base BASE?
BASE (por su acrónimo en inglés) es un principio de diseño de bases de datos basado en el
teorema CAP y seguido por sistemas de bases de datos que hacen uso de la tecnología distribuida.
El acrónimo BASE representa:
- disponibilidad todo el tiempo (Basically Available)
- estado flexible (Soft state)
- consistencia a largo plazo (Eventual consistency)
4.Cada fragmento(Shard) compartía el mismo __
R. Esquema
5.Enumere los dos métodos para implementar la replicación
R. -Maestro - Esclavo
- Peer - to -peer
6.__ realiza una copia de un conjunto de datos y lo almacena en varios nodos
R. Replicacion
7.Enumere todas las etapas de MapReduce en el orden correcto
R.
1 -> mapear
2 -> combinar
3 -> dividir
4 -> mezclar y clasificar (Shuffle and sort)
5 -> reducir
8.__ Se refiere a la paralelización del procesamiento de datos al dividir un conjunto de datos en
múltiples sub-conjuntos de datos y procesar cada sub conjunto en paralelo
R.paralelismo de datos
9.Identificar el principio en el que se basa MapReduce
R. divide y conquistaras (divide and conquer)
10.En MapReduce, la lógica de la función de reduce depende del resultadode la función __
R. de Mapeo (the map function)
11.Enumere los dos enfoques generalmente utilizados para lograr el principio de divide y vencerás.
R. El principio de dividir un problema difícil en tantas partes como sea necesario se puede alcanzar
generalmente al usar uno de los siguientes enfoques:
- paralelismo de tareas
- paralelismo de datos
12.El sharding y la replicación pueden combinarse para mejorar la capacidad de recuperación
parcial de la fragmentación mientras se aborda el rendimiento de lectura / escritura de la
replicación.
R. Verdadero
13.Para proporcionar estructura a los datos almacenados, la mayoría de los dispositivos de
almacenamiento de valores clave(key-value) proporcionan colecciones, como tablas, en las que se
pueden organizar pares de claves y valores.
R. Verdadero
14.los dispositivos de almacenamiento de documentos no almacenan datos como pares
clave.valor
R. Falso -> Al igual que los dispositivos de almacenamiento de valores clave, los dispositivos de
almacenamiento de documentos también almacenan datos como pares clave-valor
15.Enumerar tres tipos de tecnologías de bases de datos prevalentes en entornos de soluciones de
big data
Dispositivo de almacenamiento en disco: base de datos En los entornos de solución de Big Data,
predominan tres tipos de tecnología de bases de datos para el almacenamiento en disco:
- bases de datos relacionales o sistemas de gestión de bases de datos relacionales (RDBMS, por sus
siglas en inglés)
- bases de datos no relacionales o no solo SQL (NoSQL)
- NewSQL
16.Un clúster solo puede ser utilizado por un motor de procesamiento en tiempo real y no por un
motor de procesamiento por lotes
R. Falso -> Un clúster puede ser utilizado tanto por un motor de procesamiento en tiempo real
como por un motor de procesamiento por lotes.
17.Enumere los dos tipos en los que los dispositivos de almacenamiento se pueden dividir
ampliamente en función del tipo de medio de almacenamiento utilizado
R. -en el almacenamiento en disco
-en el almacenamiento de memoria
18.Identificar el requisito del motor de procesamiento que proporciona soporte para modelos de
datos en evolución y permite el procesamiento de datos en su forma original sin realizar
transformaciones de modelos de datos
R. procesamiento de datos sin esquema
19.A continuación se presentan las siguientes características del motor de procesamiento:
-procesamiento de datos distribuidos/paralelos
- procesamiento de datos sin esquema
- soporte para múltiples cargas de trabajo
- escalabilidad lineal
- redundancia y tolerancia a errores
- bajo costo
20.Identificar el requisito del motor de procesamiento que permite el procesamiento de grandes
cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al
recurso informático
R. procesamiento de datos distribuidos/paralelos
21.Identificar el requisito del motor de procesamiento que brinda disponibilidad ante fallas en los
sistemas
R. - redundancia y tolerancia a errores
22.Los dispositivos de almacenamiento NoSQL pueden dividirse en cuatro tipos principales, según
la forma en que almacenan los datos,
- llave-valor (key-value)
- documento
- basado en columnas
- grafo
23.Identificar el tipo de dispositivo de almacenamiento NoSQL que pone énfasis en almacenar los
enlaces entre entidades en lugar de poner énfasis en la estructura de las entidades
R. Grafo
24.Identifique el proceso de partición de un conjunto de datos con una gran cantidad de filas en
conjuntos de datos más pequeños y manejables
R.Sharding
25.Sharding es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets
más pequeños y manejables llamados shards, distribuidos entre múltiples nodos.
26.Identifique el tipo de dispositivo de almacenamiento NoSQL que agrupa columnas relacionadas
en una fila
R. basado en columnas
27.__ se refiere a la paralelización del procesamiento de datos dividiendo una tarea en subtareas y
ejecutando cada subtarea en un procesador separado, generalmente en un nodo separado en un
clúster
R. paralelismo de tareas
28.Los RDBMS emplean escala horizontal, no escalado vertical, lo que los hace ideales para el
almacenamiento a largo plazo de datos
R. Falso -> Los RDBMS emplean escalas verticales, no escalas horizontales. Como resultado, los
RDBMS no son ideales para el almacenamiento a largo plazo de datos
29.Los RDBMS cumplen ___ y, por lo tanto, generalmente están restringidos a un único nodo
R. ACID
30.En la replicación punto a punto (peer-to-peer), todos los nodos operan en el mismo nivel
R. Verdadero
31.Las incoherencias de escritura que se producen en la replicación punto a punto se pueden
abordar implementando ___ o ___ concurrencia
R. Pesimista u Optimista
32.Los clústeres admiten ____ escalar con ganancias de rendimiento lineal
R. Horizontal
33.Escalabilidad horizontal en lugar de escalabilidad vertical: se añaden más nodos, a medida que
sea necesario, en lugar de reemplazar el nodo actual con uno más grande y de mejor rendimiento.
Teorema CAP ACID ---CONSISTENCIA BASE --- DISPONIBILIDAD
El teorema CAP, establece que un ACID es un principio de diseño de BASE es un principio de diseño de bases de dat
sistema de archivos distribuido, bases de datos que comprende: seguido por sistemas de bases de datos que hacen
particularmente una base de datos El acrónimo BASE representa:
que funciona en cluster, solo * La Atomicidad (Atomicity A)
puede proporcionar dos de las tres asegura que todas las operaciones * Disponibilidad todo el tiempo (Basically Availab
propiedades a continuación: serán siempre exitosas o fallidas por se refiere a que la base de datos siempre reconoc
completo. En otras palabras, no hay como datos solicitados o una notificación de éxito
* Consistencia (Consistence C): operaciones parciales.
una operación de lectura desde *El “estado flexible (Soft State S)” implica que la
cualquier nodo muestra los *La Consistencia (Consistency C) estado consistente cuando se lean los datos, y po
mismos datos en varios nodos garantiza que una base de datos solo cambiar si se solicitan estos mismos datos de nue
permitirá datos válidos y que siempre podrían actualizarse para ser consistentes, aunqu
* Disponibilidad (Availability A): será consistente después de una datos entre las dos operaciones de lectura. Esta
una solicitud de lectura o escritura operación. Se garantiza que cualquier relacionada con la consistencia a largo plazo.
siempre será reconocida como un operación de escritura seguida de una
éxito o un fracaso lectura inmediata es consistente para *La “consistencia a largo plazo (Eventual consiste
múltiples clientes. operaciones de lectura llevadas a cabo por diferen
* Tolerancia a la partición operación de escritura podrían no tener resultado
(Partition Tolerance P): el sistema *El aIslamiento (Isolation I) solo alcanza la consistencia una vez los cambios s
de base de datos puede tolerar la asegura que los resultados de una nodos. Por lo tanto, mientras la base de datos
suspensión de la comunicación, la operación no son visibles a otras estado de consistencia a largo plazo, se encontrará
cual separa el cluster en varios operaciones hasta que finalice dicha
silos, y puede seguir atendiendo operación.
las solicitudes de lectura y
escritura *La Durabilidad (Durability D)
garantiza que los resultados de una
operación sean permanentes. En
otras palabras, una vez se haya
realizado la operación, no se puede
revertir. Esto es independiente de
cualquier fallo del sistema.