100% encontró este documento útil (1 voto)

103 vistas17 páginas

TESTCompleto

El documento abarca conceptos clave sobre análisis de datos, incluyendo técnicas como análisis cuantitativo, cualitativo, y aprendizaje automático. Se describen sistemas y mecanismos de Big Data, así como etapas del ciclo de vida del análisis de datos. Además, se discuten tipos de análisis, características de los datos y técnicas específicas como regresión, correlación y análisis de red.

Cargado por

Claudia S

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

103 vistas17 páginas

TESTCompleto

Cargado por

Claudia S

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Modulo01

1.¿Cuál es la técnica de análisis que cuantifica los patrones y las correlaciones encontrados en una
muestra grande de un conjunto de datos?
R. análisis cuantitativo

2.¿Qué disciplina se utiliza para analizar datos utilizando técnicas científicas y herramientas
automatizadas para encontrar patrones ocultos y correlaciones?
R. analítica

3.¿Cuál es la técnica de análisis en la que se analiza una pequeña muestra de datos con mayor
profundidad para describir diferentes calidades de datos usando palabras en lugar de números?
R. Analisis cualitativo

4.¿Qué tipo de sistema almacena datos operacionales normalizados que se pueden usar como
datos analíticos estructurados para soluciones de big data?
R. OLTP (procesamiento de transacciones en línea)

5.____________________los algoritmos pueden modificar el comportamiento de una

computadora usando un circuito de retroalimentación
R. Maching Learning

6.¿Qué tipo de sistema se usa en análisis de diagnóstico, predictivo y prescriptivo y puede servir
como una fuente de datos para soluciones de big data?
R. OLAP ()

7.¿Cuáles son los dos tipos principales de aprendizaje automático?

Supervisado y No Supervisado

8.nombrar tres controladores(drivers) de big data

R. Cualquiera de los siguientes:
- análisis y ciencia de datos
- digitizacion
- tecnología asequible y hardware básico
- social media
- Comunidades y dispositivos hiperconectados
- Cloud Computing

¿Cuáles son las cinco características de los datos que las soluciones de big data pueden procesar?
R. Volumen, Velocidad, Variedad, Veracidad, Valor

9.__ se puede usar para automatizar el análisis de datos usando extracción de datos(data mining),
aprendizaje automático, análisis estadístico y técnicas de análisis cuantitativo
R. Analitica (Analytics)

10.¿Cuáles son los tres tipos de datos que Big Data Solutions necesita para poder procesar?
R. Estructurado, Semi Estructurado, No Estructurado
11.¿Qué tipo de datos procesados por las soluciones de big data tiene la relación más baja de
ruido a señal?
R. Datos Estructurados

12.¿Cuáles son los cuatro tipos principales de análisis (Analytics)?

R. Descriptivo, Diagnostico, Predictivo, Prescriptivo

13._________ se basa en los otros tipos de análisis al sugerir un curso de acción que se puede
tomar para remediar un problema o un objetivo comercial
R. Analitica preescriptiva

14.cuanto menor es la fidelidad de los datos, mayor valor tiene para la empresa
R. Falso

Modulo2
1. Enumere las tres etapas del ciclo de vida que ocurren después de la extracción de datos
R. Algunas son:
-Validación y limpieza (Cleansing) de datos
-Agregación y representación de datos
-Análisis de datos (Data Analysis)
-Visualización de datos
-Uso de los resultados del análisis

2.Enumere los cuatro tipos principales de técnicas de análisis de big data

R.
- análisis estadístico
- semántica
- aprendizaje automático (machine learning)
- análisis visual

identificar la técnica de análisis que se basa en las matemáticas y se puede utilizar para determinar
la media o la moda de un conjunto de datos, o inferir relaciones dentro de los datos
R. Analisis Estadistico

3.dentro del Tests A/B , la versión de "control" de un elemento se somete al experimento antes de
la versión llamada "tratamiento"
R. Falso. -> ambos están sujetos al experimento simultáneamente

4. La técnica de análisis estadístico conocida como___ se usa generalmente para encontrar

relaciones lineales con datos que pueden ayudar a explicar un cierto fenómeno
R. Correlacion

5.La técnica ___ se centra en cómo se relaciona una variable dependiente con una variable
independiente, y se puede usar para hacer predicciones sobre los valores de la variable
dependiente desconocida.
R. Regresion
6. Una desventaja de usar la técnica de regresión es que solo se puede probar una variable
independiente
R. Falso... se puede usar más de una variable independiente, aunque solo uno puede experimentar
cambios

7. Enumere dos técnicas de análisis visual

R.Algunas son:
Mapas de calor
Analisis de series temporales
Analisis de red
Analisis de datos espaciales

8. cuando se aplica la técnica de análisis de red, las conexiones entre entidades siempre van en
ambos sentidos
R.Falso

9. Explicar la ley de la utilidad marginal decreciente

R. cada nuevo lote de datos que se agrega a un conjunto de datos tiene menos valor que la
muestra de datos original

10.Un sistema de recomendación se utiliza para hacer predicciones sobre las preferencias de un
cliente y sugerir productos en consecuencia, utilizando ___ filtrado y / o ___ filtrado
R.colaborativo, basado en el contenido

11.¿Cuál es la técnica de análisis utilizada para permitir que una computadora comprenda el habla
humana tal como la entienden los humanos?
R. Procesamiento de lenguaje natural (NLP)

12.Nombre los 8 mecanismos de analisis de big data

-Dispositivo de almacenamiento
-Motor de procesamiento
-Gestor de recursos
-Motor de transferencia de datos
-Motor de consultas (Query Engine)
-Motor analítico (Analytics Engine)
-Motor de flujo de trabajo (Workflow)
-Motor de coordinación

13.El mecanismo ___ generalmente usa los servicios provistos por el motor de coordinación para
administrar el procesamiento de datos en múltiples servidores, de modo que no necesita escribir
su propia lógica de coordinación
R. motor de procesamiento

14.El mecanismo ___ facilita el movimiento de datos dentro y fuera del almacenamiento
R.Motor de transferencia de datos

15.Enumere los tres posibles tipos de funcionalidades del motor de ingreso de transferencia de
datos y los mecanismos del motor de salida de transferencia de datos
R. evento, archivo, relacion

16.El mecanismo _ es responsable de programar la solicitud de procesamiento de acuerdo con los

requisitos de carga de trabajo, y es necesaria para la interoperabilidad en entornos de Big Data.
R. Gestor de recursos

17.Las diferencias en la estructura de datos y la semántica pueden complicar la etapa __

R. agregación y representación de datos

18.Nombre dos formas en que los resultados del análisis de datos obtenidos durante la etapa de
resultados de análisis de utilización pueden ser utilizados
R.-entrada automatizada para sistemas empresariales
-optimización de procesos comerciales
-alertas

19.La técnica de análisis ___ que se aplica para detectar datos que son significativamente
diferentes de la mayoría de los datos en un conjunto de datos determinado
R.detección de valores atípicos

20.La agrupación en clústeres es una (n) ___ técnica que divide los datos en diferentes grupos para
que cada grupo tenga un conjunto único de propiedades
R.Aprendizaje No supervisado

21.___ es una técnica de análisis que utiliza técnicas de extracción de datos, aprendizaje
automático y procesamiento de lenguaje para extraer valor del texto no estructurado
R. análisis de texto

22.____ El procesamiento de cargas de trabajo de forma manual impone retrasos más largos en
las respuestas, mientras que los datos en ___ cargas de trabajo de procesamiento se procesan sin
demoras
R. lote (batch), transaccional

23.El mecanismo __ abstrae el motor de procesamiento de los usuarios finales al proporcionar una
interfaz de usuario frontal
R. Motor de consultas (Query Engine)

24.La etapa ___ está dedicada a desarrollar objetivos y metas bien definidos que se pueden
cumplir llevando a cabo un proyecto de análisis de big data
R. Evaluación de caso de negocios

25.Datos que sirven como entrada para la técnica __ necesitan contener coordenadas de
ubicación exactas, o información que se puede usar para calcular las coordenadas
R. Analisis de datos espacial

26.Explica la ley de los grandes números

R. La confianza con la que se puede hacer una predicción aumenta a medida que aumenta el
tamaño de los datos que se analizan
27.¿Qué mecanismo de la tecnología Big Data se puede usar para diseñar y procesar una secuencia
larga de operación que se iniciará en ciertos intervalos?
R. motor de flujo de trabajo

28.La técnica ____ se implementa para determinar la actitud de un individuo y es efectiva para
detectar la insatisfacción del cliente
R. Analisis de sentimientos

29.El ___ es un sistema de archivos que puede almacenar archivos de gran tamaño en un clúster
de servidores
R. Sistema de Archivos distribuidos

Modulo3
1. Durante mi análisis de un conjunto de datos, comencé aplicando __ para determinar si dos
variables que ya he identificado están relacionadas entre sí. Esta aplicación me proporciona un
valor os 0.80, que básicamente indica que las dos variables están relacionadas entre sí.
En base a este hallazgo, luego aplico ___ para predecir el valor de la variable dependiente,
utilizando los valores conocidos de la variable independiente
R. Correlacion -&- Regresion

2.Como parte de la iniciativa de Big Data para el almacenamiento y análisis de archivos de registro,
una empresa comienza a construir una solución de Big Data. Los archivos de registro deben
extraerse de varios servidores en toda la empresa. el equipo de TI importa los archivos necesarios
y los guarda en la plataforma Big Data. Los requisitos iniciales dictan que cualquier analista que
carezca de habilidades de programación debería ser capaz de ejecutar consultas simples basadas
en la agregación en el conjunto de datos del archivo de registro. Después de un análisis exitoso del
conjunto de datos inicial, los analistas quieren incorporar datos diarios de registro en sus análisis.
El equipo de TI cumple con este requisito de tal manera que las importaciones de datos no
necesitan realizarse manualmente todos los días. Enumere todos los diferentes mecanismos de big
data que se implementan en la solución Big Data de la compañía.
R. hay 6 mecanismos de big data que se utilizan para construir la plataforma de big data:
-Dispositivo de almacenamiento (distributed file system)
- Gestor de recursos
- Motor de procesamiento (batch)
- Motor de transferencia de datos
- Motor de consultas (Query Engine)
- Motor de flujo de trabajo (Workflow)

3.Me piden que analice un gran conjunto de datos que consiste en transacciones financieras para
revelar cualquier patrón interesante en los datos. Una rápida mirada al conjunto de datos muestra
que los datos se han registrado en orden cronológico. Como resultado, realizo ___ para descubrir
cualquier patrón oculto en los datos. Al examinar un subconjunto de datos, descubro que una
parte de las transacciones no desprende las mismas propiedades que la mayoría de las
transacciones. Grabo las propiedades manifestadas por la porción de las transacciones. A
continuación, aplico la técnica ___ basada en el aprendizaje supervisado para identificar estas
transacciones
R. Analisis te series temporales -&- Detección de datos atípicos (outliers)
4.Cual de esas declaraciones es cierta?
1.NLP se basa únicamente en el aprendizaje supervisado
2.La agrupación (clustering) y la clasificación se pueden usar con fines de minería de datos
3.La regresión se puede usar primero para determinar si dos variables en un conjunto de datos
están relacionadas entre sí. La correlación puede usarse para predecir el valor de la variable
dependiente
4. La detección de valores atípicos puede basarse tanto en técnicas de aprendizaje supervisadas
como no supervisadas
R. 4

5.Un analista de investigación médica está explorando un conjunto de datos que contiene datos
relacionados con pacientes que padecen una enfermedad en particular en todo el país. su tarea
inicial es identificar primero el número total de pacientes relacionados con cada región. Luego
ejecuta varias consultas para establecer la razón por la cual los hombres son más propensos a
contraer esta enfermedad que las mujeres. Finalmente, usa un algoritmo para determinar las
posibilidades de que una persona contraiga esta enfermedad, en base a los casos conocidos
existentes.
¿Qué tres tipos de análisis acaban de describirse?
R. - Descriptivo
- Diagnostico
- Predictivo

6.Me han pedido que implemente un sistema de recomendación que recomienda canciones a los
oyentes de música en línea que registran sus preferencias de escucha en el sitio web de la
compañía. Una gran cantidad de datos sobre las preferencias de escucha de los usuarios ya está
disponible como resultado. En base a esta información, decido usar una técnica de aprendizaje
automático que compara las preferencias de escucha de un usuario objetivo con usuarios que
tienen preferencias de escucha similares. La técnica de aprendizaje automático utiliza los
resultados de esta comparación para proporcionar nuevas sugerencias de canciones al usuario
objetivo. ¿Qué técnica de filtrado estoy usando para implementar mi sistema de recomendación?
R. Filtrado colaborativo

7.A medida que implemente un ciclo de vida de análisis de Big Data en múltiples conjuntos de
datos que contienen datos de texto (archivos csv) de diferentes fuentes de datos, primero elimino
cualquier información innecesaria durante la etapa ___. Los datos requeridos para el análisis se
distribuyen en múltiples conjuntos de datos. Como resultado, me uno al conjunto de datos
necesarios juntos durante el estado__. Descubrí que algunos conjuntos de datos tienen la misma
información bajo diferentes etiquetas, si concilio estos conjuntos de datos durante la etapa ___.
Después de analizar con éxito los datos, presento mis hallazgos a la gerencia durante la etapa ___.
Sin embargo, uno de los gerentes no está seguro si las fugas son correctas. Puedo determinar la
exactitud de las cifras haciendo un seguimiento de los conjuntos de datos cuyos campos había
utilizado para calcular las figuras, porque recordé agregar metadatos durante la etapa __.
R.
-Adquisición de datos y filtrado
-Agregación y representación de datos
-Agregación y representación de datos
-Visualización de datos
-Adquisición de datos y filtrado
8.Se puede utilizar un motor de transferencia de datos basado en eventos tanto en la extracción
de datos como en la validación de datos y los pasos de limpieza del ciclo de vida de análisis Big
Data para la transformación automatizada y la limpieza de los datos de entrada.
R. Verdadero

9.¿Cuál de las siguientes afirmaciones es falsa?

- Dentro de las pruebas A / B, la versión de control se prueba primero antes de probar la versión
de tratamiento.
- Obtener un valor de 0 del análisis de correlación sugiere que no hay mucho valor en el análisis de
regresión, ya que las dos variables no están relacionadas entre sí en absoluto.
- Obtener un valor de 0 del análisis de correlación sugiere que el análisis de regresión puede
aplicarse más, para predecir una disminución en la variable dependiente a medida que aumenta el
valor de la variable dependiente
R. la primera declaración es falsa Tanto la versión de control como la versión de tratamiento
deben probarse al mismo tiempo

10.Una empresa de servicios públicos que es responsable de suministrar agua posee una gran
cantidad de tuberías que están interconectadas. Estas tuberías se ejecutan desde las plantas de
tratamiento hasta el nivel de propiedad. El sistema actual para analizar la infraestructura de
tuberías utiliza una base de datos relacional para almacenar todos los segmentos de tubería. Esta
base de datos se utiliza para consultar los datos de la tubería como parte del mantenimiento
general, así como para reparar fugas. Se informó que los usuarios están experimentando un
retraso severo cuando realizan consultas basadas en enlaces de localización entre tuberías. Usted
determina que se debe realizar un análisis para trazar las entidades como nodos y las conexiones
como bordes entre los nodos en los datos de las tuberías.
¿Qué técnica de análisis se requiere?
R. Analisis de red

11Se me proporciona un gran conjunto de datos y se me instruye para descubrir cualquier patrón
interesante dentro de los datos. El conjunto de datos contiene atributos que son pertinentes para
descubrir patrones ocultos, decido realizar __ análisis de datos durante el paso de análisis de datos
del ciclo de vida de análisis de Big Data.
R. Exploratorio

---
La mayor parte de estas prácticas relacionadas con el análisis pueden ser aplicadas por —o de
alguna forma están relacionadas con— algunas de las técnicas de análisis precedentes. La
siguiente lista describe brevemente cómo pueden estar relacionadas estas áreas temáticas.

- Análisis cuantitativo: algunos ejemplos de análisis cuantitativo son la correlación y la regresión.

Los tests A/B pueden utilizar las técnicas de análisis cuantitativo para comparar los resultados.
-Análisis cualitativo: el NLP, la analítica de texto (text analytics) y el análisis de sentimientos
(Sentiment Analysis) pueden ser utilizados para respaldar el análisis cualitativo. -Minería de datos
(Data Mining): la minería de datos (Data Mining) puede ser ejecutada o respaldada por medio de
correlaciones, mapas de calor, análisis de series temporales, análisis de redes, análisis de datos
espaciales, agrupamiento (Clustering), detección de datos atípicos (outliers), procesamiento de
lenguaje natural y analítica de texto (text analytics).
- Analítica descriptiva: los tests A/B, mapas de calor y análisis de datos espaciales son considerados
formas de analítica descriptiva.
- Analítica diagnóstica: las correlaciones, la regresión, los análisis de series temporales, análisis de
redes y análisis de datos espaciales son considerados formas de analítica diagnóstica. - Analítica
predictiva: las correlaciones, la regresión, los análisis de series temporales, la clasificación, el
agrupamiento (Clustering), la detección de datos atípicos (outliers), el filtrado (filtering),
procesamiento de lenguaje natural, la analítica de texto (text analytics) y el análisis de
sentimientos (Sentiment Analysis) son considerados formas de analítica predictiva. -Analítica
prescriptiva: la analítica prescriptiva está basada en técnicas de analítica predictiva, y por lo tanto
está relacionada con las mismas técnicas de análisis que la analítica predictiva. Asimismo, la
analítica prescriptiva puede emplear mapas de calor, análisis de redes y análisis de datos
espaciales para ilustrar los resultados de forma gráfica.
-Aprendizaje supervisado: la clasificación, detección de datos atípicos (outliers), filtrado (filtering),
procesamiento de lenguaje natural, analítica de texto (text analytics) y el análisis de sentimientos
(Sentiment Analysis) pueden utilizar el aprendizaje supervisado.
-Aprendizaje no supervisado: el agrupamiento (Clustering), la detección de datos atípicos
(outliers), filtrado (filtering), procesamiento de lenguaje natural, analítica de texto (text analytics) y
el análisis de sentimientos (Sentiment Analysis) pueden hacer uso del aprendizaje no supervisado.

Modulo4
1. Enumerar cualquiera de las tres categorías de conjuntos de datos de big data comunes
R. - Alto Volumen
-Alta velocidad
-Alta variedad
-Alta veracidad
-Alto Valor

2. Enumerar los tres tipos de algoritmos de aprendizaje automático

R. -Aprendizaje Supervisado
-Aprendizaje Sin Supervisar
-Aprendizaje Semi supervisado

3.Identificar la disciplina donde se usan principios, procesos y técnicas distintos para la extracción
de conocimiento a partir de grandes cantidades de datos
R. Ciencia de los datos (data science)

4.La __ usa ecuaciones matemáticas o conjuntos de reglas para representar relaciones entre
atributos de dato
R. moda (model)

5.Siempre se establece una hipótesis antes de realizar un análisis de datos exploratorios

R. Falso... la hipótesis a menudo se desconoce hasta después de que se realiza el análisis de datos
exploratorios porque a menudo se desconoce qué fenómenos existen en grandes cantidades de
datos hasta después del análisis.

6.Enumere las dos estadísticas usadas para medir qué tan consistentemente un proceso genera
datos
R. -Varianza
-Desviacion estandar

7.un set de valores puede tener solo una moda

R.Falso. -> un conjunto de valores puede ser bimodal o multimodal para tener dos o más modas
respectivamente

8.Describe el proceso de munging de datos (data munging)

R.Los datos brutos se extraen y manipulan aplicando técnicas de limpieza, filtrado, validación y
transformación de formato para preparar los datos para el análisis.

9.El proceso de derivar conclusiones de los datos generados a partir de procesos estocásticos se
conoce como __
R. inferencia estadística

10.¿Cuál es la estadística utilizada para representar el promedio de un conjunto de datos que se

encuentra al dividir la suma de todos los valores por el recuento de todos los valores?
R. Media

11.Nombra los ocho tipos de variables que representan los atributos medibles u observables de un
objeto
R.
-Discreto -continuo -ordinal -binario
-cuantitativo -independiente -aleatorio

12.Identifique la estadística que proporciona información sobre el margen o ancho de un conjunto

de datos y puede obtenerse restando el valor mínimo del valor máximo
R. Rango

13.Enumera los tres tipos generales de pociones en las que se pueden dividir, clasificar u ordenar
los datos
R. Quartiles, Quintiles, Percentiles

14.Cuando los valores extremos producen una media falsa, el ___ puede obtenerse al encontrar el
valor medio entre un número impar de todos los valores ordenados
R. Mediana

15.Identifique el término utilizado para definir un conjunto de atributos relacionados con el

objeto, como nombres de clientes y direcciones de correo electrónico
R. Observacion

16.La ____ representa hasta qué punto el promedio de valores múltiples de un estimador,
calculado a partir de muestras de múltiplos, proviene del parámetro de población
R. sesgo(bias)

Técnicamente, un sesgo representa qué tan lejos está el promedio de los múltiples valores de un
estimador (calculado a partir de múltiples muestras) del correspondiente parámetro de población.
17.___ es un valor no negativo que muestra la dispersión de los valores en comparación con la
media de los valores del centro de una distribución
R. Variaza

18.Identifique la estadística utilizada para ayudar a tomar decisiones sobre datos de manera
estandarizada al concentrarse en los valores que están más cerca o más lejos del conjunto normal
de valores
R. PuntuacionZ

19.Nombra los ocho tipos de distribuciones utilizados para resumir las ocurrencias de diferentes
valores o resultados de una variable
R.
-frecuencia -probabilidad
-muestreo -binomial
-geométrico -poisson
-normal -uniforme

20.La cantidad de asimetría en una distribución de probabilidad cuando se mide a partir del valor
de la media es una medida de __
R. Sesgo (Skewness)

21.Explica la diferencia entre distribuciones de probabilidad discretas y continuas

R. Una distribución discreta considera que cada valor específico de la variable aleatoria tiene una
probabilidad distinta de cero, mientras que la probabilidad es cero para un valor específico y no es
cero para una serie de intervalos en distribuciones continuas.

22.¿Qué distribución discreta se puede usar para encontrar la probabilidad de que un evento
ocurra aleatoriamente un número fijo de veces dentro de un intervalo de tiempo o espacio fijo,
pidiendo que se conozca con anticipación la ocurrencia promedio o la tasa de ocurrencia?
R. Distribucion de Poisson

23.La ___ es una distribución de probabilidad continua simétrica donde la mayoría de los valores
se encuentran muy cerca del valor medio
R. Distribucion normal

24.la probabilidad de que ocurra cualquier valor de la variable aleatoria, o de un valor dentro de
un intervalo, es igualmente posible y lo mismo que se mide en un ___
R. Distribucion uniforme

25.Identificar la ciencia donde se usa una descripción numérica de datos como entrada para
técnicas de resumen y visualización, que se llevan a cabo para interpretar datos con el fin de
formular preguntas
R. Estadistica Descriptiva

26.___ se refiere al grado de asociación lineal entre dos variables que se mide utilizando un
coeficiente
R. Correlacion
27.Una hipótesis nula se basa en hechos, lo que significa que hay evidencia detrás del fenómeno
observado
R. Falso.Lo opuesto es cierto cuando las observaciones se basan exclusivamente en el cambio
utilizando datos de muestra, lo que significa que no hay verdad detrás de los fenómenos
observados.

28.El ___ es la probabilidad de obtener un valor, calculado a partir de la muestra, tan extremo o
más extremo que el valor observado original, bajo el supuesto de que la hipótesis nula es
verdadera
R. P- Valor

29.Proporcione una descripción de la técnica conocida como análisis de series temporales

R.Se puede analizar una colección ordenada en el tiempo de valores registrados en intervalos de
tiempo regulares para pronosticar e identificar tendencias a largo plazo, patrones periódicos
estacionales y variaciones irregulares a corto plazo en los valores de una variable.

30.Un__ es una característica de los datos, como las columnas en una tabla de base de datos que
representan instancias de datos como se muestran en filas
R. Atributo

31.Identifique cinco de las siete técnicas de visualización que se pueden usar para mostrar datos
R.
-Gráfico de barras
-Gráfico de líneas
-Histograma
-Polígonos de frecuencia
-Diagrama de dispersión (scatter plot)
-Diagrama de tallos y hojas (stem and leaf plot)
-Tabulación cruzada

32.El proceso de ____ implica la extracción de atributos cuantitativos de los datos y la producción
de varios resúmenes numéricos y gráficos, con el fin de desarrollar una comprensión de los datos
R. Analisis de datos Exploratorio

33.Identificar dos de los tres tipos de resúmenes numéricos

R.Los resúmenes numéricos emplean técnicas de estadística descriptiva para resumir los datos.
Existen tres tipos de resúmenes numéricos:
- Medidas de tendencia central
- Medidas de variación o dispersión
- Medidas de asociación

34.El proceso de __ se usa como una técnica de aprendizaje automático no supervisada para crear
grupos de elementos donde cada grupo contiene elementos similares
R. Agrupamiento (Clustering)

35.La técnica ____ se usa cuando las instancias se clasifican según su similitud, con un número de
ejemplos definidos por el usuario
R. Clasificación: k-NN (K-vecinos más cercanos)

36.Identificar el algoritmo de agrupamiento utilizado como una medida basada en la distancia para
crear grupos de elementos homogéneos
R. Agrupamiento (Clustering): k-medias

37.El estimador de la varianza en el valor predicho o el término de error se conoce como el __

R. error medio cuadrado (mean squared error)

38.Las discrepancias entre el valor predicho y el valor real se conocen como ___ o ___ que
generalmente se representan como un valor constante
R. Término de error o ruido

Modulo7
1. Enumere las tres propiedades asociadas con el teorema CAP
R.consistencia, disponibilidad y tolerancia al particionado

2. ¿Qué significa el principio de diseño de la base de datos ACID?

R.- atomicidad (Atomicity) - consistencia (Consistency)
- aislamiento (Isolation) - durabilidad (Durability))

3. ¿Qué significa el principio de diseño de la base BASE?

BASE (por su acrónimo en inglés) es un principio de diseño de bases de datos basado en el
teorema CAP y seguido por sistemas de bases de datos que hacen uso de la tecnología distribuida.
El acrónimo BASE representa:
- disponibilidad todo el tiempo (Basically Available)
- estado flexible (Soft state)
- consistencia a largo plazo (Eventual consistency)

4.Cada fragmento(Shard) compartía el mismo __

R. Esquema

5.Enumere los dos métodos para implementar la replicación

R. -Maestro - Esclavo
- Peer - to -peer

6.__ realiza una copia de un conjunto de datos y lo almacena en varios nodos

R. Replicacion

7.Enumere todas las etapas de MapReduce en el orden correcto

R.
1 -> mapear
2 -> combinar
3 -> dividir
4 -> mezclar y clasificar (Shuffle and sort)
5 -> reducir
8.__ Se refiere a la paralelización del procesamiento de datos al dividir un conjunto de datos en
múltiples sub-conjuntos de datos y procesar cada sub conjunto en paralelo
R.paralelismo de datos

9.Identificar el principio en el que se basa MapReduce

R. divide y conquistaras (divide and conquer)

10.En MapReduce, la lógica de la función de reduce depende del resultadode la función __

R. de Mapeo (the map function)

11.Enumere los dos enfoques generalmente utilizados para lograr el principio de divide y vencerás.
R. El principio de dividir un problema difícil en tantas partes como sea necesario se puede alcanzar
generalmente al usar uno de los siguientes enfoques:
- paralelismo de tareas
- paralelismo de datos

12.El sharding y la replicación pueden combinarse para mejorar la capacidad de recuperación

parcial de la fragmentación mientras se aborda el rendimiento de lectura / escritura de la
replicación.
R. Verdadero

13.Para proporcionar estructura a los datos almacenados, la mayoría de los dispositivos de

almacenamiento de valores clave(key-value) proporcionan colecciones, como tablas, en las que se
pueden organizar pares de claves y valores.
R. Verdadero

14.los dispositivos de almacenamiento de documentos no almacenan datos como pares

clave.valor
R. Falso -> Al igual que los dispositivos de almacenamiento de valores clave, los dispositivos de
almacenamiento de documentos también almacenan datos como pares clave-valor

15.Enumerar tres tipos de tecnologías de bases de datos prevalentes en entornos de soluciones de

big data
Dispositivo de almacenamiento en disco: base de datos En los entornos de solución de Big Data,
predominan tres tipos de tecnología de bases de datos para el almacenamiento en disco:
- bases de datos relacionales o sistemas de gestión de bases de datos relacionales (RDBMS, por sus
siglas en inglés)
- bases de datos no relacionales o no solo SQL (NoSQL)
- NewSQL

16.Un clúster solo puede ser utilizado por un motor de procesamiento en tiempo real y no por un
motor de procesamiento por lotes
R. Falso -> Un clúster puede ser utilizado tanto por un motor de procesamiento en tiempo real
como por un motor de procesamiento por lotes.

17.Enumere los dos tipos en los que los dispositivos de almacenamiento se pueden dividir
ampliamente en función del tipo de medio de almacenamiento utilizado
R. -en el almacenamiento en disco
-en el almacenamiento de memoria

18.Identificar el requisito del motor de procesamiento que proporciona soporte para modelos de
datos en evolución y permite el procesamiento de datos en su forma original sin realizar
transformaciones de modelos de datos
R. procesamiento de datos sin esquema

19.A continuación se presentan las siguientes características del motor de procesamiento:

-procesamiento de datos distribuidos/paralelos
- procesamiento de datos sin esquema
- soporte para múltiples cargas de trabajo
- escalabilidad lineal
- redundancia y tolerancia a errores
- bajo costo

20.Identificar el requisito del motor de procesamiento que permite el procesamiento de grandes

cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al
recurso informático
R. procesamiento de datos distribuidos/paralelos

21.Identificar el requisito del motor de procesamiento que brinda disponibilidad ante fallas en los
sistemas
R. - redundancia y tolerancia a errores

22.Los dispositivos de almacenamiento NoSQL pueden dividirse en cuatro tipos principales, según
la forma en que almacenan los datos,
- llave-valor (key-value)
- documento
- basado en columnas
- grafo

23.Identificar el tipo de dispositivo de almacenamiento NoSQL que pone énfasis en almacenar los
enlaces entre entidades en lugar de poner énfasis en la estructura de las entidades
R. Grafo

24.Identifique el proceso de partición de un conjunto de datos con una gran cantidad de filas en
conjuntos de datos más pequeños y manejables
R.Sharding

25.Sharding es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets

más pequeños y manejables llamados shards, distribuidos entre múltiples nodos.

26.Identifique el tipo de dispositivo de almacenamiento NoSQL que agrupa columnas relacionadas

en una fila
R. basado en columnas
27.__ se refiere a la paralelización del procesamiento de datos dividiendo una tarea en subtareas y
ejecutando cada subtarea en un procesador separado, generalmente en un nodo separado en un
clúster
R. paralelismo de tareas

28.Los RDBMS emplean escala horizontal, no escalado vertical, lo que los hace ideales para el
almacenamiento a largo plazo de datos
R. Falso -> Los RDBMS emplean escalas verticales, no escalas horizontales. Como resultado, los
RDBMS no son ideales para el almacenamiento a largo plazo de datos

29.Los RDBMS cumplen ___ y, por lo tanto, generalmente están restringidos a un único nodo
R. ACID

30.En la replicación punto a punto (peer-to-peer), todos los nodos operan en el mismo nivel
R. Verdadero

31.Las incoherencias de escritura que se producen en la replicación punto a punto se pueden

abordar implementando ___ o ___ concurrencia
R. Pesimista u Optimista

32.Los clústeres admiten ____ escalar con ganancias de rendimiento lineal

R. Horizontal

33.Escalabilidad horizontal en lugar de escalabilidad vertical: se añaden más nodos, a medida que
sea necesario, en lugar de reemplazar el nodo actual con uno más grande y de mejor rendimiento.
Teorema CAP ACID ---CONSISTENCIA BASE --- DISPONIBILIDAD
El teorema CAP, establece que un ACID es un principio de diseño de BASE es un principio de diseño de bases de dat
sistema de archivos distribuido, bases de datos que comprende: seguido por sistemas de bases de datos que hacen
particularmente una base de datos El acrónimo BASE representa:
que funciona en cluster, solo * La Atomicidad (Atomicity A)
puede proporcionar dos de las tres asegura que todas las operaciones * Disponibilidad todo el tiempo (Basically Availab
propiedades a continuación: serán siempre exitosas o fallidas por se refiere a que la base de datos siempre reconoc
completo. En otras palabras, no hay como datos solicitados o una notificación de éxito
* Consistencia (Consistence C): operaciones parciales.
una operación de lectura desde *El “estado flexible (Soft State S)” implica que la
cualquier nodo muestra los *La Consistencia (Consistency C) estado consistente cuando se lean los datos, y po
mismos datos en varios nodos garantiza que una base de datos solo cambiar si se solicitan estos mismos datos de nue
permitirá datos válidos y que siempre podrían actualizarse para ser consistentes, aunqu
* Disponibilidad (Availability A): será consistente después de una datos entre las dos operaciones de lectura. Esta
una solicitud de lectura o escritura operación. Se garantiza que cualquier relacionada con la consistencia a largo plazo.
siempre será reconocida como un operación de escritura seguida de una
éxito o un fracaso lectura inmediata es consistente para *La “consistencia a largo plazo (Eventual consiste
múltiples clientes. operaciones de lectura llevadas a cabo por diferen
* Tolerancia a la partición operación de escritura podrían no tener resultado
(Partition Tolerance P): el sistema *El aIslamiento (Isolation I) solo alcanza la consistencia una vez los cambios s
de base de datos puede tolerar la asegura que los resultados de una nodos. Por lo tanto, mientras la base de datos
suspensión de la comunicación, la operación no son visibles a otras estado de consistencia a largo plazo, se encontrará
cual separa el cluster en varios operaciones hasta que finalice dicha
silos, y puede seguir atendiendo operación.
las solicitudes de lectura y
escritura *La Durabilidad (Durability D)
garantiza que los resultados de una
operación sean permanentes. En
otras palabras, una vez se haya
realizado la operación, no se puede
revertir. Esto es independiente de
cualquier fallo del sistema.

También podría gustarte

Introducción a Redes de Computadoras
100% (1)
Introducción a Redes de Computadoras
75 páginas
Curso de Data Analytics: Introducción y Contenidos
100% (1)
Curso de Data Analytics: Introducción y Contenidos
59 páginas
Introducción a Big Data y sus Fuentes
100% (1)
Introducción a Big Data y sus Fuentes
136 páginas
Ideas Clave
100% (1)
Ideas Clave
411 páginas
Arquitectura de Big Data: Fundamentos y Patrones
Aún no hay calificaciones
Arquitectura de Big Data: Fundamentos y Patrones
147 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Tema 1
Aún no hay calificaciones
Tema 1
38 páginas
Examen de Procesadores de Lenguajes 2004
Aún no hay calificaciones
Examen de Procesadores de Lenguajes 2004
272 páginas
Tema 2
Aún no hay calificaciones
Tema 2
50 páginas
Tema 4
Aún no hay calificaciones
Tema 4
67 páginas
Importancia del Usuario en Seguridad TIC
Aún no hay calificaciones
Importancia del Usuario en Seguridad TIC
2 páginas
Prueba de Sistema Anticolisión CAS
Aún no hay calificaciones
Prueba de Sistema Anticolisión CAS
1 página
Laboratorio 1 Minería de Texto y Procesamiento de Lenguaje Natural OK
Aún no hay calificaciones
Laboratorio 1 Minería de Texto y Procesamiento de Lenguaje Natural OK
15 páginas
Procesadores de Lenguaje
Aún no hay calificaciones
Procesadores de Lenguaje
67 páginas
Programa de Transformación Espiritual
Aún no hay calificaciones
Programa de Transformación Espiritual
11 páginas
Transformación Digital en Finanzas
100% (1)
Transformación Digital en Finanzas
65 páginas
Instalación de Internet por Radio MINTIC
100% (1)
Instalación de Internet por Radio MINTIC
51 páginas
AI Module 2 (ESPAÑOL) Workbook
Aún no hay calificaciones
AI Module 2 (ESPAÑOL) Workbook
119 páginas
Ciclo de Vida del Big Data
Aún no hay calificaciones
Ciclo de Vida del Big Data
66 páginas
Entrenamiento de Redes y Componentes
Aún no hay calificaciones
Entrenamiento de Redes y Componentes
34 páginas
Minería de Texto en Libros de Gutenberg
Aún no hay calificaciones
Minería de Texto en Libros de Gutenberg
10 páginas
Modelo Sencillo Mediante Árboles de Clasificación en Python
Aún no hay calificaciones
Modelo Sencillo Mediante Árboles de Clasificación en Python
2 páginas
Teoría de Compiladores y JFLAP
Aún no hay calificaciones
Teoría de Compiladores y JFLAP
6 páginas
Máquina de Turing Con JFlap
50% (2)
Máquina de Turing Con JFlap
26 páginas
Ccna1 Resumen Modulo 2
100% (1)
Ccna1 Resumen Modulo 2
16 páginas
I 46 DZSJD
Aún no hay calificaciones
I 46 DZSJD
387 páginas
Ciberataques: Tipos y Prevención
Aún no hay calificaciones
Ciberataques: Tipos y Prevención
10 páginas
EUD - BD Modulo 2 Workbook - Esp.
100% (1)
EUD - BD Modulo 2 Workbook - Esp.
105 páginas
Coursera 2
100% (1)
Coursera 2
81 páginas
Procesamiento de Big Data: Batch y Real-Time
100% (1)
Procesamiento de Big Data: Batch y Real-Time
65 páginas
Curso de Data Analytics y Calidad de Datos
100% (1)
Curso de Data Analytics y Calidad de Datos
116 páginas
Brochure Programa Ciencia de Datos 11va Edicion 7
100% (1)
Brochure Programa Ciencia de Datos 11va Edicion 7
14 páginas
Documento CRISP DM.2385037
Aún no hay calificaciones
Documento CRISP DM.2385037
12 páginas
Roldan Joaquin Y Blas Ignacio - Iniciacion Al Analisis de Datos Y Big Data Aplicado Al Futbol
Aún no hay calificaciones
Roldan Joaquin Y Blas Ignacio - Iniciacion Al Analisis de Datos Y Big Data Aplicado Al Futbol
151 páginas
Arquitectura de Computadoras: Von Neumann
Aún no hay calificaciones
Arquitectura de Computadoras: Von Neumann
1 página
Minería de Datos: Proceso KDD y Técnicas
Aún no hay calificaciones
Minería de Datos: Proceso KDD y Técnicas
116 páginas
Patrones de Diseño de Aplicaciones Moviles
100% (1)
Patrones de Diseño de Aplicaciones Moviles
132 páginas
Práctica 7 Radio Enlace Multipunto
Aún no hay calificaciones
Práctica 7 Radio Enlace Multipunto
30 páginas
Programación Lineal, Un Enfoque Gerencial
Aún no hay calificaciones
Programación Lineal, Un Enfoque Gerencial
126 páginas
Infraestructura y Tipos de Nube en Azure
Aún no hay calificaciones
Infraestructura y Tipos de Nube en Azure
41 páginas
Visualización Avanzada de Datos
100% (1)
Visualización Avanzada de Datos
197 páginas
Guía de Fibra Óptica en Redes Industriales
Aún no hay calificaciones
Guía de Fibra Óptica en Redes Industriales
22 páginas
Guía Completa sobre Informática en la Nube
100% (1)
Guía Completa sobre Informática en la Nube
47 páginas
Resumen (Maquina de Turing)
Aún no hay calificaciones
Resumen (Maquina de Turing)
16 páginas
Curso Mikrotik Bogota
Aún no hay calificaciones
Curso Mikrotik Bogota
146 páginas
DataFrames y Spark SQL en Apache Spark
Aún no hay calificaciones
DataFrames y Spark SQL en Apache Spark
46 páginas
Pablo Odiado2-3 (Descarga)
100% (3)
Pablo Odiado2-3 (Descarga)
288 páginas
Introducción a Big Data y su Impacto
100% (1)
Introducción a Big Data y su Impacto
90 páginas
Introducción a Microservicios en Informática
100% (1)
Introducción a Microservicios en Informática
27 páginas
Análisis Exploratorio de Datos en R
Aún no hay calificaciones
Análisis Exploratorio de Datos en R
270 páginas
Big Data y su Impacto en la Industria
Aún no hay calificaciones
Big Data y su Impacto en la Industria
22 páginas
Especificaciones Léxicas en JFlex
Aún no hay calificaciones
Especificaciones Léxicas en JFlex
9 páginas
Guía de IA y Machine Learning
100% (1)
Guía de IA y Machine Learning
113 páginas
Medidas Estadísticas y Análisis de Datos
Aún no hay calificaciones
Medidas Estadísticas y Análisis de Datos
41 páginas
Gestión de Datos
Aún no hay calificaciones
Gestión de Datos
295 páginas
Matematicas en Ingenieria Con Matlab y Octave
Aún no hay calificaciones
Matematicas en Ingenieria Con Matlab y Octave
108 páginas
Simulacro 1 Big Data Professional Certificate
Aún no hay calificaciones
Simulacro 1 Big Data Professional Certificate
10 páginas
Simulacro 2 Big Data Professional Certificate
Aún no hay calificaciones
Simulacro 2 Big Data Professional Certificate
10 páginas
Preguntero Parcial 1 BigData
Aún no hay calificaciones
Preguntero Parcial 1 BigData
85 páginas
Técnicas Avanzadas de Análisis de Datos
100% (1)
Técnicas Avanzadas de Análisis de Datos
5 páginas
Traccar
Aún no hay calificaciones
Traccar
13 páginas
Filosofía GNU y Software Libre
Aún no hay calificaciones
Filosofía GNU y Software Libre
1 página
Ventajas y desventajas de las VLANs
Aún no hay calificaciones
Ventajas y desventajas de las VLANs
2 páginas
CloseRadioTV ManualUsuarios Rev4b2
Aún no hay calificaciones
CloseRadioTV ManualUsuarios Rev4b2
29 páginas
Comite COmunicaciones
Aún no hay calificaciones
Comite COmunicaciones
14 páginas
Técnica de Fotogramas. Por: Laura Gutiérrez
Aún no hay calificaciones
Técnica de Fotogramas. Por: Laura Gutiérrez
6 páginas
Guía de Algoritmos Genéticos en Python
Aún no hay calificaciones
Guía de Algoritmos Genéticos en Python
9 páginas
Actividad Nucleo 3 Proceso Administrativo
Aún no hay calificaciones
Actividad Nucleo 3 Proceso Administrativo
6 páginas
Mesa Con Bucky Axiom Iconos MD - Data Sheet
100% (1)
Mesa Con Bucky Axiom Iconos MD - Data Sheet
12 páginas
Lab10-Manteniendo-El-Servicio-De-Directorio-Activo-1 CCCCCCCCCCCCCCCCCC
Aún no hay calificaciones
Lab10-Manteniendo-El-Servicio-De-Directorio-Activo-1 CCCCCCCCCCCCCCCCCC
15 páginas
Sistema de Control de Ocupabilidad Laboral
Aún no hay calificaciones
Sistema de Control de Ocupabilidad Laboral
19 páginas
Práctica de Laboratorio 11.1
67% (3)
Práctica de Laboratorio 11.1
3 páginas
CW 301309 47
Aún no hay calificaciones
CW 301309 47
15 páginas
Interfaz Gráfica y Navegación en Software de Bibliotecas
Aún no hay calificaciones
Interfaz Gráfica y Navegación en Software de Bibliotecas
21 páginas
Edición y Dibujo en Topografía Moderna
Aún no hay calificaciones
Edición y Dibujo en Topografía Moderna
11 páginas
Evaluación de Programación Lineal y Optimización
Aún no hay calificaciones
Evaluación de Programación Lineal y Optimización
15 páginas
Afiliados Elite - Aun Sigue Siendo El Numero 1?
Aún no hay calificaciones
Afiliados Elite - Aun Sigue Siendo El Numero 1?
2 páginas
Limpieza y Transformación de Datos en Python
Aún no hay calificaciones
Limpieza y Transformación de Datos en Python
70 páginas
Tesis Final Final de Grado PDF
Aún no hay calificaciones
Tesis Final Final de Grado PDF
149 páginas
Mapa Mental de Redes Sociales
0% (1)
Mapa Mental de Redes Sociales
3 páginas
Guía para Autorizaciones Médicas Online
Aún no hay calificaciones
Guía para Autorizaciones Médicas Online
7 páginas
Análisis de Costos en Vineyard Test
Aún no hay calificaciones
Análisis de Costos en Vineyard Test
6 páginas
Microsoft Project 2013 PDF
100% (6)
Microsoft Project 2013 PDF
106 páginas
Sistemas de Información en la Organización
Aún no hay calificaciones
Sistemas de Información en la Organización
116 páginas
Lista de Precios Hospiinnova - Julio 2024
Aún no hay calificaciones
Lista de Precios Hospiinnova - Julio 2024
152 páginas
Estándares Clave en Centros de Cómputo
Aún no hay calificaciones
Estándares Clave en Centros de Cómputo
3 páginas
Guía de estudios niveles 3 y 4
Aún no hay calificaciones
Guía de estudios niveles 3 y 4
49 páginas
CV Raquel Blázquez Estrada
Aún no hay calificaciones
CV Raquel Blázquez Estrada
2 páginas
Guía Básica de Tablas Dinámicas Excel
Aún no hay calificaciones
Guía Básica de Tablas Dinámicas Excel
7 páginas
Triptico Muestreo Sistematico
Aún no hay calificaciones
Triptico Muestreo Sistematico
2 páginas