Topicos de Big Data em Python
Topicos de Big Data em Python
O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark, selecione a opção correta.
B Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como escravos.
Atualmente, o Apache Spark é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spar
k.
A SIGM.
B KDM.
C CRISP-DM.
D KDD-DM.
E SIGKDD.
A respeito dos arquivos de configuração do Hadoop, selecione a opção correta com as tags que fornecem acesso aos parâmetros de configuração.
Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.
B Apenas estruturado
C Estruturado e semiestruturado
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos d
e instalação para utilização do PySpark.
A Java e R
B Python e Escala
C Hadoop e Spark
D Java e Python
E Casandra e Spark
O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos
de aprendizado de máquina também são conhecidos como:
A Observações.
B Informações.
C Conhecimento.
D Dados Faltantes.
E Big Data.
Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade par
a fazer suas análises exploratórias. O departamento contabilidade de extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os co
ntadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo
de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos:
A Secundária; Primária.
B Primária; Secundária.
C Secundária; Secundária.
D Primária; Primária.
E Secundária; Terciária.
Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados.
A 3
B 6
C 2
D 4
E 5
Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.
A Agrupamento
B Embaralhamento
C Gravação da saída
D Combinação
E Redução
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
A mapRandom
B sample
C distinct
D filter
E random
I Classificação
II Agrupamento
III Regressão
A Apenas I e II
B Apenas II e III
C Apenas II
D Apenas I e III
E Apenas I
A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais?
A Gráfico de Barra.
B Gráfico de Linha.
E Gráfico de Estrela.
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks, como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.
A Camada de segurança
C Camada de Metadados
D Camada de governança
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.
D Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.
Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
A Nível de admissão
B Nível de governança
C Nível de consumo
D Nível de gerenciamento
E Nível de Metadados
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias.
B Dados semiestruturados
E Dados estruturados
A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I-O nome Pandas se refere a dados em painel ou panel data
II-O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.
A Apenas I e III.
B Apenas II.
C Apenas I e II.
D Apenas I.
E Apenas II e III.
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
A Tasks
B RDD
C DAG
D Work Node
E Executor
A Q-Learning
B Agrupamento
C Classificação
D Modelos Generativos
E Regressão
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.
A Oracle Cloud
B Microsoft Azure
C IBM Cloud
D Google Cloud
E Amazon AWS
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'Ikey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='Ikey', right_on='rkey')
A else
B for
C while
D if
E with
A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados
que possibilita o Cientista de dados atribuir nome para as colunas.
A PySpark
B numpy.array
C SQL
D DataFrame
E RDD
A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conju
nto?
A loc
B iloc
C shuffle
D sum
E reset_index
As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?
A Numpy
B Scipy
C Tensorflow
D Plotly
E Pandas
A Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.
B O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.
C Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.
D É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.
E Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.
Em relação à Internet das coisas, selecione a opção correta que relaciona os dispositivos com aos servidores de aplicação.
A Dispositivos de recepção
B Redes locais
C Nuvem
D Tecnologia proprietária
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
A Petabytes
B Gigabytes
C Zetabytes
D Exabytes
E Terabytes
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clie
ntes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. Respectivamen
te a resposta que completa as duas lacunas é:
A Linha; Categóricos
B Linha; Temporais
C Linha; Numéricos
D Pizza; Numéricos
E Pizza; Categóricos
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
A Computação centralizada
B Computação Paralela
E Computação em Nuvem
(NCUFPR/2019 Adaptada) Sobre a IoT Internet das coisas) e seus blocos básicos de construção, identifique como verdadeiras V) ou falsas F) as seguintes afirmativas:
( ) Na IoT, os objetos podem prover comunicação entre usuários e dispositivos, viabilizando diversas aplicações, tais como coleta de dados de pacientes e monitoramento de idosos e sensoriament
o de ambientes de difícil acesso.
( ) A tecnologia de IoT consiste na coexistência colaborativa de dois componentes: As "coisas" e os protocolos de rede que permitem a sua comunicação.
( ) Protocolos de comunicação: Viabilizam a troca de dados via Internet entre os objetos físicos e outros sistemas.
A FFF
B VFV
C FVF
D VVF
E FVV
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas?
A values
B merge
C reset_index
D set_index
E sum
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.
A Velocidade
B Veracidade
C Variedade
D Volume
E Valor
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são)
A Função de Ativação
B Vieses
C Pesos
D Camada de Saída
E Camadas Escondidas
Em relação às redes de Internet das coisas, selecione a opção correta que relaciona os dispositivos entre si.
O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implemen
tação do Hadoop.
A Lua
B JavaScript
C Perl
D Java
E Python
A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
A Apenas I e II
B Apenas II e III
C Apenas I e III
D As alternativas I, II e III
E Apenas III
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake.
Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estava
m preparando o conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente os colegas de Luís estão removendo dados faltantes, em qual etapa d
o processo de KDD, Luís se encontra:
A Coleta de Dados.
B Pré-Processamento.
C Transformação de Dados.
D Avaliação.
E Descoberta de Padrões.
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classifica
das como que tipo de dados?
A Categóricos
B Temporais
C Semi-Estruturados
D Numéricos
E Atemporais
Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução.
A Mapeador.
B Combinador.
C Leitor de registros.
D Redutor.
E Particionador.
Dentre as inúmeras bibliotecas da linguagem Python, qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?
A Pandas
B Numpy
C Scikit-Learn
D BeautifulSoup
E OS
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python?
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
A UDP
B TCP
C CoAP
D MQTT
E HTTP
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade, ele se refere ao processo de:
A KDD
B CNN
C LSTM
D RNN
E DNN
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializ
ado em aplicações de aprendizado de máquina.
A Spark Learning
B MLlib
C MLSpark
D GraphX Learning
E RDDs
A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços condicionais e instruções de repetição.
for i in range(10):
if (i%2==0):
print(i)
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e ger
enciamento do Hadoop.
Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo de serviço focado no hardware.
A CaaS
B MaaS
C HaaS
D IaaS
E PaaS
C O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de s
ua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
E Pizzas; Categorias
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por esta
belecer uma conexão com o Cluster.
A SparkContext
B DataFrame
C Spark.Catalog
D SparkSession
E RDD
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala?
B Divide
C Shuffle
D MinMax
E Splice
A Gráfico de Histograma
B Classification Report
D Plotly
E Regressão Linear
I - Agrupamento
II - Classificação
III - Regressão
I-SVM
II - Árvore de Decisão
III-K-Médias
B Apenas as opções l e ll
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce,
selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
A Agregação
B Redução
C Mapeamento
D Separação
E Processamento
A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
C As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
E O DataFrame é embaralhado.
E Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados.
Luís planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente, ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um p
adrão organizado de criação de projeto, qual é a sequência desejável de passos que esperamos que Luís siga?
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo
A
__init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
B
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma
C
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
D
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
E
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
A Apenas a opção II
D Apenas a opção I
Em relação às aplicações de Internet das coisas, selecione a opção correta sobre os seus objetivos.
Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
A cout
B plot_tree
C printf
D print
E console.log
Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos?
B Gráficos de Barra.
C Gráfico de Estrela.
D Gráficos de Linha.
A Apenas III
B Apenas I
C Apenas II e III
D As alternativas I, II e III
E Apenas I e III
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.
A DataNode
B YARN
C NameNode
D Bloco de dados
E Replicação
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
A Mrjob
B Camada de ingestão
C Task manager
D HDFS
E MapReduce
B Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência.
A é uma forma de abstrair serviços da internet das coisas em redes locais distribuídas
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
B Camada de sessão
C Camada de transporte
D Camada de aplicação
E Camada lógica
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
A É um programa