0% acharam este documento útil (0 voto)
214 visualizações1 página

Topicos de Big Data em Python

O documento aborda tópicos relacionados a Big Data e Python, incluindo o uso do Apache Spark, Hadoop e técnicas de aprendizado de máquina. Ele apresenta questões de múltipla escolha sobre a arquitetura do Spark, formatos de dados, Data Lakes e bibliotecas como Pandas. O conteúdo é voltado para profissionais de tecnologia da informação e cientistas de dados.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
214 visualizações1 página

Topicos de Big Data em Python

O documento aborda tópicos relacionados a Big Data e Python, incluindo o uso do Apache Spark, Hadoop e técnicas de aprendizado de máquina. Ele apresenta questões de múltipla escolha sobre a arquitetura do Spark, formatos de dados, Data Lakes e bibliotecas como Pandas. O conteúdo é voltado para profissionais de tecnologia da informação e cientistas de dados.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

TÓPICOS DE BIG DATA EM PYTHON (75)

O Spark é um framework de alto desempenho usado para aplicações de Big Data. Em relação à arquitetura do Spark, selecione a opção correta.

A O gerenciador de cluster do Spark oferece suporte a Hadoop YARN.

B Os Worker Nodes da arquitetura Spark são responsáveis pelo gerenciamento das máquinas que executarão como escravos.

C O gerenciador de cluster do Spark faz o gerenciamento da execução das tarefas.

D O Executor e os Worker Nodes desempenham papeis equivalentes na arquitetura do Spark.

E O Executor corresponde ao conjunto de máquina que executam como escravos.

Copiar questão 67bf2c4b770c7650b9f68273

Atualmente, o Apache Spark é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spar
k.

A map, take e reduce.

B reduce, first e map.

C count, collect e take.

D map, filter e union.

E map, sample e collect.

Copiar questão 67c4d00d69054d5cfbda1afb

Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?

A SIGM.

B KDM.

C CRISP-DM.

D KDD-DM.

E SIGKDD.

Copiar questão 67bf2a7a770c7650b9f68267

A respeito dos arquivos de configuração do Hadoop, selecione a opção correta com as tags que fornecem acesso aos parâmetros de configuração.

Copiar questão 67c471c8af3a4144d0d5335e

Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.

A Apenas não estruturado

B Apenas estruturado

C Estruturado e semiestruturado

D Estruturado, não estruturado e semiestruturado

E Apenas tabelas relacionais

Copiar questão 67c47077af3a4144d0d5335c

O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos d
e instalação para utilização do PySpark.

A Java e R

B Python e Escala

C Hadoop e Spark

D Java e Python

E Casandra e Spark

Copiar questão 67c4d0cc69054d5cfbda1b07

O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos
de aprendizado de máquina também são conhecidos como:

A Observações.

B Informações.

C Conhecimento.

D Dados Faltantes.

E Big Data.

Copiar questão 67bf2a46770c7650b9f68265

Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade par
a fazer suas análises exploratórias. O departamento contabilidade de extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os co
ntadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo
de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos:

A Secundária; Primária.

B Primária; Secundária.

C Secundária; Secundária.

D Primária; Primária.

E Secundária; Terciária.

Copiar questão 67c4d06769054d5cfbda1b01

Em relação aos formatos que os dados de Big Data, selecione a opção que corresponde a quantidade de formas que podem ser encontrados.

A 3

B 6

C 2

D 4

E 5

Copiar questão 67bf2b9c770c7650b9f6826f

Em relação às fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.

A Agrupamento

B Embaralhamento

C Gravação da saída

D Combinação

E Redução

Copiar questão 67c4ce6869054d5cfbda1af3

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.

A mapRandom

B sample

C distinct

D filter

E random

Copiar questão 67c4c 469054d5cfbda1af9

As técnicas de aprendizado de máquina para aprendizado supervisionado são:

I Classificação
II Agrupamento
III Regressão

A Apenas I e II

B Apenas II e III

C Apenas II

D Apenas I e III

E Apenas I

Copiar questão 67c4d08f69054d5cfbda1b03

A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais?

A Gráfico de Barra.

B Gráfico de Linha.

C Gráfico de Faces de Chernoff.

D Gráfico de Matriz de Dispersão.

E Gráfico de Estrela.

Copiar questão 67c4d24e69054d5cfbda1b0b

O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks, como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.

A É uma técnica de computação distribuída

B É uma técnica lenta para processamento de grandes volumes de dados

C Só pode ser aplicada para grandes volumes de dados

D Consiste em uma técnica de programação sequencial

E Foi substituída no Spark por acesso direto à memória

Copiar questão 67c4cfda69054d5cfbda1af7

O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.

A Camada de segurança

B Camada de gerenciamento de dados

C Camada de Metadados

D Camada de governança

E Camada de gerenciamento do ciclo de vida da informação

Copiar questão 67bf2ad2770c7650b9f68269

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.

A É um ambiente para tratamento e armazenamento apenas de dados relacionais.

B É um repositório para tratamento dos dados.

C É uma tecnologia de armazenamento e processamento de dados.

D Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.

E É um repositório centralizado para armazenamento de dados.

Copiar questão 67c46 baf3a4144d0d53356

Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.

A Nível de admissão

B Nível de governança

C Nível de consumo

D Nível de gerenciamento

E Nível de Metadados

Copiar questão 67c4ce4e69054d5cfbda1af1

Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias.

A Dados de Internet das Coisas

B Dados semiestruturados

C Dados de Big Data

D Dados não estruturados

E Dados estruturados

Copiar questão 67c46f66af3a4144d0d5334e

A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I-O nome Pandas se refere a dados em painel ou panel data
II-O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.

A Apenas I e III.

B Apenas II.

C Apenas I e II.

D Apenas I.

E Apenas II e III.

Copiar questão 67bf29ef770c7650b9f68263

O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.

A Tasks

B RDD

C DAG

D Work Node

E Executor

Copiar questão 67c4d2e169054d5cfbda1b15

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?

A Q-Learning

B Agrupamento

C Classificação

D Modelos Generativos

E Regressão

Copiar questão 67d30217350f825ee81bf060

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.

A Oracle Cloud

B Microsoft Azure

C IBM Cloud

D Google Cloud

E Amazon AWS

Copiar questão 67c47044af3a4144d0d53358

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:

import pandas as pd
df1 = pd.DataFrame({'Ikey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='Ikey', right_on='rkey')

Qual destas alternativas descreve as saídas do código?

I ¿ O conjunto resultante terá colunas Ikey, value_x, rkey, value_y


II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela Ikey e rkey.

A Apenas as opções II e III estão corretas.

B Apenas a opção III está correta.

C Apenas a opção II está correta.

D Apenas a opção I está correta.

E Apenas as opções I e III estão corretas.

Copiar questão 67d2fec4350f825ee81bf05c

O seguinte constructo da linguagem Python representa o condicional simples:

A else

B for

C while

D if

E with

Copiar questão 67bf26ea770c7650b9f6825f

A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados
que possibilita o Cientista de dados atribuir nome para as colunas.

A PySpark

B numpy.array

C SQL

D DataFrame

E RDD

Copiar questão 67bf2bdf770c7650b9f68271

A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conju
nto?

A loc

B iloc

C shuffle

D sum

E reset_index

Copiar questão 67c4d0e469054d5cfbda1b09

Selecione a opção correta a respeito do processamento e streaming de dados.

A Caracterizam-se pelo envio do mesmo dado por várias fontes

B Os dados podem vir de várias fontes

C Os dados sempre são provenientes de aplicações transacionais

D Os dados sempre estão no mesmo formato

E Os dados são caracterizados também são denominados de lotes estáticos.

Copiar questão 6800576329765611e8a76355

As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?

A Numpy

B Scipy

C Tensorflow

D Plotly

E Pandas

Copiar questão 67c4d31769054d5cfbda1b18

Selecione a opção correta sobre o uso de Big Data.

A Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.

B O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.

C Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.

D É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.

E Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.

Copiar questão 6800590e29765611e8a76358

Em relação à Internet das coisas, selecione a opção correta que relaciona os dispositivos com aos servidores de aplicação.

A Dispositivos de recepção

B Redes locais

C Nuvem

D Tecnologia proprietária

E Servidores de banco de dados

Copiar questão 680058b129765611e8a76357

Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.

A Petabytes

B Gigabytes

C Zetabytes

D Exabytes

E Terabytes

Copiar questão 67c4ce3169054d5cfbda1aef

Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clie
ntes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. Respectivamen
te a resposta que completa as duas lacunas é:

A Linha; Categóricos

B Linha; Temporais

C Linha; Numéricos

D Pizza; Numéricos

E Pizza; Categóricos

Copiar questão 67c4d02a69054d5cfbda1afd

Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.

A Computação centralizada

B Computação Paralela

C Computação de banco de dados

D Computação de Big Data

E Computação em Nuvem

Copiar questão 67c4705daf3a4144d0d5335a

(NCUFPR/2019 Adaptada) Sobre a IoT Internet das coisas) e seus blocos básicos de construção, identifique como verdadeiras V) ou falsas F) as seguintes afirmativas:

( ) Na IoT, os objetos podem prover comunicação entre usuários e dispositivos, viabilizando diversas aplicações, tais como coleta de dados de pacientes e monitoramento de idosos e sensoriament
o de ambientes de difícil acesso.
( ) A tecnologia de IoT consiste na coexistência colaborativa de dois componentes: As "coisas" e os protocolos de rede que permitem a sua comunicação.
( ) Protocolos de comunicação: Viabilizam a troca de dados via Internet entre os objetos físicos e outros sistemas.

Assinale a alternativa que apresenta a sequência correta, de cima para baixo.

A FFF

B VFV

C FVF

D VVF

E FVV

Copiar questão 67c46f9eaf3a4144d0d53350

Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas?

A values

B merge

C reset_index

D set_index

E sum

Copiar questão 67c4d26969054d5cfbda1b0d

Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.

A Velocidade

B Veracidade

C Variedade

D Volume

E Valor

Copiar questão 67c4cdbd69054d5cfbda1aeb

As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são)

A Função de Ativação

B Vieses

C Pesos

D Camada de Saída

E Camadas Escondidas

Copiar questão 67d302c6350f825ee81bf061

Em relação às redes de Internet das coisas, selecione a opção correta que relaciona os dispositivos entre si.

A São interconectados entre si

B São um relacionamento máquina a máquina

C É uma conexão rede a rede

D São um conjunto de sinais

E São redes locais

Copiar questão 67bf2b6d770c7650b9f6826d

O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implemen
tação do Hadoop.

A Lua

B JavaScript

C Perl

D Java

E Python

Copiar questão 67c4cdf669054d5cfbda1aed

A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão:

I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza

Analisem as alternativas listadas e assinalem a correta.

A Apenas I e II

B Apenas II e III

C Apenas I e III

D As alternativas I, II e III

E Apenas III

Copiar questão 67c9a54ac1db0fa3f92e4167

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta a respeito do Data Lake.

A Possui alta latência para acesso dos dados.

B Demanda por equipamentos especiais.

C Aplica processos de tratamento nos dados.

D São exclusivos da distribuição Hadoop Apache.

E Armazena os dados de modo eficiente.

Copiar questão 67c46fc1af3a4144d0d53352

Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estava
m preparando o conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente os colegas de Luís estão removendo dados faltantes, em qual etapa d
o processo de KDD, Luís se encontra:

A Coleta de Dados.

B Pré-Processamento.

C Transformação de Dados.

D Avaliação.

E Descoberta de Padrões.

Copiar questão 67d8bbc021badaccce1dcf7e

No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classifica
das como que tipo de dados?

A Categóricos

B Temporais

C Semi-Estruturados

D Numéricos

E Atemporais

Copiar questão 67c4d04569054d5cfbda1a

Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução.

A Mapeador.

B Combinador.

C Leitor de registros.

D Redutor.

E Particionador.

Copiar questão 67bf2b2b770c7650b9f6826b

Dentre as inúmeras bibliotecas da linguagem Python, qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?

A Pandas

B Numpy

C Scikit-Learn

D BeautifulSoup

E OS

Copiar questão 67c4d0b469054d5cfbda1b05

Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python?

A Gerenciador de Pacotes do Python.

B Gerenciador de memória do Python.

C Gerenciador de espaços virtuais do Python.

D Motor de Busca da IDE do Python.

E Biblioteca de Processamento de Linguagem Natural.

Copiar questão 67c4d28869054d5cfbda1b0f

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.

A UDP

B TCP

C CoAP

D MQTT

E HTTP

Copiar questão 67c46f45af3a4144d0d5334c

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade, ele se refere ao processo de:

A KDD

B CNN

C LSTM

D RNN

E DNN

Copiar questão 67c9a5f5c1db0fa3f92e4169

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializ
ado em aplicações de aprendizado de máquina.

A Spark Learning

B MLlib

C MLSpark

D GraphX Learning

E RDDs

Copiar questão 67d300dd350f825ee81bf05f

A linguagem Python se destaca como intuitiva e de fácil aprendizagem. Analise o código abaixo que apresenta laços condicionais e instruções de repetição.

for i in range(10):
if (i%2==0):
print(i)

Qual a saída esperada após a execução do programa?

A Serão impressos no console os números racionais entre 0 e 9.

B Serão impressos no console os números ímpares entre 0 e 9.

C Serão impressos no console os números pares entre 0 e 9.

D Serão impressos no console os números ímpares entre 0 e 10.

E Serão impressos no console os números pares entre 1 e 10.

Copiar questão 67d8ba1721badaccce1dcf77

O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e ger
enciamento do Hadoop.

A Gerenciamento do armazenamento de dados.

B Tratar dados não-estruturados.

C Aplicar políticas de segurança.

D Mecanismo para melhorar o processamento dos dados.

E Processos de extração, transformação e carregamento dos dados.

Copiar questão 67d8b93021badaccce1dcf76

Em relação aos modelos de serviço de nuvem, selecione a opção correta com o modelo de serviço focado no hardware.

A CaaS

B MaaS

C HaaS

D IaaS

E PaaS

Copiar questão 6800593e29765611e8a76359

Observe o trecho de código abaixo

import numpy as np from pyspark


import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)

Selecione a opção correta a respeito dele.

A A utilização do SparkContext é opcional.

B A variável "teste" corresponde a um RDD.

C O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".

D A execução do trecho de código vai gerar um erro.

E A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".

Copiar questão 67c4d36569054d5cfbda1b1c

Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de s
ua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:

A IRIS; Processamento de Imagens

B MNIST; Processamento de Imagens

C MNIST; Processamento de Linguagem Natural

D IRIS; Processamento da Linguagem Natural

E Pizzas; Categorias

Copiar questão 67d302ea350f825ee81bf062

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por esta
belecer uma conexão com o Cluster.

A SparkContext

B DataFrame

C Spark.Catalog

D SparkSession

E RDD

Copiar questão 67c4d33969054d5cfbda1b1a

Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala?

A Map & Reduce

B Divide

C Shuffle

D MinMax

E Splice

Copiar questão 67d8ba2f21badaccce1dcf78

Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn?

A Gráfico de Histograma

B Classification Report

C Gráfico de Matriz de Dispersão

D Plotly

E Regressão Linear

Copiar questão 67d8bb8121badaccce1dcf7d

O enquadramento de aprendizado não supervisionado contempla qual(is) técnicas?

I - Agrupamento
II - Classificação
III - Regressão

A Apenas a opção I está correta

B Apenas a opção II está correta

C Apenas as opções II e III estão corretas

D Apenas as opções I e III estão corretas

E Apenas a opção III está correta

Copiar questão 67c9a5b2c1db0fa3f92e4168

Qual destes modelos é adequado para um problema de classificação?

I-SVM
II - Árvore de Decisão
III-K-Médias

A Apenas as opções I e III

B Apenas as opções l e ll

C Apenas a opção III

D Apenas as opções II e III

E Todas as opções I, Il e lll

Copiar questão 67d2 3a350f825ee81bf05d

O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce,
selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.

A Agregação

B Redução

C Mapeamento

D Separação

E Processamento

Copiar questão 67c9a466c1db0fa3f92e4165

A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?

A Nada, o DataFrame fica imutável.

B Os índices não são deletados, evitando a perda de colunas no DataFrame da agregação.

C As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.

D O DataFrame é indexado pelas suas colunas.

E O DataFrame é embaralhado.

Copiar questão 67d8bb0521badaccce1dcf7b

Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina?

A Viabilizar a computação paralela.

B Incrementar o uso da memória de longa duração do sistema.

C Melhorar a capacidade de processamento de dados do sistema.

D Fazer com que computadores acessem a internet mais rápido.

E Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados.

Copiar questão 67c4d2cc69054d5cfbda1b13

Luís planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente, ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um p
adrão organizado de criação de projeto, qual é a sequência desejável de passos que esperamos que Luís siga?

Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo
A
__init__.py em branco e outro para a lógica do módulo.

Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
B
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo.

Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma
C
pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.

Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
D
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.

Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
E
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.

Copiar questão 67d8ba6d21badaccce1dcf79

Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?

I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML


II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML

A Apenas a opção II

B As opções I, II, e III estão corretas

C Apenas as opções I e III

D Apenas a opção I

E Apenas as opções II e III

Copiar questão 67d8bb5321badaccce1dcf7c

Em relação às aplicações de Internet das coisas, selecione a opção correta sobre os seus objetivos.

A Ampliar o volume de dados da aplicação

B Obter dados que sirvam como base na tomada de decisão

C Aumentar a diversidade dos dados

D Melhorar a interatividade com o usuário

E Aumentar a complexidade do processo de gestão dos dados

Copiar questão 6800577b29765611e8a76356

Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?

A cout

B plot_tree

C printf

D print

E console.log

Copiar questão 67c4d2b169054d5cfbda1b11

Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos?

A Gráfico de Matriz de Dispersão.

B Gráficos de Barra.

C Gráfico de Estrela.

D Gráficos de Linha.

E Gráfico de Faces de Chernoff.

Copiar questão 67d8baae21badaccce1dcf7a

No modelo de aprendizado profundo, as camadas internas ocultas representam:

I - Abstrações de aspectos de dados complexos


II - Informação relevante dos dados de entrada
III - Pesos e Viéses

A Apenas III

B Apenas I

C Apenas II e III

D As alternativas I, II e III

E Apenas I e III

Copiar questão 67d8bc3421badaccce1dcf7f

A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.

A DataNode

B YARN

C NameNode

D Bloco de dados

E Replicação

Copiar questão 67c46fddaf3a4144d0d53354

A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.

A Mrjob

B Camada de ingestão

C Task manager

D HDFS

E MapReduce

Copiar questão 67c9a2aac1db0fa3f92e4164

Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.

A Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.

B Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência.

C Garantir a consistência da informação através da ordenação dos dados.

D Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.

E Usar algoritmos de criptografia nos dados para evitar o acesso indevido.

Copiar questão 67d3005f350f825ee81bf05e

Selecione a opção a respeito da computação em nuvem.

A é uma forma de abstrair serviços da internet das coisas em redes locais distribuídas

B é uma outra forma de denominar a internet das coisas

C é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet

D trata-se da utilização de aplicações com finalidades específicas

E é a definição para aplicações de Big Data que utilizam os protocolos de internet

Copiar questão 6813f86abe1d41f85c4764f1

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.

A Camada de enlace de dados

B Camada de sessão

C Camada de transporte

D Camada de aplicação

E Camada lógica

Copiar questão 67c9a244c1db0fa3f92e4163

Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.

A É um programa

B É uma placa de hardware

C É um ecossistema que envolve software e hardware

D É um protocolo de internet das coisas

E É o outro nome para Raspberry PI

Copiar questão 67c9a177c1db0fa3f92e4162

Sobre o Pandas DataFrame, o que podemos afirmar?

I - É o coletivo de séries temporais pandas.Series


II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.

Analise as frases listadas e assinale a alternativa correta.

A Apenas a opção III.

B Apenas as opções I, II, IV.

C Apenas as opções I, II, III.

D Apenas as opções II, III.

E Apenas as opções I, II, III, IV.

Copiar questão 67c9a4f3c1db0fa3f92e4166

Você também pode gostar