AAM-SEMANA 05
Pergunta 1
1. Os algoritmos normalmente utilizados para indução de árvores de
decisão trabalham com duas possibilidades para avaliar as medidas de
pureza de um conjunto de dados: (1) a entropia, que pode ser
encontrada sendo utilizada no algoritmo C4.5 e; (2) o índice Gini, que
pode ser encontrado sendo utilizado no algoritmo CART.
Assinale a alternativa correta que define entropia nesse processo.
A entropia, nesse contexto, corresponde ao volume pelos quais os
processos são incompreendidos.
a.
A entropia, nesse contexto, corresponde ao volume pelos quais os
processos são compreendidos.
b.
A entropia, nesse contexto, corresponde ao volume pelos quais os
processos são muito difíceis.
c.
A entropia, nesse contexto, corresponde ao volume pelos quais os
processos são desorganizados.
d.
A entropia, nesse contexto, corresponde ao volume pelos quais os
e.
processos são organizados.
Pergunta 2
1. Nos processos computacionais que utilizam as árvores de decisão,
normalmente são aplicadas técnicas denominadas como “poda” e
“divisão” na geração dessas árvores em relação aos seus nós. Assim, a
poda ocorre quando há a remoção de um subnó existente na árvore e a
divisão ocorre quando se inclui um novo subnó.
Com base nas informações apresentadas, identifique se são
Verdadeiras (V) ou Falsas (F) as afirmativas a seguir, que definem os
principais motivos para a realização de uma poda.
I. ( ) As estatísticas aplicadas nos testes condicionais baseados em
valores do atributo (denominados por nós) são consideradas
muito importantes no processo.
II. ( ) Os testes condicionais baseados em valores do atributo
(denominados por nós) mais profundos refletem de forma mais
fiel o conjunto utilizado para o treinamento.
III. ( ) O processo de realizar a poda em uma árvore normalmente
pode levar a erros de generalização considerados menores
quando comparados a outros processos.
Assinale a alternativa que apresenta a sequência correta.
a. V – V – V.
b. V – V – F.
c. F – F – V.
d. F – V – V.
e. F – F – F.
Pergunta 3
1. Considere a utilização de um algoritmo de indução de árvore de decisão, que
utiliza a entropia como critério de pureza. Se durante o processo de indução da
árvore, em um nó de divisão, um conjunto contém apenas duas classes (rótulos)
p e q, sendo que o número de elementos pertencentes a classe p é igual a número
de elementos pertencentes a classe q. Então podemos afirmar que o valor da
entropia para esse conjunto é igual a:
a. 1
b. -1
c. 0
d. 1/2
e. 2
Pergunta 4
1. No campo da Matemática, existem diversas medidas e ferramentas que
podem ser utilizadas para avaliar a capacidade de generalização de um
modelo, o que representa fazer predições corretas utilizando um novo
conjunto de dados. Dessas ferramentas, pode-se destacar: (a) acurácia;
(b) taxa de erro; (c) matriz de confusão e; (d) Receiver Operating
Characteristic (ROC) ou algoritmo por ordem de grandeza.
Assinale a alternativa correta que demonstra a fórmula da taxa de erro.
Pergunta 5
1. Nos métodos preditivos de maximização de margens, ____________
correspondem a valores que determinam ________ em que os dados de
diferentes classes encontram-se ___________.
a. os atributos, a maneira, correlacionados.
b. as margens, o grau, separados.
c. as métricas, a maximização, no aprendizado.
d. os rótulos, a forma, relacionados.
e. os SVMs, a distância, no espaço.
Pergunta 6
1. As árvores de decisão organizam o conhecimento extraído do conjunto
de dados em uma hierarquia de decisões que vão sendo refinadas
sucessivamente até a obtenção da classificação final. Considerando que
a indução de árvores de decisão possui pontos positivos e negativos,
analise as suas características descritas abaixo e relacione
adequadamente os seus pontos aos termos aos quais se referem.
1 – Pontos positivos.
2 – Pontos negativos.
I – Interpretabilidade.
II – Sensível à ausência de valores de atributos.
III – Complexidade de tempo.
IV – Esforço de processamento para lidar com atributos contínuos.
V – Não paramétrica.
VI – Instabilidade.
VII – Invariância a transformações (monótonas) nos dados.
Assinale a alternativa que correlaciona adequadamente os dois grupos:
a. 2-I; 1-II; 2-III; 1-IV; 2-V; 1-VI; 2-VII.
b. 2-I; 2-II; 2-III; 2-IV; 2-V; 2-VI; 2-VII.
c. 1-I; 2-II; 1-III; 2-IV; 1-V; 2-VI; 1-VII.
d. 1-I; 1-II; 1-III; 1-IV; 2-V; 2-VI; 2-VII.
e. 1-I; 1-II; 1-III; 1-IV; 1-V; 1-VI; 1-VII.
Pergunta 7
1. Nos modelos preditivos, o conjunto de dados normalmente é dividido
em: conjunto de dados de treinamento e conjunto de dados de teste,
sendo que em algumas situações, quando há a comparação entre
diversos algoritmos, ainda há uma terceira divisão: conjunto de dados de
validação. A divisão entre esses conjuntos pode levar em consideração
diversos aspectos, como o tipo de método preditivo empregado e o
número de dados disponíveis. Considerando as técnicas de divisão
utilizadas, relacione adequadamente as características descritas abaixo
aos termos aos quais se referem.
1 – Holdout.
2 – Validação cruzada.
3 – Amostragem aleatória.
4 – Bootstrap.
I – Permite a repetição de exemplos dentro do conjunto de dados.
II – Diversos subconjuntos são formados randomicamente a partir do
conjunto original.
III – O conjunto de dados é dividido em r subconjuntos aproximadamente
iguais.
IV – Consiste na técnica mais simples.
Assinale a alternativa que correlaciona adequadamente os dois grupos:
a. 1-II; 2-I; 3-IV; 4-III.
b. 1-IV; 2-III; 3-II; 4-I.
c. 1-IV; 2-II; 3-III; 4-I.
d. 1-I; 2-II; 3-III; 4-IV.
e. 1-I; 2-III; 3-II; 4-IV.