0% acharam este documento útil (0 voto)
50 visualizações5 páginas

Algoritmos de Árvores de Decisão e Entropia

O documento aborda questões sobre algoritmos de indução de árvores de decisão, incluindo definições de entropia, poda e divisão de nós, além de discutir medidas de avaliação de modelos preditivos. Também apresenta perguntas sobre a taxa de erro, características das árvores de decisão e técnicas de divisão de conjuntos de dados. As perguntas exigem a escolha de alternativas corretas para conceitos fundamentais em aprendizado de máquina.

Enviado por

Leu Correia
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
50 visualizações5 páginas

Algoritmos de Árvores de Decisão e Entropia

O documento aborda questões sobre algoritmos de indução de árvores de decisão, incluindo definições de entropia, poda e divisão de nós, além de discutir medidas de avaliação de modelos preditivos. Também apresenta perguntas sobre a taxa de erro, características das árvores de decisão e técnicas de divisão de conjuntos de dados. As perguntas exigem a escolha de alternativas corretas para conceitos fundamentais em aprendizado de máquina.

Enviado por

Leu Correia
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

AAM-SEMANA 05

Pergunta 1

1. Os algoritmos normalmente utilizados para indução de árvores de


decisão trabalham com duas possibilidades para avaliar as medidas de
pureza de um conjunto de dados: (1) a entropia, que pode ser
encontrada sendo utilizada no algoritmo C4.5 e; (2) o índice Gini, que
pode ser encontrado sendo utilizado no algoritmo CART.

Assinale a alternativa correta que define entropia nesse processo.

A entropia, nesse contexto, corresponde ao volume pelos quais os


processos são incompreendidos.
a.

A entropia, nesse contexto, corresponde ao volume pelos quais os


processos são compreendidos.
b.

A entropia, nesse contexto, corresponde ao volume pelos quais os


processos são muito difíceis.
c.

A entropia, nesse contexto, corresponde ao volume pelos quais os


processos são desorganizados.
d.

A entropia, nesse contexto, corresponde ao volume pelos quais os


e.
processos são organizados.

Pergunta 2

1. Nos processos computacionais que utilizam as árvores de decisão,


normalmente são aplicadas técnicas denominadas como “poda” e
“divisão” na geração dessas árvores em relação aos seus nós. Assim, a
poda ocorre quando há a remoção de um subnó existente na árvore e a
divisão ocorre quando se inclui um novo subnó.

Com base nas informações apresentadas, identifique se são


Verdadeiras (V) ou Falsas (F) as afirmativas a seguir, que definem os
principais motivos para a realização de uma poda.

I. ( ) As estatísticas aplicadas nos testes condicionais baseados em


valores do atributo (denominados por nós) são consideradas
muito importantes no processo.
II. ( ) Os testes condicionais baseados em valores do atributo
(denominados por nós) mais profundos refletem de forma mais
fiel o conjunto utilizado para o treinamento.
III. ( ) O processo de realizar a poda em uma árvore normalmente
pode levar a erros de generalização considerados menores
quando comparados a outros processos.

Assinale a alternativa que apresenta a sequência correta.

a. V – V – V.
b. V – V – F.
c. F – F – V.
d. F – V – V.
e. F – F – F.

Pergunta 3

1. Considere a utilização de um algoritmo de indução de árvore de decisão, que


utiliza a entropia como critério de pureza. Se durante o processo de indução da
árvore, em um nó de divisão, um conjunto contém apenas duas classes (rótulos)
p e q, sendo que o número de elementos pertencentes a classe p é igual a número
de elementos pertencentes a classe q. Então podemos afirmar que o valor da
entropia para esse conjunto é igual a:

a. 1
b. -1
c. 0
d. 1/2
e. 2

Pergunta 4

1. No campo da Matemática, existem diversas medidas e ferramentas que


podem ser utilizadas para avaliar a capacidade de generalização de um
modelo, o que representa fazer predições corretas utilizando um novo
conjunto de dados. Dessas ferramentas, pode-se destacar: (a) acurácia;
(b) taxa de erro; (c) matriz de confusão e; (d) Receiver Operating
Characteristic (ROC) ou algoritmo por ordem de grandeza.

Assinale a alternativa correta que demonstra a fórmula da taxa de erro.


Pergunta 5

1. Nos métodos preditivos de maximização de margens, ____________


correspondem a valores que determinam ________ em que os dados de
diferentes classes encontram-se ___________.

a. os atributos, a maneira, correlacionados.


b. as margens, o grau, separados.
c. as métricas, a maximização, no aprendizado.
d. os rótulos, a forma, relacionados.
e. os SVMs, a distância, no espaço.

Pergunta 6

1. As árvores de decisão organizam o conhecimento extraído do conjunto


de dados em uma hierarquia de decisões que vão sendo refinadas
sucessivamente até a obtenção da classificação final. Considerando que
a indução de árvores de decisão possui pontos positivos e negativos,
analise as suas características descritas abaixo e relacione
adequadamente os seus pontos aos termos aos quais se referem.
1 – Pontos positivos.

2 – Pontos negativos.

I – Interpretabilidade.

II – Sensível à ausência de valores de atributos.

III – Complexidade de tempo.

IV – Esforço de processamento para lidar com atributos contínuos.

V – Não paramétrica.

VI – Instabilidade.

VII – Invariância a transformações (monótonas) nos dados.

Assinale a alternativa que correlaciona adequadamente os dois grupos:

a. 2-I; 1-II; 2-III; 1-IV; 2-V; 1-VI; 2-VII.


b. 2-I; 2-II; 2-III; 2-IV; 2-V; 2-VI; 2-VII.
c. 1-I; 2-II; 1-III; 2-IV; 1-V; 2-VI; 1-VII.
d. 1-I; 1-II; 1-III; 1-IV; 2-V; 2-VI; 2-VII.
e. 1-I; 1-II; 1-III; 1-IV; 1-V; 1-VI; 1-VII.

Pergunta 7

1. Nos modelos preditivos, o conjunto de dados normalmente é dividido


em: conjunto de dados de treinamento e conjunto de dados de teste,
sendo que em algumas situações, quando há a comparação entre
diversos algoritmos, ainda há uma terceira divisão: conjunto de dados de
validação. A divisão entre esses conjuntos pode levar em consideração
diversos aspectos, como o tipo de método preditivo empregado e o
número de dados disponíveis. Considerando as técnicas de divisão
utilizadas, relacione adequadamente as características descritas abaixo
aos termos aos quais se referem.

1 – Holdout.

2 – Validação cruzada.

3 – Amostragem aleatória.
4 – Bootstrap.

I – Permite a repetição de exemplos dentro do conjunto de dados.

II – Diversos subconjuntos são formados randomicamente a partir do


conjunto original.

III – O conjunto de dados é dividido em r subconjuntos aproximadamente


iguais.

IV – Consiste na técnica mais simples.

Assinale a alternativa que correlaciona adequadamente os dois grupos:


a. 1-II; 2-I; 3-IV; 4-III.
b. 1-IV; 2-III; 3-II; 4-I.
c. 1-IV; 2-II; 3-III; 4-I.
d. 1-I; 2-II; 3-III; 4-IV.
e. 1-I; 2-III; 3-II; 4-IV.

Você também pode gostar