Árvores de decisão e o aprendizado de máquina e pesquisa de dados
Uma árvore de decisão pode ser usada para ajudar a criar modelos preditivos automatizados, que têm aplicações em aprendizado de máquina, pesquisa de dados e estatísticas. Conhecido como aprendizado de árvores de decisão, este método considera as observações sobre um item para prever o valor desse item.
Nestas árvores de decisão, nós representam dados, e não decisões. Este tipo de árvore é também conhecido como uma árvore de classificação. Cada ramificação contém um conjunto de atributos ou regras de classificação, associado a um determinado rótulo de classe, que pode ser encontrado na extremidade da ramificação.
Estas regras, também conhecidas como regras de decisão, podem ser expressas em uma cláusula ‘se-então’, com cada decisão ou valor de dados formando uma cláusula, de modo que, por exemplo, "Se as condições 1, 2 e 3 forem cumpridas, então o desfecho x será o resultado com y certeza."
Cada pedaço de dados adicional ajuda o modelo a prever, com mais precisão, a qual conjunto finito de valores o sujeito em questão pertence. Esta informação pode então ser usada em um modelo maior de tomada de decisão. Por vezes, a variável prevista será um número real, tal como um preço. Árvores de decisão com resultados infinitos e contínuos possíveis são chamadas de árvores de regressão.
Para maior precisão, às vezes várias árvores são usadas juntas por meio de métodos de conjunto:
- Ensacamento cria várias árvores ao remodelar os dados da fonte e, em seguida, as árvores votam para chegar a um consenso.
- Um classificador de floresta aleatória é composto por várias árvores concebidas para aumentar a taxa de classificação
- Boosted trees podem ser utilizadas para árvores de regressão e de classificação.
- As árvores em uma floresta de rotação são todas treinadas usando PCA (análise de componentes principais) em uma parte aleatória dos dados
Uma árvore de decisão é considerada ideal quando representa o maior número de dados com o menor número de níveis ou perguntas. Algoritmos projetados para criar árvores de decisão otimizadas incluem CART, ASSISTANT, CLS e ID3/4/5. Uma árvore de decisão também pode ser criada por meio do desenvolvimento de regras de associação, colocando a variável de alvo à direita.
Cada método deve determinar a melhor maneira de dividir os dados em cada nível. Métodos comuns para tal incluem medição da impureza de Gini, ganho de informação e redução de variância.
Usar árvores de decisão no aprendizado de máquina tem muitas vantagens:
-
O custo de utilização da árvore para prever dados diminui com cada ponto de dados adicional.
-
As árvores de decisão funcionam para dados categóricos ou numéricos.
-
Elas podem modelar problemas com várias saídas.
-
Elas utilizam um modelo de caixa branca (facilitando a explicação dos resultados).
-
A confiabilidade de uma árvore pode ser testada e quantificada.
-
As decisões tendem a ser precisas, independentemente da possibilidade de violar os pressupostos dos dados de origem.
Mas também tem algumas desvantagens:
-
Ao lidar com dados categóricos com vários níveis, o ganho de informação é tendencioso em favor dos atributos com mais níveis.
-
Cálculos podem tornar-se complexos quando se lida com a incerteza e com muito resultados vinculados.
-
Conjunções entre nós estão limitadas a “E”, enquanto gráficos de decisão permitem nós ligados por “OU”.
Em trabalhos com dados, você vai encontrar dois tipos principais de diagramas de árvore de decisão: classificação e regressão. Cada um é adequado a diferentes tipos de resultados. Os dois são sistemas valiosos, mas funcionam de maneiras diferentes e têm usos distintos.
Com árvores de classificação, você pode separar objetos, unidades, resultados e grupos em categorias. Você pode configurar ramificações com características que facilitem a classificação e ofereçam uma distinção rápida entre as categorias. Por exemplo, é possível usar uma árvore de classificação com mineração de dados para ajudar a separar diferentes tipos de resultados em categorias.
Árvores de regressão, em vez de ajudar com classificação, ajudam com previsão. Uma árvore de regressão usa variáveis contínuas, obtidas por meio de medição, para selecionar ramificações (ou nós). Em outras palavras, você pode usar uma árvore de regressão para organizar resultados com base na probabilidade de ocorrerem.