Sharing knowledge With Everyone(Compartilhar conhecimentos a todos): UFCD 10876 - Utilização de inteligência artificial e machine learning para análise de processos(Random Forest+ML+Python)

Random Forest (Floresta Aleatória) é um algoritmo de machine learning que constrói múltiplas árvores de decisão e combina os seus resultados para prever ou classificar dados de forma mais precisa e robusta do que uma única árvore, usando técnicas de bootstrap (amostragem com reposição) e seleção aleatória de características para reduzir o overfitting e melhorar a generalização, sendo útil em tarefas de classificação e regressão.

Como Funciona:

Criação de Múltiplas Árvores: O algoritmo gera uma "floresta" de várias árvores de decisão independentes.
Amostragem Aleatória (Bootstrap): Cada árvore é treinada numa amostra aleatória diferente do conjunto de dados original (com repetição).

Seleção Aleatória de Características: Em cada nó de uma árvore, apenas um subconjunto aleatório das características (variáveis) é considerado para a divisão, e não todas, o que garante diversidade.

Previsão/Votação:

Classificação: As árvores votam na classe mais provável, e a classe com mais votos é o resultado final (votação majoritária).
Regressão: A média das previsões de todas as árvores é o resultado final.

Este vídeo ilustra o funcionamento do Random Forest na prática:

54s

Random Forest na Prática (Scikit-learn / Python)

Mario Filho

YouTube • 06/07/2021

Vantagens:

Alta Precisão: Geralmente mais preciso que uma única árvore de decisão.
Robustez: Reduz o overfitting (ajuste excessivo aos dados de treino).
Versatilidade: Funciona bem para classificação e regressão.
Importância de Características: Permite avaliar a relevância das variáveis nos dados.

Aplicações:
É usado em finanças (prever risco de crédito), saúde (diagnóstico de doenças), e-commerce (previsão de demanda) e muitas outras áreas para tomar decisões estratégicas.

Veja este vídeo para entender a diferença entre Random Forest e Decision Tree: