Aula 3 - Disciplina: Mudanças Climáticas
Engenharia Florestal - UDESC
Prof. Pedro Higuchi
Lembram da analogia do detetive? O modelo precisa aprender dois tipos de informação:
Imagine ensinar uma criança o que é uma maçã:
Resultado: pode achar que tudo que é redondo e vermelho é maçã!
Resultado: aprende as características que distinguem a maçã.
É a mesma lógica para o Random Forest:
Com as duas classes, o modelo aprende a fronteira entre condições favoráveis e desfavoráveis.
Sem ausências, o modelo não tem como comparar - não sabe o que torna um lugar "bom" vs. "ruim" para a espécie.
Por que não podemos simplesmente usar dados de ausência verdadeiros?
Na ecologia, isso é chamado de detecção imperfeita - é um problema clássico!
Imagine que você fez um inventário florestal em uma área de 1 hectare:
O GBIF registra apenas onde a espécie foi encontrada:
O prefixo "pseudo" significa "falso" - são ausências presumidas, não confirmadas em campo.
Se a espécie foi registrada em certos locais, então locais próximos mas diferentes provavelmente representam condições onde ela não vive.
Juntos, presenças + pseudo-ausências formam o conjunto de dados completo para treinar o Random Forest.
Existem várias formas de gerar pseudo-ausências:
| Estratégia | Como funciona | Vantagem |
|---|---|---|
| Aleatória | Pontos aleatórios em toda a área de estudo | Simples |
| Buffer | Pontos em um raio ao redor das presenças | Mais realista |
| Ambiental | Pontos em condições climáticas diferentes | Mais informativa |
A estratégia que o TAIPA utiliza. Vamos entender passo a passo:
Criamos um círculo ao redor de cada ponto de presença:
A distância do buffer define o raio máximo. Valores típicos: 100-500 km.
Removemos uma área muito próxima das presenças:
A zona de exclusão evita colocar "ausências" muito perto de onde a espécie existe.
Geramos pontos aleatórios na área entre o buffer e a exclusão:
O TAIPA verifica que todos os pontos caem dentro do Brasil.
Com buffer, forçamos o modelo a identificar as variáveis que realmente importam para a espécie.
Três ajustes que você precisa definir:
| Proporção | Exemplo | Recomendação |
|---|---|---|
| 1:1 | 100 presenças → 100 ausências | Equilibrado - recomendado para começar |
| 1:2 | 100 presenças → 200 ausências | Bom para espécie com poucos dados |
| 1:5 | 100 presenças → 500 ausências | Pode causar desbalanceamento |
O valor padrão no TAIPA é 200 km. Para espécies com distribuição ampla, pode-se aumentar.
Depois de gerar as pseudo-ausências, o TAIPA mostra um mapa com dois tipos de pontos:
Pseudo-ausências são uma aproximação. Alguns cuidados:
A qualidade das pseudo-ausências afeta diretamente o modelo:
É por isso que a escolha da estratégia e dos parâmetros importa tanto!
Agora vamos aplicar o que aprendemos!
Até lá, deixem o TAIPA com as pseudo-ausências geradas para a espécie escolhida.