Pseudo-ausências

Como ensinar ao modelo onde a espécie
NÃO está?

Aula 3 - Disciplina: Mudanças Climáticas

Engenharia Florestal - UDESC

Prof. Pedro Higuchi

Recapitulando

Aula 1: Modelos, algoritmos e Random Forest
Aula 2: Dados de ocorrência do GBIF - onde a espécie FOI encontrada

Hoje: vamos entender por que precisamos de pontos onde a espécie NÃO está e como gerar esses pontos - a segunda etapa no TAIPA.

Roteiro da aula

Por que o modelo precisa de ausências?
O problema: não temos ausências reais
A solução: pseudo-ausências
Estratégia de buffer
Parâmetros importantes
Prática no TAIPA

Por que o modelo precisa de ausências?

Lembram da analogia do detetive? O modelo precisa aprender dois tipos de informação:

Presenças
"Onde a espécie ESTÁ"
Condições favoráveis

Ausências
"Onde a espécie NÃO está"
Condições desfavoráveis

Analogia: aprender a reconhecer uma fruta

Imagine ensinar uma criança o que é uma maçã:

Só com exemplos positivos:

"Isso é uma maçã"
"Isso também é uma maçã"
A criança nunca vê o que NÃO é maçã

Resultado: pode achar que tudo que é redondo e vermelho é maçã!

Com exemplos positivos E negativos:

"Isso é uma maçã"
"Isso NÃO é uma maçã (é um tomate)"
A criança aprende a diferenciar!

Resultado: aprende as características que distinguem a maçã.

No contexto da modelagem

É a mesma lógica para o Random Forest:

Presenças: "Neste local com temperatura X e chuva Y, a espécie EXISTE" → classe 1
Ausências: "Neste local com temperatura W e chuva Z, a espécie NÃO EXISTE" → classe 0

Com as duas classes, o modelo aprende a fronteira entre condições favoráveis e desfavoráveis.

Sem ausências, o modelo não tem como comparar - não sabe o que torna um lugar "bom" vs. "ruim" para a espécie.

O problema: não temos ausências reais

Por que não podemos simplesmente usar dados de ausência verdadeiros?

Ausência real vs. não detecção

Pergunta fundamental: se eu fui a um lugar e NÃO encontrei a espécie, ela realmente não está lá? Ou eu simplesmente não a encontrei?

A espécie pode estar lá, mas não foi vista (era período de dormência, estava escondida, etc.)
A amostragem pode ter sido insuficiente
A espécie pode estar lá em baixa densidade

Na ecologia, isso é chamado de detecção imperfeita - é um problema clássico!

Exemplo prático

Imagine que você fez um inventário florestal em uma área de 1 hectare:

Você encontrou:

50 indivíduos de Ocotea porosa
30 de Araucaria angustifolia
0 de Cedrela fissilis

Pode concluir que Cedrela não existe lá?

Talvez exista no hectare vizinho
Talvez exista como plântula pequena
Talvez tenha sido cortada recentemente

Dados do GBIF: só presenças

O GBIF registra apenas onde a espécie foi encontrada:

Herbários registram: "coletei esta planta AQUI"
iNaturalist registra: "fotografei esta espécie AQUI"
Ninguém registra: "fui a este lugar e NÃO encontrei nada"

Conclusão: precisamos de uma forma inteligente de criar pontos de ausência para alimentar o modelo. Esses pontos criados artificialmente são chamados de pseudo-ausências.

O que são pseudo-ausências?

Pseudo-ausências são pontos gerados artificialmente em locais onde assumimos que a espécie provavelmente não ocorre.

O prefixo "pseudo" significa "falso" - são ausências presumidas, não confirmadas em campo.

A lógica por trás

Se a espécie foi registrada em certos locais, então locais próximos mas diferentes provavelmente representam condições onde ela não vive.

Pontos de PRESENÇA Pontos de PSEUDO-AUSÊNCIA (dados reais do GBIF) (gerados pelo computador) Classe 1 Classe 0 "A espécie está aqui" "A espécie provavelmente não está aqui"

Juntos, presenças + pseudo-ausências formam o conjunto de dados completo para treinar o Random Forest.

Diferentes estratégias

Existem várias formas de gerar pseudo-ausências:

Estratégia	Como funciona	Vantagem
Aleatória	Pontos aleatórios em toda a área de estudo	Simples
Buffer	Pontos em um raio ao redor das presenças	Mais realista
Ambiental	Pontos em condições climáticas diferentes	Mais informativa

No TAIPA: usamos a estratégia de buffer, que é a mais utilizada e equilibra simplicidade com qualidade.

Estratégia de buffer

A estratégia que o TAIPA utiliza. Vamos entender passo a passo:

Passo 1: Área de buffer

Criamos um círculo ao redor de cada ponto de presença:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . [PRESENÇA] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . [. . .] = Área de buffer (200 km)

A distância do buffer define o raio máximo. Valores típicos: 100-500 km.

Passo 2: Zona de exclusão

Removemos uma área muito próxima das presenças:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . /////////// . . . . . . /PRESENÇA / . . . . . . /////////// . . . . . . . . . . . . . . . . . . . . . . [///] = Zona de exclusão (10 km) [. .] = Área válida para pseudo-ausências

A zona de exclusão evita colocar "ausências" muito perto de onde a espécie existe.

Passo 3: Gerar pontos aleatórios

Geramos pontos aleatórios na área entre o buffer e a exclusão:

* . . . * . . . . . . . * . . . . . * . . . . * . . . * . . . . /////////// . . . . * . /PRESENÇA / . . . . . . /////////// . * . . . . * . . . . * . . . . * . . . . . [ * ] = Pseudo-ausências geradas

O TAIPA verifica que todos os pontos caem dentro do Brasil.

Por que buffer e não aleatório total?

Aleatório total:

Pontos podem cair muito longe
Condições muito diferentes
Modelo aprende diferença trivial
"Claro que a Araucária não vive no deserto!"

Buffer (TAIPA):

Pontos próximos às presenças
Condições ambientais similares
Modelo aprende diferença sutil
"O que diferencia o lugar com e sem a espécie?"

Com buffer, forçamos o modelo a identificar as variáveis que realmente importam para a espécie.

Parâmetros no TAIPA

Três ajustes que você precisa definir:

1. Número de pseudo-ausências

Quantos pontos de "não-ocorrência" gerar?

Proporção	Exemplo	Recomendação
1:1	100 presenças → 100 ausências	Equilibrado - recomendado para começar
1:2	100 presenças → 200 ausências	Bom para espécie com poucos dados
1:5	100 presenças → 500 ausências	Pode causar desbalanceamento

Dica: no TAIPA, o padrão é usar o mesmo número de presenças. Comece com 1:1 e ajuste se necessário.

2. Distância do buffer (km)

Até onde buscar pseudo-ausências ao redor das presenças?

Buffer pequeno (50-100 km): pseudo-ausências muito próximas, condições muito similares
Buffer médio (100-300 km): bom equilíbrio - recomendado
Buffer grande (300-1000 km): pseudo-ausências distantes, maior variedade ambiental

O valor padrão no TAIPA é 200 km. Para espécies com distribuição ampla, pode-se aumentar.

3. Raio de exclusão (km)

Qual a distância mínima entre uma pseudo-ausência e uma presença?

Exclusão pequena (5-10 km): permite pseudo-ausências relativamente próximas
Exclusão média (10-30 km): garante uma separação razoável
Exclusão grande (30-100 km): pode criar uma "zona morta" muito grande

Cuidado: se o raio de exclusão for muito grande e o buffer muito pequeno, pode não sobrar área para gerar pontos!

Interpretando o resultado

Depois de gerar as pseudo-ausências, o TAIPA mostra um mapa com dois tipos de pontos:

O que você vai ver no mapa

Pontos AZUIS = Presenças

Registros reais do GBIF
Locais confirmados da espécie
Dados da etapa anterior

Pontos VERMELHOS = Pseudo-ausências

Gerados pelo algoritmo
Locais presumidos de ausência
Dentro do buffer, fora da exclusão

O que verificar

Os pontos vermelhos estão ao redor dos azuis? (buffer funcionando)
Nenhum ponto vermelho está em cima de um azul? (exclusão funcionando)
Os pontos estão todos dentro do Brasil?
Há uma boa distribuição espacial?

Dica: se os pontos vermelhos parecem concentrados demais, tente aumentar a distância do buffer.

Cuidados importantes

Pseudo-ausências são uma aproximação. Alguns cuidados:

Limitações das pseudo-ausências

Possíveis problemas:

Um ponto "ausência" pode ser um local onde a espécie existe mas não foi coletada
A escolha dos parâmetros influencia o resultado do modelo
Pseudo-ausências aleatórias podem não representar a realidade

Como minimizar:

Usar a estratégia de buffer (TAIPA já faz isso!)
Ajustar parâmetros com base no conhecimento da espécie
Manter proporção equilibrada (1:1)
Revisar visualmente o mapa

Influência no modelo

A qualidade das pseudo-ausências afeta diretamente o modelo:

Pseudo-ausências muito longe: modelo aprende diferença óbvia → superestima a área
Pseudo-ausências muito perto: modelo não consegue distinguir → subestima a área
Buffer equilibrado: modelo aprende diferenças reais → resultado mais confiável

É por isso que a escolha da estratégia e dos parâmetros importa tanto!

Prática no TAIPA

Agora vamos aplicar o que aprendemos!

Etapa 2 do TAIPA: Pseudo-ausências

Passo a passo

1 Verificar que você já tem os dados de ocorrência (Etapa 1 completa)
2 Avançar para a etapa "Pseudo-ausências"
3 Definir o número de pseudo-ausências (sugestão: igual ao de presenças)
4 Ajustar o buffer (sugestão: 200 km)
5 Ajustar a exclusão (sugestão: 10 km)
6 Clicar "Gerar" e analisar o mapa resultante

O que observar

O número de pseudo-ausências geradas é o esperado?
Os pontos vermelhos formam um "anel" ao redor dos azuis?
Algum ponto caiu em local obviamente errado? (no oceano, fora do Brasil)
A distribuição parece equilibrada geograficamente?

Experimente: gere pseudo-ausências com diferentes configurações de buffer (100 km, 200 km, 500 km) e compare os mapas. Como muda?

O que aprendemos hoje

O modelo precisa de ausências para diferenciar condições favoráveis e desfavoráveis
Ausências reais são raras - não sabemos com certeza onde a espécie não existe
Pseudo-ausências = pontos gerados artificialmente onde assumimos que a espécie não está
Estratégia de buffer = gerar pontos em um raio ao redor das presenças, com zona de exclusão
Parâmetros importam: número de pontos, distância do buffer, raio de exclusão
Revisar visualmente o mapa é essencial para garantir qualidade

Próxima aula

Aula 4: Análise Bioclimática - como extrair e selecionar as variáveis climáticas que melhor explicam a distribuição da espécie.

Até lá, deixem o TAIPA com as pseudo-ausências geradas para a espécie escolhida.

Dúvidas?