Pseudo-ausências

Como ensinar ao modelo onde a espécie
NÃO está?


Aula 3 - Disciplina: Mudanças Climáticas

Engenharia Florestal - UDESC

Prof. Pedro Higuchi

Recapitulando

  • Aula 1: Modelos, algoritmos e Random Forest
  • Aula 2: Dados de ocorrência do GBIF - onde a espécie FOI encontrada
Hoje: vamos entender por que precisamos de pontos onde a espécie NÃO está e como gerar esses pontos - a segunda etapa no TAIPA.

Roteiro da aula

  1. Por que o modelo precisa de ausências?
  2. O problema: não temos ausências reais
  3. A solução: pseudo-ausências
  4. Estratégia de buffer
  5. Parâmetros importantes
  6. Prática no TAIPA

Por que o modelo precisa de ausências?

Lembram da analogia do detetive? O modelo precisa aprender dois tipos de informação:

Presenças
"Onde a espécie ESTÁ"
Condições favoráveis
Ausências
"Onde a espécie NÃO está"
Condições desfavoráveis

Analogia: aprender a reconhecer uma fruta

Imagine ensinar uma criança o que é uma maçã:

Só com exemplos positivos:
  • "Isso é uma maçã"
  • "Isso também é uma maçã"
  • A criança nunca vê o que NÃO é maçã

Resultado: pode achar que tudo que é redondo e vermelho é maçã!

Com exemplos positivos E negativos:
  • "Isso é uma maçã"
  • "Isso NÃO é uma maçã (é um tomate)"
  • A criança aprende a diferenciar!

Resultado: aprende as características que distinguem a maçã.

No contexto da modelagem

É a mesma lógica para o Random Forest:

  • Presenças: "Neste local com temperatura X e chuva Y, a espécie EXISTE" → classe 1
  • Ausências: "Neste local com temperatura W e chuva Z, a espécie NÃO EXISTE" → classe 0

Com as duas classes, o modelo aprende a fronteira entre condições favoráveis e desfavoráveis.

Sem ausências, o modelo não tem como comparar - não sabe o que torna um lugar "bom" vs. "ruim" para a espécie.

O problema: não temos ausências reais

Por que não podemos simplesmente usar dados de ausência verdadeiros?

Ausência real vs. não detecção

Pergunta fundamental: se eu fui a um lugar e NÃO encontrei a espécie, ela realmente não está lá? Ou eu simplesmente não a encontrei?
  • A espécie pode estar lá, mas não foi vista (era período de dormência, estava escondida, etc.)
  • A amostragem pode ter sido insuficiente
  • A espécie pode estar lá em baixa densidade

Na ecologia, isso é chamado de detecção imperfeita - é um problema clássico!

Exemplo prático

Imagine que você fez um inventário florestal em uma área de 1 hectare:

Você encontrou:
  • 50 indivíduos de Ocotea porosa
  • 30 de Araucaria angustifolia
  • 0 de Cedrela fissilis
Pode concluir que Cedrela não existe lá?
  • Talvez exista no hectare vizinho
  • Talvez exista como plântula pequena
  • Talvez tenha sido cortada recentemente

Dados do GBIF: só presenças

O GBIF registra apenas onde a espécie foi encontrada:

  • Herbários registram: "coletei esta planta AQUI"
  • iNaturalist registra: "fotografei esta espécie AQUI"
  • Ninguém registra: "fui a este lugar e NÃO encontrei nada"
Conclusão: precisamos de uma forma inteligente de criar pontos de ausência para alimentar o modelo. Esses pontos criados artificialmente são chamados de pseudo-ausências.

O que são pseudo-ausências?

Pseudo-ausências são pontos gerados artificialmente em locais onde assumimos que a espécie provavelmente não ocorre.

O prefixo "pseudo" significa "falso" - são ausências presumidas, não confirmadas em campo.

A lógica por trás

Se a espécie foi registrada em certos locais, então locais próximos mas diferentes provavelmente representam condições onde ela não vive.

Pontos de PRESENÇA Pontos de PSEUDO-AUSÊNCIA (dados reais do GBIF) (gerados pelo computador) Classe 1 Classe 0 "A espécie está aqui" "A espécie provavelmente não está aqui"

Juntos, presenças + pseudo-ausências formam o conjunto de dados completo para treinar o Random Forest.

Diferentes estratégias

Existem várias formas de gerar pseudo-ausências:

Estratégia Como funciona Vantagem
Aleatória Pontos aleatórios em toda a área de estudo Simples
Buffer Pontos em um raio ao redor das presenças Mais realista
Ambiental Pontos em condições climáticas diferentes Mais informativa
No TAIPA: usamos a estratégia de buffer, que é a mais utilizada e equilibra simplicidade com qualidade.

Estratégia de buffer

A estratégia que o TAIPA utiliza. Vamos entender passo a passo:

Passo 1: Área de buffer

Criamos um círculo ao redor de cada ponto de presença:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . [PRESENÇA] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . [. . .] = Área de buffer (200 km)

A distância do buffer define o raio máximo. Valores típicos: 100-500 km.

Passo 2: Zona de exclusão

Removemos uma área muito próxima das presenças:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . /////////// . . . . . . /PRESENÇA / . . . . . . /////////// . . . . . . . . . . . . . . . . . . . . . . [///] = Zona de exclusão (10 km) [. .] = Área válida para pseudo-ausências

A zona de exclusão evita colocar "ausências" muito perto de onde a espécie existe.

Passo 3: Gerar pontos aleatórios

Geramos pontos aleatórios na área entre o buffer e a exclusão:

* . . . * . . . . . . . * . . . . . * . . . . * . . . * . . . . /////////// . . . . * . /PRESENÇA / . . . . . . /////////// . * . . . . * . . . . * . . . . * . . . . . [ * ] = Pseudo-ausências geradas

O TAIPA verifica que todos os pontos caem dentro do Brasil.

Por que buffer e não aleatório total?

Aleatório total:
  • Pontos podem cair muito longe
  • Condições muito diferentes
  • Modelo aprende diferença trivial
  • "Claro que a Araucária não vive no deserto!"
Buffer (TAIPA):
  • Pontos próximos às presenças
  • Condições ambientais similares
  • Modelo aprende diferença sutil
  • "O que diferencia o lugar com e sem a espécie?"

Com buffer, forçamos o modelo a identificar as variáveis que realmente importam para a espécie.

Parâmetros no TAIPA

Três ajustes que você precisa definir:

1. Número de pseudo-ausências

Quantos pontos de "não-ocorrência" gerar?
Proporção Exemplo Recomendação
1:1 100 presenças → 100 ausências Equilibrado - recomendado para começar
1:2 100 presenças → 200 ausências Bom para espécie com poucos dados
1:5 100 presenças → 500 ausências Pode causar desbalanceamento
Dica: no TAIPA, o padrão é usar o mesmo número de presenças. Comece com 1:1 e ajuste se necessário.

2. Distância do buffer (km)

Até onde buscar pseudo-ausências ao redor das presenças?
  • Buffer pequeno (50-100 km): pseudo-ausências muito próximas, condições muito similares
  • Buffer médio (100-300 km): bom equilíbrio - recomendado
  • Buffer grande (300-1000 km): pseudo-ausências distantes, maior variedade ambiental

O valor padrão no TAIPA é 200 km. Para espécies com distribuição ampla, pode-se aumentar.

3. Raio de exclusão (km)

Qual a distância mínima entre uma pseudo-ausência e uma presença?
  • Exclusão pequena (5-10 km): permite pseudo-ausências relativamente próximas
  • Exclusão média (10-30 km): garante uma separação razoável
  • Exclusão grande (30-100 km): pode criar uma "zona morta" muito grande
Cuidado: se o raio de exclusão for muito grande e o buffer muito pequeno, pode não sobrar área para gerar pontos!

Interpretando o resultado

Depois de gerar as pseudo-ausências, o TAIPA mostra um mapa com dois tipos de pontos:

O que você vai ver no mapa

Pontos AZUIS = Presenças
  • Registros reais do GBIF
  • Locais confirmados da espécie
  • Dados da etapa anterior
Pontos VERMELHOS = Pseudo-ausências
  • Gerados pelo algoritmo
  • Locais presumidos de ausência
  • Dentro do buffer, fora da exclusão

O que verificar

  • Os pontos vermelhos estão ao redor dos azuis? (buffer funcionando)
  • Nenhum ponto vermelho está em cima de um azul? (exclusão funcionando)
  • Os pontos estão todos dentro do Brasil?
  • Há uma boa distribuição espacial?
Dica: se os pontos vermelhos parecem concentrados demais, tente aumentar a distância do buffer.

Cuidados importantes

Pseudo-ausências são uma aproximação. Alguns cuidados:

Limitações das pseudo-ausências

Possíveis problemas:
  • Um ponto "ausência" pode ser um local onde a espécie existe mas não foi coletada
  • A escolha dos parâmetros influencia o resultado do modelo
  • Pseudo-ausências aleatórias podem não representar a realidade
Como minimizar:
  • Usar a estratégia de buffer (TAIPA já faz isso!)
  • Ajustar parâmetros com base no conhecimento da espécie
  • Manter proporção equilibrada (1:1)
  • Revisar visualmente o mapa

Influência no modelo

A qualidade das pseudo-ausências afeta diretamente o modelo:

  • Pseudo-ausências muito longe: modelo aprende diferença óbvia → superestima a área
  • Pseudo-ausências muito perto: modelo não consegue distinguir → subestima a área
  • Buffer equilibrado: modelo aprende diferenças reais → resultado mais confiável

É por isso que a escolha da estratégia e dos parâmetros importa tanto!

Prática no TAIPA

Agora vamos aplicar o que aprendemos!

Etapa 2 do TAIPA: Pseudo-ausências

Passo a passo

  1. 1 Verificar que você já tem os dados de ocorrência (Etapa 1 completa)
  2. 2 Avançar para a etapa "Pseudo-ausências"
  3. 3 Definir o número de pseudo-ausências (sugestão: igual ao de presenças)
  4. 4 Ajustar o buffer (sugestão: 200 km)
  5. 5 Ajustar a exclusão (sugestão: 10 km)
  6. 6 Clicar "Gerar" e analisar o mapa resultante

O que observar

  • O número de pseudo-ausências geradas é o esperado?
  • Os pontos vermelhos formam um "anel" ao redor dos azuis?
  • Algum ponto caiu em local obviamente errado? (no oceano, fora do Brasil)
  • A distribuição parece equilibrada geograficamente?
Experimente: gere pseudo-ausências com diferentes configurações de buffer (100 km, 200 km, 500 km) e compare os mapas. Como muda?

O que aprendemos hoje

  • O modelo precisa de ausências para diferenciar condições favoráveis e desfavoráveis
  • Ausências reais são raras - não sabemos com certeza onde a espécie não existe
  • Pseudo-ausências = pontos gerados artificialmente onde assumimos que a espécie não está
  • Estratégia de buffer = gerar pontos em um raio ao redor das presenças, com zona de exclusão
  • Parâmetros importam: número de pontos, distância do buffer, raio de exclusão
  • Revisar visualmente o mapa é essencial para garantir qualidade

Próxima aula

Aula 4: Análise Bioclimática - como extrair e selecionar as variáveis climáticas que melhor explicam a distribuição da espécie.

Até lá, deixem o TAIPA com as pseudo-ausências geradas para a espécie escolhida.


Dúvidas?