Dados de Ocorrencia de Especies

De onde vem os dados que alimentam
nossos modelos?


Aula 2 - Disciplina: Mudancas Climaticas

Engenharia Florestal - UDESC

Prof. Pedro Higuchi

Recapitulando a aula anterior

  • Modelo = versao simplificada da realidade
  • Algoritmo = passo a passo para resolver um problema
  • Random Forest = muitas arvores de decisao votando juntas
Hoje: vamos entender de onde vem os dados de ocorrencia que alimentam o modelo - a primeira etapa no TAIPA.

Roteiro da aula

  1. O que sao dados de ocorrencia?
  2. O GBIF - banco de dados global de biodiversidade
  3. De onde vem esses registros?
  4. Qualidade dos dados e vies amostral
  5. Pratica no TAIPA: busca de especies

O que sao dados de ocorrencia?

Um dado de ocorrencia e um registro de que uma especie foi encontrada em determinado lugar.

Exemplo: "No dia 15/03/2020, a especie Araucaria angustifolia foi observada nas coordenadas -27.59, -50.35 (Lages, SC)."

As informacoes essenciais

Cada registro de ocorrencia tem pelo menos:

Informacao Exemplo Para que serve?
Especie Araucaria angustifolia Saber de quem estamos falando
Latitude -27.59 Posicao norte-sul
Longitude -50.35 Posicao leste-oeste
Data 2020-03-15 Quando foi observada

Com latitude e longitude, podemos colocar cada registro no mapa e cruzar com dados climaticos.

De registro para modelo

O ponto-chave e:

Se sabemos onde a especie esta, podemos descobrir em quais condicoes climaticas ela vive.

E assim o modelo aprende:

  • Ponto com a especie + clima daquele local = "presenca"
  • Ponto sem a especie + clima daquele local = "ausencia"

Na proxima aula vamos falar sobre como gerar pontos de ausencia (pseudo-ausencias).

GBIF: o banco de dados global

Global Biodiversity Information Facility

O GBIF e a maior rede mundial de dados de biodiversidade. Reune informacoes de milhares de instituicoes em mais de 60 paises.
  • Mais de 2 bilhoes de registros de ocorrencia
  • Dados abertos e gratuitos
  • Acesso via site (gbif.org) ou via API (como o TAIPA faz)

De onde vem os dados do GBIF?

O GBIF nao coleta dados. Ele agrega dados de varias fontes:

Herbarios e museus
  • Colecoes cientificas centenarias
  • Plantas prensadas, animais preservados
  • Cada exemplar tem uma etiqueta com local e data
Pesquisas de campo
  • Inventarios florestais
  • Levantamentos de fauna e flora
  • Parcelas permanentes

Mais fontes de dados

Ciencia cidada
  • iNaturalist - fotos de qualquer pessoa
  • eBird - observacoes de aves
  • Milhoes de registros por ano!
Dados governamentais
  • Monitoramento de biodiversidade
  • Estudos de impacto ambiental
  • Programas de conservacao

No Brasil, herbarios como o FURB, FLOR, SP e MBM contribuem com milhoes de registros.

Conexao com o TAIPA

No TAIPA, quando voce digita o nome de uma especie e clica "Buscar", o sistema consulta o GBIF automaticamente via API e retorna os pontos de ocorrencia no Brasil.

Voce nao precisa acessar o site do GBIF manualmente - o TAIPA faz isso por voce!

Como funciona a busca no GBIF?

Quando buscamos uma especie, o GBIF retorna uma tabela com todos os registros encontrados.

O que o GBIF retorna

Exemplo de busca por Araucaria angustifolia no Brasil:

Especie Latitude Longitude Ano Fonte
A. angustifolia -27.59 -50.35 2018 Herbario FURB
A. angustifolia -28.12 -49.37 2020 iNaturalist
A. angustifolia -25.43 -49.27 2015 Herbario MBM
A. angustifolia -29.17 -50.31 2019 Inventario SC

Cada linha = um local onde a especie foi confirmada. Sao essas coordenadas que vao para o mapa!

Dos pontos ao mapa

Com as coordenadas, criamos um mapa de ocorrencias:

  • Cada ponto no mapa = um registro real da especie
  • O mapa mostra a distribuicao conhecida da especie
  • E o ponto de partida para o modelo

No TAIPA, esse mapa e interativo - voce pode dar zoom e clicar nos pontos para ver detalhes.

Nem todo dado e bom!

Dados de ocorrencia podem ter problemas que afetam o modelo.

E fundamental saber identificar e lidar com esses problemas.

Problemas comuns

Coordenadas erradas
  • Ponto no meio do oceano
  • Latitude e longitude trocadas
  • Coordenadas da sede do municipio e nao do local real
Identificacao errada
  • Especie confundida com outra
  • Nome cientifico desatualizado
  • Fotos sem confirmacao por especialista

Mais problemas

Dados duplicados
  • Mesmo registro em varias colecoes
  • Varias fotos do mesmo individuo
  • Inflam artificialmente a amostra
Dados antigos
  • Registros de 100+ anos atras
  • A especie pode nao estar mais la
  • Uso da terra mudou completamente

No TAIPA, voce pode visualizar os pontos no mapa e identificar registros suspeitos antes de prosseguir.

Vies amostral

O maior desafio dos dados de ocorrencia: os registros nao sao distribuidos uniformemente.

Por que existe vies?

Pesquisadores coletam mais em certos lugares:

  • Perto de universidades e cidades - acesso mais facil
  • Perto de estradas - logistica de campo
  • Unidades de conservacao - muitas pesquisas concentradas
  • Regioes com financiamento - projetos em areas prioritarias
Resultado: areas remotas ficam sub-amostradas. Pode parecer que a especie "nao existe la", quando na verdade ninguem foi la procurar.

Exemplo pratico: Araucaria

Imagine a busca por Araucaria angustifolia:

  • Muitos registros em Lages, Curitiba, Campos do Jordao (regioes com universidades)
  • Poucos registros no oeste do Parana (area de agricultura)
  • Quase nenhum no Misiones (Argentina) (outro pais, menos dados no GBIF Brasil)
Pergunta para refletir: se o modelo so "ve" registros perto de universidades, o que ele pode aprender de errado?

Como lidar com o vies?

  • Revisar o mapa: os pontos fazem sentido biologicamente?
  • Remover pontos suspeitos: coordenadas claramente erradas
  • Rarefacao espacial: limitar pontos por area para evitar aglomeracoes
  • Conhecer a especie: se voce sabe que ela existe em um lugar sem registros, considere isso na interpretacao
No TAIPA: o mapa interativo permite visualizar os pontos e identificar aglomeracoes ou pontos fora do esperado.

Quantos pontos sao necessarios?

Essa e uma pergunta importante. A resposta curta: depende, mas quanto mais (com qualidade), melhor.

Regras praticas

Quantidade Situacao Recomendacao
< 20 Muito pouco Modelo sera fragil e pouco confiavel
20 - 50 Minimo Funciona, mas com muita incerteza
50 - 200 Bom Resultados razoaveis para a maioria das especies
> 200 Ideal Modelos mais robustos e confiaveis

No TAIPA, o limite maximo de busca e de 500 registros. Isso e suficiente para a maioria das analises didaticas.

Qualidade vs. quantidade

100 pontos bem distribuidos valem mais que 500 pontos concentrados em uma unica regiao.

O que importa:

  • Cobertura geografica: pontos espalhados por toda a area de ocorrencia
  • Cobertura ambiental: capturar a variedade de climas onde a especie vive
  • Confiabilidade: registros verificados e com coordenadas precisas

A importancia do nome cientifico

Para buscar no GBIF, usamos o nome cientifico (binomial latino).

Por que nao usar o nome popular?

Nome popular
  • "Pinheiro" pode ser Araucaria, Pinus, ou outros
  • "Canela" pode ser dezenas de especies diferentes
  • Muda de uma regiao para outra
Nome cientifico
  • Araucaria angustifolia e unico no mundo
  • Reconhecido internacionalmente
  • Permite busca precisa no GBIF

Dica: sinonimos taxonomicos

Especies podem ter nomes antigos (sinonimos):

Araucaria angustifolia ja foi chamada de Araucaria brasiliana

O GBIF geralmente reconhece sinonimos, mas nem sempre!

Na duvida, consulte:

  • Flora e Funga do Brasil (floradobrasil.jbrj.gov.br) - para plantas
  • The Plant List / POWO - referencia internacional

Pratica no TAIPA

Agora vamos aplicar o que aprendemos!

Etapa 1 do TAIPA: Busca de Especies

Passo a passo

  1. 1 Acessar o TAIPA no navegador
  2. 2 Clicar em "Comecar" na tela inicial
  3. 3 Digitar o nome cientifico da especie escolhida
  4. 4 Definir o limite de registros (sugestao: 100-300)
  5. 5 Clicar em "Buscar" e aguardar
  6. 6 Analisar o mapa - os pontos fazem sentido?

O que observar no mapa

  • Os pontos estao no Brasil? (sem pontos no oceano?)
  • A distribuicao faz sentido para a especie?
  • Ha aglomeracoes suspeitas? (muitos pontos no mesmo local)
  • Ha pontos isolados muito longe dos demais?
Exercicio: experimente trocar entre visualizacao de "Pontos" e "Mapa de calor" para entender melhor a distribuicao.

Sugestoes de especies para praticar

Especie Tipo Porque e interessante
Araucaria angustifolia Arvore nativa Ameacada, sensivel ao clima
Euterpe edulis Palmeira Mata Atlantica, muito coletada
Ilex paraguariensis Arvore nativa Erva-mate, importancia economica
Cedrela fissilis Arvore nativa Cedro, madeira nobre ameacada

Cada aluno pode escolher uma especie diferente para comparar resultados!

O que aprendemos hoje

  • Dados de ocorrencia = registros de onde uma especie foi encontrada (coordenadas)
  • GBIF = maior banco de dados de biodiversidade do mundo, gratuito e aberto
  • Fontes dos dados = herbarios, pesquisas, ciencia cidada, governo
  • Qualidade importa = coordenadas erradas, duplicatas e dados antigos prejudicam o modelo
  • Vies amostral = mais coletas perto de cidades/universidades
  • Nome cientifico = essencial para busca precisa

Proxima aula

Aula 3: Pseudo-ausencias - como criar pontos de "nao-ocorrencia" para ensinar o modelo onde a especie NAO esta.

Ate la, mantenham o TAIPA aberto na etapa de Busca de Especies com a especie escolhida.


Duvidas?