Dados de Ocorrencia de Especies
De onde vem os dados que alimentam
nossos modelos?
Aula 2 - Disciplina: Mudancas Climaticas
Engenharia Florestal - UDESC
Prof. Pedro Higuchi
Recapitulando a aula anterior
- Modelo = versao simplificada da realidade
- Algoritmo = passo a passo para resolver um problema
- Random Forest = muitas arvores de decisao votando juntas
Hoje: vamos entender de onde vem os dados de ocorrencia que alimentam o modelo - a primeira etapa no TAIPA.
Roteiro da aula
- O que sao dados de ocorrencia?
- O GBIF - banco de dados global de biodiversidade
- De onde vem esses registros?
- Qualidade dos dados e vies amostral
- Pratica no TAIPA: busca de especies
O que sao dados de ocorrencia?
Um dado de ocorrencia e um registro de que uma especie foi encontrada em determinado lugar.
Exemplo: "No dia 15/03/2020, a especie Araucaria angustifolia foi observada nas coordenadas -27.59, -50.35 (Lages, SC)."
As informacoes essenciais
Cada registro de ocorrencia tem pelo menos:
| Informacao |
Exemplo |
Para que serve? |
| Especie |
Araucaria angustifolia |
Saber de quem estamos falando |
| Latitude |
-27.59 |
Posicao norte-sul |
| Longitude |
-50.35 |
Posicao leste-oeste |
| Data |
2020-03-15 |
Quando foi observada |
Com latitude e longitude, podemos colocar cada registro no mapa e cruzar com dados climaticos.
De registro para modelo
O ponto-chave e:
Se sabemos onde a especie esta, podemos descobrir em quais condicoes climaticas ela vive.
E assim o modelo aprende:
- Ponto com a especie + clima daquele local = "presenca"
- Ponto sem a especie + clima daquele local = "ausencia"
Na proxima aula vamos falar sobre como gerar pontos de ausencia (pseudo-ausencias).
GBIF: o banco de dados global
Global Biodiversity Information Facility
O GBIF e a maior rede mundial de dados de biodiversidade. Reune informacoes de milhares de instituicoes em mais de 60 paises.
- Mais de 2 bilhoes de registros de ocorrencia
- Dados abertos e gratuitos
- Acesso via site (gbif.org) ou via API (como o TAIPA faz)
De onde vem os dados do GBIF?
O GBIF nao coleta dados. Ele agrega dados de varias fontes:
Herbarios e museus
- Colecoes cientificas centenarias
- Plantas prensadas, animais preservados
- Cada exemplar tem uma etiqueta com local e data
Pesquisas de campo
- Inventarios florestais
- Levantamentos de fauna e flora
- Parcelas permanentes
Mais fontes de dados
Ciencia cidada
- iNaturalist - fotos de qualquer pessoa
- eBird - observacoes de aves
- Milhoes de registros por ano!
Dados governamentais
- Monitoramento de biodiversidade
- Estudos de impacto ambiental
- Programas de conservacao
No Brasil, herbarios como o FURB, FLOR, SP e MBM contribuem com milhoes de registros.
Conexao com o TAIPA
No TAIPA, quando voce digita o nome de uma especie e clica "Buscar", o sistema consulta o GBIF automaticamente via API e retorna os pontos de ocorrencia no Brasil.
Voce nao precisa acessar o site do GBIF manualmente - o TAIPA faz isso por voce!
Como funciona a busca no GBIF?
Quando buscamos uma especie, o GBIF retorna uma tabela com todos os registros encontrados.
O que o GBIF retorna
Exemplo de busca por Araucaria angustifolia no Brasil:
| Especie |
Latitude |
Longitude |
Ano |
Fonte |
| A. angustifolia |
-27.59 |
-50.35 |
2018 |
Herbario FURB |
| A. angustifolia |
-28.12 |
-49.37 |
2020 |
iNaturalist |
| A. angustifolia |
-25.43 |
-49.27 |
2015 |
Herbario MBM |
| A. angustifolia |
-29.17 |
-50.31 |
2019 |
Inventario SC |
Cada linha = um local onde a especie foi confirmada. Sao essas coordenadas que vao para o mapa!
Dos pontos ao mapa
Com as coordenadas, criamos um mapa de ocorrencias:
- Cada ponto no mapa = um registro real da especie
- O mapa mostra a distribuicao conhecida da especie
- E o ponto de partida para o modelo
No TAIPA, esse mapa e interativo - voce pode dar zoom e clicar nos pontos para ver detalhes.
Nem todo dado e bom!
Dados de ocorrencia podem ter problemas que afetam o modelo.
E fundamental saber identificar e lidar com esses problemas.
Problemas comuns
Coordenadas erradas
- Ponto no meio do oceano
- Latitude e longitude trocadas
- Coordenadas da sede do municipio e nao do local real
Identificacao errada
- Especie confundida com outra
- Nome cientifico desatualizado
- Fotos sem confirmacao por especialista
Mais problemas
Dados duplicados
- Mesmo registro em varias colecoes
- Varias fotos do mesmo individuo
- Inflam artificialmente a amostra
Dados antigos
- Registros de 100+ anos atras
- A especie pode nao estar mais la
- Uso da terra mudou completamente
No TAIPA, voce pode visualizar os pontos no mapa e identificar registros suspeitos antes de prosseguir.
Vies amostral
O maior desafio dos dados de ocorrencia: os registros nao sao distribuidos uniformemente.
Por que existe vies?
Pesquisadores coletam mais em certos lugares:
- Perto de universidades e cidades - acesso mais facil
- Perto de estradas - logistica de campo
- Unidades de conservacao - muitas pesquisas concentradas
- Regioes com financiamento - projetos em areas prioritarias
Resultado: areas remotas ficam sub-amostradas. Pode parecer que a especie "nao existe la", quando na verdade ninguem foi la procurar.
Exemplo pratico: Araucaria
Imagine a busca por Araucaria angustifolia:
- Muitos registros em Lages, Curitiba, Campos do Jordao (regioes com universidades)
- Poucos registros no oeste do Parana (area de agricultura)
- Quase nenhum no Misiones (Argentina) (outro pais, menos dados no GBIF Brasil)
Pergunta para refletir: se o modelo so "ve" registros perto de universidades, o que ele pode aprender de errado?
Como lidar com o vies?
- Revisar o mapa: os pontos fazem sentido biologicamente?
- Remover pontos suspeitos: coordenadas claramente erradas
- Rarefacao espacial: limitar pontos por area para evitar aglomeracoes
- Conhecer a especie: se voce sabe que ela existe em um lugar sem registros, considere isso na interpretacao
No TAIPA: o mapa interativo permite visualizar os pontos e identificar aglomeracoes ou pontos fora do esperado.
Quantos pontos sao necessarios?
Essa e uma pergunta importante. A resposta curta: depende, mas quanto mais (com qualidade), melhor.
Regras praticas
| Quantidade |
Situacao |
Recomendacao |
| < 20 |
Muito pouco |
Modelo sera fragil e pouco confiavel |
| 20 - 50 |
Minimo |
Funciona, mas com muita incerteza |
| 50 - 200 |
Bom |
Resultados razoaveis para a maioria das especies |
| > 200 |
Ideal |
Modelos mais robustos e confiaveis |
No TAIPA, o limite maximo de busca e de 500 registros. Isso e suficiente para a maioria das analises didaticas.
Qualidade vs. quantidade
100 pontos bem distribuidos valem mais que 500 pontos concentrados em uma unica regiao.
O que importa:
- Cobertura geografica: pontos espalhados por toda a area de ocorrencia
- Cobertura ambiental: capturar a variedade de climas onde a especie vive
- Confiabilidade: registros verificados e com coordenadas precisas
A importancia do nome cientifico
Para buscar no GBIF, usamos o nome cientifico (binomial latino).
Por que nao usar o nome popular?
Nome popular
- "Pinheiro" pode ser Araucaria, Pinus, ou outros
- "Canela" pode ser dezenas de especies diferentes
- Muda de uma regiao para outra
Nome cientifico
- Araucaria angustifolia e unico no mundo
- Reconhecido internacionalmente
- Permite busca precisa no GBIF
Dica: sinonimos taxonomicos
Especies podem ter nomes antigos (sinonimos):
Araucaria angustifolia ja foi chamada de Araucaria brasiliana
O GBIF geralmente reconhece sinonimos, mas nem sempre!
Na duvida, consulte:
- Flora e Funga do Brasil (floradobrasil.jbrj.gov.br) - para plantas
- The Plant List / POWO - referencia internacional
Pratica no TAIPA
Agora vamos aplicar o que aprendemos!
Etapa 1 do TAIPA: Busca de Especies
Passo a passo
- 1 Acessar o TAIPA no navegador
- 2 Clicar em "Comecar" na tela inicial
- 3 Digitar o nome cientifico da especie escolhida
- 4 Definir o limite de registros (sugestao: 100-300)
- 5 Clicar em "Buscar" e aguardar
- 6 Analisar o mapa - os pontos fazem sentido?
O que observar no mapa
- Os pontos estao no Brasil? (sem pontos no oceano?)
- A distribuicao faz sentido para a especie?
- Ha aglomeracoes suspeitas? (muitos pontos no mesmo local)
- Ha pontos isolados muito longe dos demais?
Exercicio: experimente trocar entre visualizacao de "Pontos" e "Mapa de calor" para entender melhor a distribuicao.
Sugestoes de especies para praticar
| Especie |
Tipo |
Porque e interessante |
| Araucaria angustifolia |
Arvore nativa |
Ameacada, sensivel ao clima |
| Euterpe edulis |
Palmeira |
Mata Atlantica, muito coletada |
| Ilex paraguariensis |
Arvore nativa |
Erva-mate, importancia economica |
| Cedrela fissilis |
Arvore nativa |
Cedro, madeira nobre ameacada |
Cada aluno pode escolher uma especie diferente para comparar resultados!
O que aprendemos hoje
- Dados de ocorrencia = registros de onde uma especie foi encontrada (coordenadas)
- GBIF = maior banco de dados de biodiversidade do mundo, gratuito e aberto
- Fontes dos dados = herbarios, pesquisas, ciencia cidada, governo
- Qualidade importa = coordenadas erradas, duplicatas e dados antigos prejudicam o modelo
- Vies amostral = mais coletas perto de cidades/universidades
- Nome cientifico = essencial para busca precisa
Proxima aula
Aula 3: Pseudo-ausencias - como criar pontos de "nao-ocorrencia" para ensinar o modelo onde a especie NAO esta.
Ate la, mantenham o TAIPA aberto na etapa de Busca de Especies com a especie escolhida.
Duvidas?