Update usandoDawrinCore.md

This commit is contained in:
Eduardo Dalcin 2023-03-26 17:00:34 -03:00 committed by GitHub
parent 0756c8aa01
commit 7f3465da9c
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -1,6 +1,6 @@
# Usando Arquivos Darwin Core
> :warning: Este guia é destinado a pesquisadores e demais interessados em utilizar dados publicados no formato Darwin Core Archive em repositórios públicos "IPT". O guia é destinado a usuários sem conhecimentos avançados sobre este tema.
> ⚠️ Este guia é destinado a pesquisadores e demais interessados em utilizar dados publicados no formato Darwin Core Archive em repositórios públicos "IPT". O guia é destinado a usuários sem conhecimentos avançados sobre este tema.
Qualquer pesquisador que necessite de dados sobre biodiversidade em seus projetos de pesquisa já ouviu falar de "Darwin Core" (DwC). Não pretendo entrar em detalhes aqui sobre o padrão em si, pois ele é tratado coim mais detalhes aqui nesta publicação da livraria. A ideia aqui é dar uma visão prática, um passo-a-passo de como "baixar", e usar os dados no formato [Darwin Core Archive](https://ipt.gbif.org/manual/en/ipt/latest/dwca-guide) (DwC-A) publicados no [IPT](https://www.gbif.org/ipt) (Integrated Publishing Toolkit).
@ -48,75 +48,42 @@ Os arquivos ".TXT" contidos dentro do arquivo DwC-A são, na verdade, tabelas re
O conjunto de arquivos TXT dentro do arquivo "ZIP" do DwC-A pode ser de dois tipos:
Um conjunto de arquivos sobre ocorrência
Um conjunto de arquivos sobre espécies
Um conjunto de arquivos sobre amostragem (não serão tratados neste guia)
* Um conjunto de arquivos sobre ocorrência
* Um conjunto de arquivos sobre espécies
* Um conjunto de arquivos sobre amostragem (não serão tratados neste guia)
Este conjunto de arquivos TXT, por sua vez, possui dois tipos de arquivos: o "núcleo" (core) e as "extensões" (extension).
O que define se os dados no arquivo DwC-A são sobre espécies ou sobre ocorrências destas espécies é o seu núcleo, ou core. Se houver um arquivo "taxon.txt" dentro do arquivo ZIP, este conjunto de dados é sobre espécies - na maioria das vezes um checklist ou lista de espécies; se houver um arquivo "ocurrence.txt" dentro do arquivo ZIP, este conjunto de dados é sobre a ocorrência de espécies - geralmente dados de exsicatas de herbário ou coleções científicas.É importante notar também que as extensões (os outros arquivos TXT que não o taxon.txt nem o occurrence.txt) são dependentes do núcleo. Ou seja, caso o conjunto de dados seja sobre espécies (com o núcleo taxon.txt), os demais arquivos TXT serão sobre características destas espécies, por exemplo, seus nomes vulgares. Caso o conjunto de dados seja sobre ocorrências (com o núcleo ocurrence.txt), os demais arquivos TXT terão dados adicionais sobre estas ocorrências, por exemplo, o link para a imagem da exsicata ou do indivíduo na coleção.
Conjunto de dados sobre espécies
### Conjunto de dados sobre espécies
Vamos usar como exemplo aqui os arquivos de dados da Flora e Funga do Brasil, disponíveis neste link do IPT.
O arquivo DwC-A disponível na página do recurso no IPT terá o nome "dwca-lista_especies_flora_brasil-vXXX.XXX.zip", onde "XXX.XXX" será correspondente ao número da versão do arquivo.
Dependendo do recurso - a base de dados que o arquivo DwC-A representa - o IPT pode gerar, periodicamente, novas versões do arquivo DwC-A, que acompanham a atualização da base de dados. No exemplo da Flora e Funga do Brasil, um novo arquivo é gerado semanalmente, e as versões anteriores também continuam disponíveis para download e referência.
Ao abrir o arquivo ZIP, você vai encontrar os seguintes arquivos:
| Arquivo | Categoria | Descrição |
| --- | --- | --- |
| eml.xml | Metadados | Arquivo que descreve o conjunto de dados. Ele segue o padrão Ecological Metadata Language (EML) |
| meta.xml | Metadados | Arquivo que descreve o conteúdo do arquivo "núcleo" e dos arquivos de extensão |
| taxon.txt | Núcleo | Arquivo que contêm a lista das espécies com outros dados (p.ex. hierarquia taxonômica, status nomenclatural, etc.) |
| distribution.txt | Extensão | Arquivo que contém dados sobre a distribuição das espécies listadas no arquivo "taxon.txt" |
| reference.txt | Extensão | Arquivo que contém dados sobre a distribuição das espécies listadas no arquivo "taxon.txt" |
| resourcerelationship.txt | Extensão | Arquivo que contém dados sobre relação entre os nomes das espécies listadas no arquivo "taxon.txt". Neste exemplo, contem dados sobre o tipo de sinonímia |
| speciesprofile.txt | Extensão | Arquivo que contém dados adicionais das espécies listadas no arquivo "taxon.txt", Neste exemplo, estão listados dados sobre a "forma de vida" e "habitat" |
| typesandspecimen.txt | Extensão | Arquivo que contém dados sobre os typus das espécies listadas no arquivo "taxon.txt" |
| vernacularname.txt | Extensão | Arquivo que contém dados sobre nomes vulgares das espécies listadas no arquivo "taxon.txt" |
> ⚠️ Dependendo do recurso - a base de dados que o arquivo DwC-A representa - os arquivos de extensão podem variar.
Arquivo
Categoria
Descrição
eml.xml
Metadados
Arquivo que descreve o conjunto de dados. Ele segue o padrão Ecological Metadata Language (EML).
meta.xml
Metadados
Arquivo que descreve o conteúdo do arquivo "núcleo" e dos arquivos de extensão.
taxon.txt
Núcleo
Arquivo que contêm a lista das espécies com outros dados (p.ex. hierarquia taxonômica, status nomenclatural, etc.)
distribution.txt
Extensão
Arquivo que contém dados sobre a distribuição das espécies listadas no arquivo "taxon.txt"
reference.txt
Extensão
Arquivo que contém dados sobre a distribuição das espécies listadas no arquivo "taxon.txt"
resourcerelationship.txt
Extensão
Arquivo que contém dados sobre relação entre os nomes das espécies listadas no arquivo "taxon.txt". Neste exemplo, contem dados sobre o tipo de sinonímia
speciesprofile.txt
Extensão
Arquivo que contém dados adicionais das espécies listadas no arquivo "taxon.txt", Neste exemplo, estão listados dados sobre a "forma de vida" e "habitat"
typesandspecimen.txt
Extensão
Arquivo que contém dados sobre os typus das espécies listadas no arquivo "taxon.txt"
vernacularname.txt
Extensão
Arquivo que contém dados sobre nomes vulgares das espécies listadas no arquivo "taxon.txt"
Dependendo do recurso - a base de dados que o arquivo DwC-A representa - os arquivos de extensão podem variar.
No caso dos arquivos DwC-A que representam a Flora e Funga do Brasil, disponíveis no IPT do JBRJ, é importante destacar que nem todos os dados disponíveis no Sistema Online da Flora e Funga do Brasil estão disponíveis no seu arquivo DwC-A.
Conjunto de dados sobre ocorrências
### Conjunto de dados sobre ocorrências
Vamos usar como exemplo aqui os arquivos de dados do Herbário do Instituto de Pesquisas Jardim Botânico do Rio de Janeiro (exsicatas), disponíveis neste link do IPT.
O arquivo DwC-A disponível na página do recurso no IPT terá o nome "dwca-jbrj_rb-vXXX.XXX.zip", onde "XXX.XXX" será correspondente ao número da versão do arquivo.
Ao abrir o arquivo ZIP, você vai encontrar os seguintes arquivos: