> ⚠️ Este guia é destinado a pesquisadores e demais interessados em utilizar dados publicados no formato Darwin Core Archive em repositórios públicos "IPT". O guia é destinado a usuários sem conhecimentos avançados sobre este tema.
Qualquer pesquisador que necessite de dados sobre biodiversidade em seus projetos de pesquisa já ouviu falar de "Darwin Core" (DwC). Não pretendo entrar em detalhes aqui sobre o padrão em si, pois ele é tratado coim mais detalhes aqui nesta publicação da livraria. A ideia aqui é dar uma visão prática, um passo-a-passo de como "baixar", e usar os dados no formato [Darwin Core Archive](https://ipt.gbif.org/manual/en/ipt/latest/dwca-guide) (DwC-A) publicados no [IPT](https://www.gbif.org/ipt) (Integrated Publishing Toolkit).
Creio que o primeiro ponto de esclarecimento necessário aqui é o que estou chamando de "padrão Darwin Core", que usamos a sigla "DwC"; e o "formato Darwin Core Archive", para o qual vamos usar a sigla "DwC-A".
__Padrão Darwin Core (DwC)__ - é um conjunto de termos com suas definições, associados a identificadores únicos e organizados em classes, destinados a facilitar o compartilhamento de informações sobre diversidade biológica.
Formato Darwin Core Archive (DwC-A) - é um conjunto de arquivos digitais em formatos específicos incluídos em um arquivo "ZIP" e disponibilizado para "download" em um "Repositório IPT".
Vamos usar aqui, como exemplo, o recurso "Projeto Flora do Brasil 2020" do IPT das coleções do Instituto de Pesquisas Jardim Botânico do Rio de Janeiro (JBRJ).
Clicando no nome do recurso (figura acima) você vai visualizar a página do recurso, com várias informações sobre o recurso, como, por exemplo, sua descrição, frequência de atualização, número da versão atual, acesso às versões anteriores e como citar o recurso.
Clicando em "download" da opção "Data as a DwC-A file" você irá salvar no seu computador o arquivo DwC-A.
Entendendo o arquivo "Darwin Core Archive" (DwC-A)
Como dito anteriormente, o arquivo DwC-A é um arquivo "ZIP", ou seja, um arquivo que contém, internamente, vários arquivos. Na figura abaixo você pode visualizar a estrutura básica do arquivo DwC-A:
Como pode ver, o arquivo DwC-A é composto de dois conjuntos de arquivos: arquivos com extensão "TXT" e arquivos com extensão "XML".
Os arquivosmeta.xml eeml.xml são arquivos de "metadados" - são dados sobre o conjunto de dados (o arquivo eml.xml) e sobre os arquivos ".TXT" que contem os dados (o arquivometa.xml). Os arquivos em formato "XML" são destinados a serem lidos e interpretados "por máquinas", ou seja, de forma automatizada por outros computadores. Assim sendo, não vamos detalhá-los aqui neste guia. Os arquivos "TXT", entretanto, são aqueles que contém os dados em si. Desta forma, vamos nos dedicar a estes.
Os arquivos ".TXT" contidos dentro do arquivo DwC-A são, na verdade, tabelas representadas no arquivo por linhas (os registros) e colunas (os atributos destes registros). No caso dos arquivos gerados automáticamente pelo IPT, as colunas estão separadas por tabulações. Desta forma, são arquivos conhecidos como arquivos "Tab Separated Values" (TSV), diferentes dos aquivos ".CSV", onde as colunas são separadas por vírgulas.
O que define se os dados no arquivo DwC-A são sobre espécies ou sobre ocorrências destas espécies é o seu núcleo, ou core. Se houver um arquivo "taxon.txt" dentro do arquivo ZIP, este conjunto de dados é sobre espécies - na maioria das vezes um checklist ou lista de espécies; se houver um arquivo "ocurrence.txt" dentro do arquivo ZIP, este conjunto de dados é sobre a ocorrência de espécies - geralmente dados de exsicatas de herbário ou coleções científicas.É importante notar também que asextensões (os outros arquivos TXT que não otaxon.txt nem ooccurrence.txt) são dependentes do núcleo. Ou seja, caso o conjunto de dados seja sobre espécies (com o núcleotaxon.txt), os demais arquivos TXT serão sobre características destas espécies, por exemplo, seus nomes vulgares. Caso o conjunto de dados seja sobre ocorrências (com o núcleo ocurrence.txt), os demais arquivos TXT terão dados adicionais sobre estas ocorrências, por exemplo, o link para a imagem da exsicata ou do indivíduo na coleção.
O arquivo DwC-A disponível na página do recurso no IPT terá o nome "dwca-lista_especies_flora_brasil-vXXX.XXX.zip", onde "XXX.XXX" será correspondente ao número da versão do arquivo.
Dependendo do recurso - a base de dados que o arquivo DwC-A representa - o IPT pode gerar, periodicamente, novas versões do arquivo DwC-A, que acompanham a atualização da base de dados. No exemplo da Flora e Funga do Brasil, um novo arquivo é gerado semanalmente, e as versões anteriores também continuam disponíveis para download e referência.
| eml.xml | Metadados | Arquivo que descreve o conjunto de dados. Ele segue o padrão Ecological Metadata Language (EML) |
| meta.xml | Metadados | Arquivo que descreve o conteúdo do arquivo "núcleo" e dos arquivos de extensão |
| taxon.txt | Núcleo | Arquivo que contêm a lista das espécies com outros dados (p.ex. hierarquia taxonômica, status nomenclatural, etc.) |
| distribution.txt | Extensão | Arquivo que contém dados sobre a distribuição das espécies listadas no arquivo "taxon.txt" |
| reference.txt | Extensão | Arquivo que contém dados sobre a distribuição das espécies listadas no arquivo "taxon.txt" |
| resourcerelationship.txt | Extensão | Arquivo que contém dados sobre relação entre os nomes das espécies listadas no arquivo "taxon.txt". Neste exemplo, contem dados sobre o tipo desinonímia |
| speciesprofile.txt | Extensão | Arquivo que contém dados adicionais das espécies listadas no arquivo "taxon.txt", Neste exemplo, estão listados dados sobre a "forma de vida" e "habitat" |
| typesandspecimen.txt | Extensão | Arquivo que contém dados sobre ostypusdas espécies listadas no arquivo "taxon.txt" |
| vernacularname.txt | Extensão | Arquivo que contém dados sobre nomes vulgares das espécies listadas no arquivo "taxon.txt" |
No caso dos arquivos DwC-A que representam a Flora e Funga do Brasil, disponíveis no IPT do JBRJ, é importante destacar que nem todos os dados disponíveis no Sistema Online da Flora e Funga do Brasil estão disponíveis no seu arquivo DwC-A.
Vamos usar como exemplo aqui os arquivos de dados do Herbário do Instituto de Pesquisas Jardim Botânico do Rio de Janeiro (exsicatas), disponíveis neste link do IPT.
O arquivo DwC-A disponível na página do recurso no IPT terá o nome "dwca-jbrj_rb-vXXX.XXX.zip", onde "XXX.XXX" será correspondente ao número da versão do arquivo.
Ao abrir o arquivo ZIP, você vai encontrar os seguintes arquivos:
| eml.xml | Metadados | Arquivo que descreve o conjunto de dados. Ele segue o padrão Ecological Metadata Language (EML) |
| meta.xml | Metadados | Arquivo que descreve o conteúdo do arquivo "núcleo" e dos arquivos de extensão |
| occurrence.txt | Núcleo | Arquivo que contêm a lista de exsicatas (amostras) com outros dados (p.ex. local de coleta, coletor, data de coleta, etc.) |
| identification.txt | Extensão | Arquivo que contém dados sobre o histórico de determinação de cada exsicata listada no arquivo "occurence.txt" |
| multimedia.txt | Extensão | Arquivo que contém dados sobre as imagens associadas com as exsicatas listadas no arquivo "occurence.txt" |
Conforme citado anteriormente, estes arquivos, quando gerados automaticamente pelo IPT, são "tabelas separadas por tabulações" (TSV). Desta forma eles podem ser carregados para sistemas de Planilhas, como EXCEL, da Microsoft; o CALC, do LibreOffice ou OpenOffice; ou o Planilhas, do Google. Veja como abaixo, usando como exemplo um conjunto de dados sobre espécies:
> ⚠️ No caso da arquivo "taxon.txt" da Flora e Funga do Brasil, o tamanho do arquivo (quantidade de linhas e colunas) pode causar problemas na importação. Se retornar uma página em branco, sugiro voltar para a página principal e clicar no arquivo recém criado.
É importante notar que, conforme dito anteriormente, os arquivos TXT que representam as extensões se relacionam com o "arquivo-núcleo" através da coluna "taxonID", conforme ilustrado abaixo:
Este relacionamento a forma com que os dados são organizados no banco de dados do Sistema da Flora e Funda do Brasil. Entretanto, estabelecer estas relações usando um programa de "Planilhas Eletrônica", como o EXCEL, ou qualquer outro sistema de planilha, é um grande desafio para usuários sem conhecimentos avançados. Estas relações são melhor estabelecidas e mantidas em um sistema de banco de dados, em um sistema de "planilhas relacionais", tipo GRIST; ou podem ser estabelecidas também por programação.