Update 20160917-arquiteturaPublicacaoInformacoesBiodiversidade.md

This commit is contained in:
Eduardo Dalcin 2023-04-10 14:00:33 -03:00 committed by GitHub
parent db78393227
commit 1da123825e
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -11,11 +11,11 @@ Muitos destes recursos de informação ainda estão sobre o "efeito Gollum" - tr
![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade2.png) ![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade2.png)
Pois bem. Vamos imaginar que seria razoável alguém querer saber todos os recursos de informação (ou todo o conhecimento já sistematizado) que o JBRJ já produziu ou tem sob sua guarda, sobre o pau-brasil. Esta pessoa poderia ir à biblioteca, pesquisaria sob a palavra-chave "pau-brasil" e retornaria com uma lista de livros relevantes sobre o pau-brasil (a discussão sobre se realmente todos os livros relevantes seriam encontrados não cabe aqui...). A pessoa poderia também ir ao herbário, ou ao sistema JABOT disponível na Internet e pesquisar sobre a espécie correspondente ao nome "pau-brasil", recebendo uma lista dos objetos existentes nas diferentes coleções. Entretanto, suponho que o resultado destas pesquisas não representa "tudo que a instituição sabe ou tem" sobre o pau-brasil. Uma miríade de recursos de informação, em formato digital ou não, de fotos a relatórios de pesquisa, de dissertações a apresentações para alunos de pós-graduação, de planilhas de análises laboratoriais a mapas de distribuição, estão dispersos pela instituição. Pois bem. Vamos imaginar que seria razoável alguém querer saber todos os recursos de informação (ou todo o conhecimento já sistematizado) que o JBRJ já produziu ou tem sob sua guarda, sobre o pau-brasil. Esta pessoa poderia ir à biblioteca, pesquisaria sob a palavra-chave "pau-brasil" e retornaria com uma lista de livros relevantes sobre o pau-brasil (a discussão sobre se realmente todos os livros relevantes seriam encontrados não cabe aqui...). A pessoa poderia também ir ao herbário, ou ao [sistema JABOT disponível na Internet](http://jabot.jbrj.gov.br/v2/consulta.php) e pesquisar sobre a espécie correspondente ao nome "pau-brasil", recebendo uma lista dos objetos existentes nas diferentes coleções. Entretanto, suponho que o resultado destas pesquisas não representa "tudo que a instituição sabe ou tem" sobre o pau-brasil. Uma miríade de recursos de informação, em formato digital ou não, de fotos a relatórios de pesquisa, de dissertações a apresentações para alunos de pós-graduação, de planilhas de análises laboratoriais a mapas de distribuição, estão dispersos pela instituição.
No mundo ideal, pelo menos no meu, gostaria de ter um "agente" à quem eu perguntasse de forma solene: - "me diga tudo que o JBRJ tem sobre o pau-brasil". Este "agente", enquanto ainda não é um robô humanoide de feições e atitudes amáveis, poderia ser uma interface baseada na web - um site. Já está de bom tamanho! No mundo ideal, pelo menos no meu, gostaria de ter um "agente" à quem eu perguntasse de forma solene: - "me diga tudo que o JBRJ tem sobre o pau-brasil". Este "agente", enquanto ainda não é um robô humanoide de feições e atitudes amáveis, poderia ser uma interface baseada na web - um site. Já está de bom tamanho!
É claro que no meu mundo ideal #2, perguntaria ao agente #2 de forma ainda mais solene: - "me diga tudo que o JBRJ sabe sobre o pau-brasil". Reparem na diferença entre o "tudo que tem sobre" e o "tudo que sabe sobre", pois o "tudo que tem" seria uma lista dos recursos de informação que falam ou tratam do pau-brasil. "Tudo que sabe" seria o conhecimento resumido, sistematizado e qualificado sobre o conjunto de recursos disponível. Algo parecido com que o Wolfram Alpha vem tentando fazer a vários anos, e falhando espetacularmente. Vamos ficar então com o "agente #1", aquele que lhe entrega uma lista dos recursos de informação sobre o pau-brasil, pois é sobre essa proposta de arquitetura que este texto trata. É claro que no meu mundo ideal #2, perguntaria ao agente #2 de forma ainda mais solene: - "me diga tudo que o JBRJ sabe sobre o pau-brasil". Reparem na diferença entre o "tudo que tem sobre" e o "tudo que sabe sobre", pois o "tudo que tem" seria uma lista dos recursos de informação que falam ou tratam do pau-brasil. "Tudo que sabe" seria o conhecimento resumido, sistematizado e qualificado sobre o conjunto de recursos disponível. Algo parecido com que o [Wolfram Alpha](https://pt.wikipedia.org/wiki/WolframAlpha) vem [tentando fazer](http://www.wolframalpha.com/input/?i=Caesalpinia+echinata) a vários anos, e falhando espetacularmente. Vamos ficar então com o "agente #1", aquele que lhe entrega uma lista dos recursos de informação sobre o pau-brasil, pois é sobre essa proposta de arquitetura que este texto trata.
![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade3.jpg) ![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade3.jpg)
@ -24,17 +24,17 @@ temporal e espacial, utilizando para indexação vocabulários controlados, perm
![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade4.png) ![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade4.png)
O Ckan (acrônimo de Comprehensive Knowledge Archive Network) é uma ferramenta de código livre e aberto baseada na web, criada para a o armazenamento, gestão e publicação de dados abertos. É utilizado em vários sites do governo federal, inclusive no Portal Brasileiro de Dados Abertos. O [Ckan](http://ckan.org/) (acrônimo de Comprehensive Knowledge Archive Network) é uma ferramenta de código livre e aberto baseada na web, criada para a o armazenamento, gestão e publicação de dados abertos. É utilizado em vários sites do governo federal, inclusive no [Portal Brasileiro de Dados Abertos](http://dados.gov.br/).
O DSpace foi desenvolvido para possibilitar a criação de repositórios digitais com funções de armazenamento, gerenciamento, preservação e visibilidade da produção intelectual. Os repositórios DSpace permitem o gerenciamento da produção científica em qualquer tipo de material digital, dando-lhe maior visibilidade e garantindo a sua acessibilidade ao longo do tempo. O DSpace é largamente utilizado em todo mundo. No Brasil, vem recebendo apoio e divulgação do IBICT desde 2004. O [DSpace](http://www.dspace.org/) foi desenvolvido para possibilitar a criação de repositórios digitais com funções de armazenamento, gerenciamento, preservação e visibilidade da produção intelectual. Os repositórios DSpace permitem o gerenciamento da produção científica em qualquer tipo de material digital, dando-lhe maior visibilidade e garantindo a sua acessibilidade ao longo do tempo. O DSpace é [largamente utilizado em todo mundo](http://repositories.webometrics.info/en). No Brasil, vem recebendo [apoio e divulgação do IBICT](http://www.ibict.br/pesquisa-desenvolvimento-tecnologico-e-inovacao/Sistema-para-Construcao-de-Repositorios-Institucionais-Digitais/historico) desde 2004.
O ResourceSpace é uma ferramenta também de código livre e aberto para gerenciamento e publicação de acervos digitais, especialmente voltado para imagens, áudio e vídeo. O [ResourceSpace](http://www.resourcespace.com/) é uma ferramenta também de código livre e aberto para gerenciamento e publicação de acervos digitais, especialmente voltado para imagens, áudio e vídeo.
O GeoNode é uma plataforma livre para a catalogação e publicação de dados espaciais, em formato vetorial ou matricial. Os dados e metadados catalogados são oferecidos também como web services para acesso em outras aplicações. A EMBRAPA vem utilizando o GeoNode para publicação dos seus dados espaciais e auxiliando nossa equipe na customização da ferramenta. O [GeoNode](http://geonode.org/) é uma plataforma livre para a catalogação e publicação de dados espaciais, em formato vetorial ou matricial. Os dados e metadados catalogados são oferecidos também como web services para acesso em outras aplicações. A [EMBRAPA vem utilizando o GeoNode](http://geoinfo.cnpm.embrapa.br/) para [publicação dos seus dados espaciais](http://ainfo.cnptia.embrapa.br/digital/bitstream/item/113135/1/CT-29.pdf) e auxiliando nossa equipe na customização da ferramenta.
Por fim, o JABOT é o sistema institucional de gestão e publicação dos dados sobre os objetos nas coleções científicas. Por fim, o [JABOT](http://jabot.jbrj.gov.br/) é o sistema institucional de gestão e publicação dos dados sobre os objetos nas coleções científicas.
O que há em comum com estas ferramentas é que elas têm a funcionalidade de oferecer acesso aos seus dados não só para humanos, através da interface tradicional - uma página na Internet; mas também para outros sistemas através de componentes específicos - APIs e Web Services. O que há em comum com estas ferramentas é que elas têm a funcionalidade de oferecer acesso aos seus dados não só para humanos, através da interface tradicional - uma página na Internet; mas também para outros sistemas através de componentes específicos - [APIs e Web Services](https://fxcosta.wordpress.com/2015/05/31/diferenca-entre-api-e-web-service-de-maneira-simples/).
![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade5.png) ![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade5.png)
@ -48,23 +48,23 @@ Instalar softwares "de prateleira", carregá-los com metadados e integrá-los vi
![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade6.png) ![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade6.png)
Este desafio possui aspectos teóricos e práticos. Os teóricos, de extrema relevância, tem sido abordados pela colega Andrea Albuquerque em sua carreira de pesquisadora, oferecendo um riquíssimo subsídio a abordagem do problema. Entretanto, minha abordagem aqui creio ser mais ferramental e arquitetural. Fica claro que o motor de busca citado acima precisa ser inteligente o suficiente para entender que estes diferentes termos tratam da mesma entidade, e que para atender a pergunta do curioso cidadão, a busca deve considerar estes diferentes termos de indexação pelos diferentes repositórios de recursos. Este desafio possui aspectos teóricos e práticos. Os teóricos, de extrema relevância, tem sido abordados pela colega [Andrea Albuquerque](https://www.researchgate.net/profile/Andrea_Albuquerque2/contributions) em sua carreira de pesquisadora, oferecendo um riquíssimo subsídio a abordagem do problema. Entretanto, minha abordagem aqui creio ser mais ferramental e arquitetural. Fica claro que o motor de busca citado acima precisa ser inteligente o suficiente para entender que estes diferentes termos tratam da mesma entidade, e que para atender a pergunta do curioso cidadão, a busca deve considerar estes diferentes termos de indexação pelos diferentes repositórios de recursos.
Neste caso específico, esta relação de termos está expressa em um recurso-mestre, que é a página do taxon na Flora do Brasil on-line. Porém, aprendi com o colega Ivo Pierozzi Junior que estas relações entre termos podem ser bem complexas. Por exemplo, um documento falando sobre mata de igapó deve retornar em uma consulta feita sobre floresta amazônica. Neste caso específico, esta relação de termos está expressa em um recurso-mestre, que é a [página do taxon na Flora do Brasil on-line](http://servicos.jbrj.gov.br/flora/search/Caesalpinia%20echinata). Porém, aprendi com o colega [Ivo Pierozzi Junior](https://www.researchgate.net/profile/Ivo_Pierozzi_Junior/contributions) que estas [relações entre termos](http://www.conexaorio.com/biti/tesauro/relacoes.htm) podem ser bem complexas. Por exemplo, um documento falando sobre mata de igapó deve retornar em uma consulta feita sobre floresta amazônica.
Desta forma, a peça que falta em nossa arquitetura é algo como um "servidor de termos relacionados", que abrigaria um Tesauro sobre biodiversidade. Desta forma, a peça que falta em nossa arquitetura é algo como um "servidor de termos relacionados", que abrigaria um [Tesauro](https://pt.wikipedia.org/wiki/Tesauro) sobre biodiversidade.
![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade7.png) ![](http://dalcinweb.s3-website-us-east-1.amazonaws.com/github/BiodivDadosMeta/arquiteturaPublicacaoInformacoesBiodiversidade7.png)
Em nossa prospecção tecnológica, identificamos uma ferramenta: o TemaTres. O TemaTres é uma aplicação baseada na web que atua como um servidor de vocabulário, permitindo manejar representações formais do conhecimento como ontologias, taxonomias, tesauros, glossários e lista de valores. Em nossa prospecção tecnológica, identificamos uma ferramenta: o TemaTres. O [TemaTres](http://www.vocabularyserver.com/) é uma aplicação baseada na web que atua como um servidor de vocabulário, permitindo manejar representações formais do conhecimento como ontologias, taxonomias, tesauros, glossários e lista de valores.
Atributos interessantes do TemaTres são que além de possuir uma API, que pode ser explorada na conexão com o motor de busca, ele possui a funcionalidade de poder receber contribuições de termos de um grupo de usuários, que são geridas por um grupo de curadores, facilitando a construção colaborativa de vocabulários controlados. Além disto, é uma ferramenta de código aberto e gratuita, extensível através de plugins. Atributos interessantes do TemaTres são que além de possuir uma API, que pode ser explorada na conexão com o motor de busca, ele possui a funcionalidade de poder receber contribuições de termos de um grupo de usuários, que são geridas por um grupo de curadores, facilitando a construção colaborativa de vocabulários controlados. Além disto, é uma ferramenta de código aberto e gratuita, extensível através de plugins.
Muitas iniciativas estão usando esta ferramenta, entre elas o pessoal das Pesquisas Ecológicas de Longa Duração (LTER), que já possui um conjunto de vocabulários controlados no TemaTres. Muitas iniciativas estão usando esta ferramenta, entre elas o pessoal das [Pesquisas Ecológicas de Longa Duração (LTER)](https://lternet.edu/), que já possui [um conjunto de vocabulários controlados no TemaTres](http://vocab.lternet.edu/vocab/vocab/index.php).
Em nosso portal de dados já temos disponíveis as ferramentas citadas, em diferentes graus de maturidade, incluindo uma versão de testes da TemaTres, onde contamos com a valiosa orientação do colega Ivo Pierozzi Junior da EMBRAPA. Em nosso [portal de dados](http://dados.jbrj.gov.br/) já temos disponíveis as ferramentas citadas, em diferentes graus de maturidade, incluindo [uma versão de testes da TemaTres](http://vocab.jbrj.gov.br/), onde contamos com a valiosa orientação do colega [Ivo Pierozzi Junior](https://www.researchgate.net/profile/Ivo_Pierozzi_Junior/contributions) da EMBRAPA.
Estamos avaliando algumas ferramentas para o motor de busca, como a solução Open Semantic Search e outras de mais "baixo nível" como o Solr e Elasticsearch. Estamos avaliando algumas ferramentas para o motor de busca, como a solução [Open Semantic Search](http://opensemanticsearch.org/) e outras de mais "baixo nível" como o [Solr](http://lucene.apache.org/solr/) e [Elasticsearch](https://www.elastic.co/products/elasticsearch).
Este projeto tem a participação dos bolsistas Natália Queiroz e João Lanna. Este projeto tem a participação dos bolsistas Natália Queiroz e João Lanna.