Introdução
Este trabalho apresenta uma discussão de literatura no âmbito da Organização do Conhecimento (OC) para investigar o termo técnico “Espectro das Ontologias” (ontology spectrum) de uma perspectiva multidisciplinar, tendo em vista que cada campo do conhecimento possui uma terminologia específica (Krishnan, 2009) para amparar sua prática discursiva. Além disso, um olhar multidisciplinar contribui na mitigação dos problemas relacionados aos trabalhos acadêmicos restritos aos limites arbitrários impostos pelas disciplinas e permite alcançar novas conexões e fenômenos que, de outra forma, não poderiam ser compreendidos adequadamente.
O processo de Recuperação da Informação (RI) é uma das tarefas em que Biblioteconomia e Ciência da Informação (BCI) e Ciência da Computação (CC) convergem em interesses (Alves et al. 2007), esforço de pesquisa e desenvolvimento de artefatos. Enquanto a BCI tem uma ligação histórica com o tema, sendo uma de suas principais áreas de pesquisa e desenvolvimento, a CC desenvolve os softwares para os mesmos propósitos, valendo-se dos instrumentos desenvolvidos na BCI.
A BCI desenvolve instrumentos a partir de especificações científicas, que, em certa medida, viabilizam a eficácia dos artefatos tecnológicos (softwares) elaborados na CC para o processo da RI, sobretudo para obter inferência automática. Assim, a BCI lida com o conteúdo informacional e a CC concentra-se na estrutura formal, características que combinadas tornam os instrumentos compreensíveis à máquina (Saracevic 1996).
O processo da RI é de natureza interdisciplinar (Saracevic 1996), uma vez que, para ele, convergem teorias, metodologias e tecnologias de diversas disciplinas, mas essas disciplinas se mantêm independentes quanto aos propósitos, às finalidades, aos paradigmas, às epistemologias e, sobretudo, em relação às terminologias, com vistas a consolidarem-se quanto a importância, utilidade e relevância. Ou seja, o processo como um todo permanece multidisciplinar, de forma que a definição e a caracterização de ontologias permanecem divergentes dentro desse arcabouço, tanto que nele se originou o termo “Espectro das Ontologias”.
Assim, este trabalho apresenta reflexões multidisciplinares com vistas a obter um melhor esclarecimento terminológico do “Espectro das Ontologias”, considerando ser importante mitigar as incoerências terminológicas e contribuir com as discussões a respeito do tema. Para tanto, realizou-se uma pesquisa diretamente relacionada ao conceito e aos termos envolvidos, bem como as possíveis implicações para a BCI, que estão apresentadas a seguir.
Metodologia
Nesta seção, serão apresentadas as bases de dados consultadas, as expressões de buscas, as regras de inclusão e de exclusão dos dados coletados e os métodos de análise do corpus. Serão fornecidas as definições de ontologia atinentes ao propósito do trabalho nas perspectivas da Biblioteconomia, da Ciência da Informação e da Ciência da Computação, seguidas pela apresentação das origens históricas do termo, os resultados das análises do corpus e as implicações conceituais.
Para esta pesquisa, foram utilizados os procedimentos propostos por Creswell (2010): identificar as palavras-chave, realizar pesquisas nos bancos de dados em busca de acervos, coletar a produção científica contendo as palavras-chave e examinar as publicações para entender a contribuição de cada uma para o tema em análise.
Os dados foram coletados das seguintes bases de dados: Library & Information Science Abstracts (LISA); Association for Computer Machinery (ACM) Digital Library; e Institute of Electrical and Electronics Engineers (IEEE). Essas bases de dados foram selecionadas em razão das suas reputações no meio científico e por cobrirem as disciplinas da BCI e da CC, fornecendo um conjunto de dados abrangente e multidisciplinar. Além disso, para ampliar a cobertura multidisciplinar na coleta de dados, foram utilizados, também, o Google Acadêmico e a plataforma referencial de citações científicas Web of Science. Essa última foi utilizada por meio do acesso disponibilizado pelo Portal de Periódicos da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Fez-se uma busca exploratória utilizando-se a expressão: “ontology spectrum” AND “semantic web”, desde que fossem artigos científicos, livros, teses, dissertações e relatórios técnicos. Os documentos repetidos ou não relevantes foram excluídos (regras de exclusão).
O corpus foi analisado em duas etapas. Na primeira etapa, empreendeu-se uma pesquisa exploratória para verificar o contexto de uso do termo. Na segunda etapa, realizou-se uma nova análise dos artigos científicos para identificar os fundamentos teóricos, a disciplina científica envolvida e a atribuição de autoria do termo/conceito.
Estabelecido os procedimentos metodológicos, procedeu-se à coleta e à análise dos dados, cujos resultados estão apresentados a seguir.
Análise dos resultados e discussão
Nesta seção, estão apresentadas as definições multidisciplinares de ontologia, a narrativa histórica e os resultados que ajudam a entender o termo “Espectro das Ontologias”.
O conjunto de documentos recuperados que atenderam às exigências das regras de inclusão somou um total de 353 itens bibliográficos. Após a aplicação das regras de exclusão, restaram 89 documentos relevantes: 13 artigos científicos, 9 livros, 37 teses e 30 itens de categorias diversas. O corpus foi analisado em duas etapas conforme estabelecido na Metodologia.
As compreensões de ontologia na perspectiva multidisciplinar
Na literatura científica, não há um consenso quanto à definição de ontologia, por isso serão apresentadas algumas definições para ajudar na compreensão das especificações daquilo que as disciplinas científicas, quando tomadas isoladamente, entendem por ontologia.
Para Khazraee e Lin (2011), o termo ontologia, desenvolvido por Aristóteles e conhecido na Filosofia como sinônimo de metafísica, pode significar: 1) “uma disciplina da filosofia”, caso em que sempre se grafa o primeiro “o” em maiúsculo; e 2) “um artefato”.
Para Sowa (2000), o termo ontologia deriva de dois termos gregos “ontos” e “logos”, significando “entidade” e “palavra”, respectivamente; e foram os filósofos Jacob Lorhard e Rudolf Göckel os primeiros a empregar o termo Ontologia no início do século XVII.
Segundo Smith (2004, 22), o “primeiro uso do termo ontologia na literatura da Ciência da Computação e da Informação ocorreu já em 1967, em um trabalho sobre os fundamentos da modelagem de dados”, em uma discussão bastante pragmática feita por Mealy (1967) a respeito de “a questão é ontologia, a questão é sobre o que existe”, em que ele distingue o mundo real das ideias na mente das pessoas sobre o mundo. Assim, por essa perspectiva, a ontologia discorre sobre a representação das entidades reais por meio de fragmentos de uma teoria do mundo real e apresenta o processamento de dados como o processamento das representações desses fragmentos. Dito de outra forma, a ontologia estuda aquilo que existe (Quine e Gibson, 2004). No contexto da BCI, aceita-se que o termo foi citado pela primeira vez na área por Vickery (1997).
As ontologias são utilizadas na CC desde os anos de 1980 (Khazraee e Lin, 2011). A definição mais difundida atualmente por essa comunidade foi elaborada por Gruber (1993) e Studer, Benjamins e Fensel (1998) afirma que uma ontologia é uma conceitualização explícita, formal e compartilhada. Guarino (1998) refuta uma parte dessa definição, argumentando que uma ontologia depende de um vocabulário, enquanto que uma conceitualização independe da linguagem utilizada na representação para traduzir em conceitos a percepção humana sobre uma realidade (Franca 2009).
Para a CC, tanto na web semântica quanto no paradigma simbolista da Inteligência Artificial, as ontologias devem ser processáveis por máquinas (Berners-Lee 1998), fazendo da formalidade uma característica imprescindível, uma vez que ferramentas computacionais se baseiam em lógica formal. Com isso, os algoritmos foram elevados à categoria de mediadores, porque mediam o acesso ao conhecimento por meio de ontologias, que, devido aos seus milhares de conceitos (por exemplo, o Agrontology tem 39 600 conceitos), são difíceis de ser manuseadas diretamente pelas pessoas.
Os instrumentos da OC, como tesauros e ontologias, são artefatos, pois se define um artefato como sendo um objeto físico ou virtual construído por método científico para uma finalidade declarada na visão de um campo científico (Vaishnavi e Kuechler 2008). A BCI elabora artefatos compreensíveis para as pessoas com foco na qualidade do conteúdo, enquanto a CC tem foco centrado na estrutura e nas regras formais na elaboração de artefatos compreensíveis às máquinas. Essa diferença pode ser observada no fragmento de um artefato apresentado na, em que uma informação (agricultura sustentável) precisa de mais de dez estruturas (tags) adicionais para ser processável por computadores.
A diferença de foco faz com que as concepções de instrumentos da OC, sobretudo das ontologias, sejam multidisciplinares (Krishnan 2009). No, estão arrolados alguns artefatos que diferentes disciplinas denominam de ontologia, como os modelos hierárquicos, os modelos de dados, os modelos de especificações de relações, os conjuntos de primitivas, os conjuntos de requisitos, os vocabulários controlados, os vocabulários comuns e as redes de afirmações. Cada um deles tem a finalidade de compartilhar o conhecimento específico na comunidade de pesquisadores da disciplina em que foi elaborado.
Disciplina | Artefato/ontologia | Referência |
---|---|---|
Ciências da Computação | Conjunto de primitivas representacionais para modelar um domínio de conhecimento ou discurso. | Gruber (2018) |
Sistemas de banco de dados | Modelo de dados hierárquicos destinado a modelar o conhecimento. | Gruber (2018) |
Inteligência Artificial (paradigma simbolista) | Vocabulário comum no qual o conhecimento compartilhado é representado. | Gruber (1993) |
Vocabulário específico para descrever certa realidade. | Guarino (1998) | |
Sistemas de informação | Conjunto de requisitos para atender a um contexto específico. | Smith (2004) |
Ciências Naturais | Uma rede de afirmações sobre o que existe. | Smith (2004) |
Web Semântica | Uma camada estrutural do modelo de camadas da Web Semântica proposto por Tim Berners-Lee. | Berners-Lee, Hendler e Lassila (2001) |
Ciência da Informação | Reinvenção da Classificação. | Soergel (1999) |
Modelos de conceitos específicos para representar as relações complexas entre os objetos. | Zeng (2008) |
A especificação do que é uma ontologia depende da disciplina científica envolvida. Para Zeng (2008), na BCI, uma ontologia é mais um Sistema de Organização do Conhecimento (SOC) com o propósito de adquirir, representar e organizar o conhecimento e que difere do tesauro apenas ao permitir explicitar as propriedades do objeto. Para a CC, uma ontologia deve atender a um nível exclusivo no modelo de camadas da web semântica (Berners-Lee, Hendler, e Lassila 2001) para atribuir-lhe a capacidade de inferência automática. Essa mesma propriedade pode ser aplicada ao paradigma simbolista da Inteligência Artificial.
A inferência automática, utilizando ontologias, marca um ponto de bifurcação entre a CC e a BCI e, conforme será exposto na próxima seção, a CC estende a definição de ontologia, que acaba por incluir os SOCs listados por Zeng (2008) no Espectro das Ontologias.
A origem histórica do termo
Esta seção aborda as considerações teóricas, os resultados da análise dos dados e o contexto de uso do termo “Espectro das Ontologias”.
Para Gail Hodge (2000, 3), “todos os tipos de esquemas para organizar a informação e promover a gestão do conhecimento” são SOCs. A autora acrescenta que o termo “Sistemas de Organização do Conhecimento” foi proposto pelo Networked Knowledge Organization Systems Working Group na Conferência ACM Digital Libraries de 1998, em Pittsburgh, Pensilvânia.
Segundo McGuinness (2001, 5), numa conversa em preparação para um painel de ontologia, “esse espectro surgiu” para estudar a relação entre as “muitas formas de especificações que diferentes pessoas denominaram ontologias”. Na, pode ser vista uma adaptação traduzida por Lima (2020) dessa proposta do que seria uma “ontologia” na perspectiva da CC em 1999.
Assim, formularam uma estrutura para organizar, quanto à expressividade, os recursos de representação do conhecimento que estão listados no. A estrutura de 1999 serviu de protótipo para a versão mais refinada e conhecida do Espectro das Ontologias publicada em 2001.
Artefato | Raciocínio automático |
---|---|
Catálogo | Não |
Arquivos de texto | Não |
Tesauro | Não |
Taxonomia | Sim |
Estrutura hierárquica | Sim |
Restrições lógicas gerais | Sim |
O significado da palavra “espectro” envolve a ideia de uma variação contínua. Ao passo que a formulação original de 1999 do “Espectro das Ontologias” comparava instrumentos, aproximando-se mais de uma variação discreta. Mas McGuinness (2001) adotou a expressividade (semântica formal) como a dimensão de variação, esta, sim, capaz de imbuir o verdadeiro conceito de variação crescente e contínua.
Apesar da publicação de McGuinness (2001) ser pública e acessível, Obrst (2010, 30) afirma que o termo Espectro das Ontologias foi “criado em 2002 por Obrst, Daconta e Smith” para orientar as empresas no processo de implementação de tecnologias semânticas. Ainda, segundo o autor, a finalidade era apresentar os modelos semânticos ordenados quanto à expressividade para facilitar as escolhas adequadas à complexidade do problema a resolver.
Quanto às dimensões de variações utilizadas no Espectro das Ontologias, considerando os 13 artigos científicos presentes no corpus da pesquisa, pode-se afirmar que o maior número de pesquisas utiliza a expressividade e a riqueza semântica. Outras dimensões de variação utilizadas são a semântica, a formalidade e a sintaxe. Essas abordagens estão arroladas no.
Dimensão | Definição | Fonte |
---|---|---|
Expressividade | Um contínuo (espectrum ) de detalhes de especificações das Ontologias da Web. | McGuinness (2001) |
Um conjunto de modelos de informação que os profissionais comumente chamam de ontologias. | Kendall e McGuinness (2019) | |
Riqueza semântica | Espaço Ontológico (ontological space ) | Daconta, Obrst e Smith (2003) |
Espaço de Classificação (classificational space ) | ||
Conceito | ||
Framework (Estrutura de trabalho ) | ||
Formalidade | Um contínuo de tipos de ontologias (continuum of kinds of ontologies) | Uschold e Gruninger (2004) |
Contínuo (continuum/spectrum ) | Staab e Studer (2004) | |
Semântica | Modelo multidimensional | Khazraee e Lin (2011) |
As dimensões listadas no são, conceitualmente, muito próximas entre si e são entendidas como avaliadoras da expressividade formal. Assim, todos os trabalhos de certa forma avaliam a mesma dimensão: a “formalidade”, que é a propriedade diretamente associada à capacidade de um instrumento facilitar a inferência automática muito necessária aos computadores.
As atribuições de autoria nas citações
Nos documentos coletados, encontram-se duas tendências quanto à atribuição de autoria do conceito de Espectro das Ontologias. Daconta, Obrst e Smith (2003) aparecem como autores em 41 publicações e, em 47 documentos, a autoria do termo é explicitamente atribuída a McGuinness (2001).
Quando se trata dos artigos científicos analisados, dez utilizaram Mc-Guinness (2001) como fonte, em que oito a citaram explicitamente e dois a adaptaram sem citar a fonte. Menos da metade, apenas três, atribui exclusivamente a autoria a Daconta, Obrst e Smith (2003). Ou seja, para 75% dessas pesquisas, McGuinness (2001) é a autora do termo.
Nas seções seguintes, serão apresentados maiores detalhes das duas principais referências utilizadas na literatura científica consultada.
O espectro das ontologias de McGuinness (2001)
O trabalho “Ontologies come of age” foi republicado 29 vezes como artigo científico e recebeu 711 citações até 2020. Esse Espectro das Ontologias foi publicado pela primeira vez em um capítulo do livro “The Semantic Web: Why, What, and How” (McGuinness, 2001) e o esquema visual tem sido o mais citado, traduzido e adaptado.
No, estão sintetizadas e explicitadas as mudanças ocorridas na concepção do Espectro das Ontologias na visão da CC. Em 1999, eram os instrumentos em si os indicadores da capacidade de se obter inferência automática. Em 2001, são as características principais dos instrumentos, como identificadores, termos, termos mais restritos e relacionamentos, que desempenham essa função. Nessa perspectiva, a ontologia engloba todas as propriedades mais marcantes dos instrumentos da O
Instrumentos incluídos no Espectro das Ontologias em 1999 | Características adicionadas ao Espectro das Ontologias em 2001 | Permite Inferência automática? |
---|---|---|
Catálogo | Identificadores | Não |
Glossário | Termos | Não |
Tesauros | Termos mais restritos | Não |
<é-uma> Informal | Relação | Não |
<é-uma> Formal | Relação | Sim |
Instância formal | Instanciação | Sim |
Estruturas | Propriedades | Sim |
Restrição de valores | Axioma | Sim |
Restrições lógicas gerais | Axioma | Sim |
Disjunção | Axioma | Sim |
<part-of> | Relação | Sim |
Nesse entendimento, Catálogos, Glossário, Tesauros e relações informais do tipo <é-uma> dificultam a obtenção de inferência automática, pois não possuem uma estrutura formalizada capaz de produzir uma interpretação inequívoca de seu relacionamento hierárquico (Kendall e McGuinness 2019).
Na próxima seção, será apresentada outra perspectiva sobre o conceito de Espectro das Ontologias, produzida também no contexto da CC.
O espectro das ontologias de Daconta, Obrst e Smith (2003)
O Espectro das Ontologias de Daconta, Obrst e Smith (2003) se define como um “espaço geral de classificação” para distinguir as propriedades básicas dos instrumentos para facilitar a comparação da riqueza semântica. Os autores seguem a mesma linha de raciocínio de McGuinness (2001). As ontologias denominadas de taxonomias e tesauros lidam com a ambiguidade e a polissemia. Ontologia como instrumento nem aparece na.
Em síntese, o Espectro das Ontologias é um “framework” desenvolvido para comparar a riqueza semântica dos SOCs. As razões para o uso da expressão “Espectro das Ontologias” estão associadas ao fato de que o termo foi elaborado para o contexto de uso na CC.
A seguir serão apresentadas as considerações finais elaboradas a partir da análise da literatura científica coletada.
Conclusões
No período coberto pela pesquisa, de 1999 a 2019, as publicações citaram e adaptaram McGuinness (2001) e Daconta, Obrst e Smith (2003) como fonte e autoria do termo Espectro das Ontologias. Vale lembrar que o conceito surgiuda publicação de Welty et al. (1999) e o termo no trabalho de McGuinness (2001).
Pode-se considerar que houve convergência nas discussões ocorridas no início da década de 2000 quanto ao termo e ao conceito “Espectro das Ontologias”. Corrobora essa afirmação o fato de que não se encontraram propostas posteriores de alterações significativas e o de que, na década seguinte, o uso do termo consolidou-se.
O Espectro das Ontologias é um meio de estudar as especificações de ontologia desenvolvidas em múltiplas disciplinas e refere-se a uma estrutura de trabalho (framework) para comparar a riqueza semântica das “ontologias” na perspectiva da CC, notadamente para atender aos requisitos da inferência automática.
O Espectro das Ontologias, na Ciência da Computação, é equivalente a Sistemas de Organização do Conhecimento, na BCI, uma vez que essa terminologia, em ambos os casos, se refere a um conjunto semelhante de instrumentos da Organização do Conhecimento listados, na BCI, por Zeng (2008) e, na CC, por Welty et al. (1999), McGuinness (2001), e Daconta, Obrst e Smith (2003). Mas como SOC é uma parte essencial da narrativa identitária da BCI, ele deve ser o termo preferido nesse contexto. Além disso, no contexto da BCI as ontologias são apenas mais um tipo de SOC como defendem a maioria dos autores (Hodge 2000; Zeng 2008; Lima, 2020; Ferreyra, 2021) que escrevem sobre a temática e que já foram citadas nesta investigação.
O Espectro das Ontologias depende essencialmente do significado de ontologia no campo científico envolvido na codificação e representação do conhecimento. Portanto, para evitar erros de interpretações e inconsistências, o significado de ontologia deve ser explicitado no contexto de uso. Isso ampara a prática discursiva da disciplina ao aumentar a precisão da terminologia específica. Ao mesmo tempo, mantém o olhar multidisciplinar que ultrapassa os limites arbitrários impostos pela disciplina, de forma que aumenta as possibilidades de compreensão do fenômeno, que é, em última instância, a finalidade das pesquisas científicas.