Sistemas de Recuperação de Informação
logosri1.png

Sumário

O que é afinal um sistema de recuperação de informação ?

“Conjunto de operações consecutivas executadas para localizar, dentro da totalidade de informações disponíveis, aquelas realmente relevantes “ (CESARINO 1985)
“… Tipos de sistemas de comunicação que, entre outras funções, visam dar acesso às informações neles registadas.(ARAÚJO,1995)

Existem na World Wide Web milhares de páginas cobrindo os mais variados assuntos e interesses. Estimativas recentes afirmam existir cerca de 2,5 Biliões de documentos com uma taxa de crescimento de 7,5 milhões ao dia. Localizar todas estas informações não é tarefa fácil. Pretende-se mostrar as diferenças nas formas de operação das diversas ferramentas de procura ou pesquisa que actualmente existem na web, bem como as suas características próprias podem afectar os resultados de uma pesquisa.
Conhecendo as suas características e modo de funcionamento é possível extrair todo o potencial de cada ferramenta e localizar as informações desejadas com uma maior eficiência.

Introdução

A recuperação de informações em bases de dados é um assunto bastante discutido pelos profissionais das TIC. A Internet tornou esta questão ainda mais urgente. A difusão do seu uso ampliou a necessidade de aceder, de forma rápida e precisa, informações armazenadas em base de dados gigantescas.
A Internet é um conjunto de inúmeras redes de computadores ligadas entre si, que permite a comunicação, partilha de informações, programas e equipamentos entre os seus utilizadores. Constitui a infra-estrutura sobre a qual circula grande volume de informações.
Ao contrário das bibliotecas, os documentos na Internet não estão classificados segundo um padrão determinado. Portanto,a dificuldade do utilizador é localizar informação num grande volume de páginas disponíveis, sem qualquer organização, usando palavras chave.
Encontrar informação depende, principalmente do uso eficiente das ferramentas de pesquisa. Para explorar todo o potencial desses motores, o utilizador precisa de conhecer:

  • As suas características e limitações;
  • Todas as possíveis formas de interacção;
  • Linguagem na pesquisa;
  • Reunir dados sobre a estruturação da informação em diferentes bases de dados.

Este trabalho pretende mostrar as diferentes formas de reunir dados sobre a estruturação da informação que caracterizam os diversos motores disponíveis na Internet.

Desenvolvimento de Conteúdos

- História dos SRI para a WWW

foto11.jpg


A primeira ferramenta para conteúdos na WWW foi o Archie. O Archie usava uma base de dados que incluía todos os arquivos localizados em sites públicos de FTP (File Transfer Protocol) anónimos, permitindo desta forma a pesquisa por nome de arquivo. Foi criado em 1990 por uma aluno na McGill University, Alan Emtage. O seu nome teve origem na palavra Archive. Nesta fase, o Archie não era um motor de busca em toda a ascensão da palavra, mas terá sido o pai de todos eles.
O Gopher foi criado em 1991 por Mark McCahill, Farhad Anklesaria, Paul Lindner, Daniel Torrey e Bob Alberti da University of Minesota e indexava documentos de texto.
O Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) provia uma pesquisa por palavras para a maioria dos menus do Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) era uma ferramenta para obter informações de menu de vários servidores Gopher.
O primeiro search engine Web foi o Wandex, um índice actualmente extinto feito pela World Wide Web Wanderer, um web crawler (programa automatizado que acessa e percorre os sites seguindo os links presentes nas páginas.) desenvolvido por Matthew Gray no MIT, em 1993.
Outro sistema antigo, Aliweb, também apareceu no mesmo ano e existe até hoje.
O primeiro sistema "full text" baseado em crawler foi o WebCrawler, que saiu em 1994. Ao contrário de seus predecessores, ele permite aos utilizadores pesquisar por qualquer palavra em qualquer página, o que tornou-se padrão para todos serviços de pesquisa desde então. Também foi o primeiro a ser conhecido pelo grande público.
Ainda em 1994, o Lycos (que começou na Carnegie Mellon University) foi lançado e tornou-se um grande sucesso comercial.
Logo depois, muitos sistemas apareceram, incluindo Excite, Infoseek, Inktomi, Northern Light, e AltaVista. De certa forma, eles competiram com diretórios populares como o Yahoo!. Posteriormente, os directórios integraram ou adicionaram a tecnologia de Search Engine para maior funcionalidade.

Os primeiros motores de busca (Yahoo) baseavam-se na indexação de páginas através da sua categorização. Posteriormente surgiram as meta-pesquisas. A mais recente geração de motores de pesquisa (Google) utiliza outras diversas tecnologias, como, a procura por palavras-chave directamente nas páginas, o uso de referências externas espalhadas pela web, permitindo até a tradução directa de páginas (embora de forma básica ou errada) para a língua do utilizador
O Google, além de fazer a busca pela Internet, oferece também o recurso de se efectuar a pesquisa somente dentro de um site específico. É essa a ferramenta usada na comunidade Wiki.

Ano Engine Evento
1993 Wandex Lançamento
Aliweb Lançamento
1994 WebCrawler Lançamento
Infoseek Lançamento
Lycos Lançamento
1995 AltaVista Lançamento (parte do DEC)
Sapo.pt Fundado
Excite Lançamento
1996 Dogpile Lançamento
Inktomi Fundado
Ask Jeeves Fundado
1997 Northern Light Lançamento
1997 Sapo.pt Lançado com objectivos comerciais
1998 Google Lançamento
1999 AlltheWeb Lançamento
1999 Baidu Fundado
2000 Singingfish Lançamento
Teoma Fundado
Vivisimo Fundado
2003 Objects Search Lançamento
2004 Yahoo! Search Lançamento final (primeiros resultados originais)
MSN Search Lançamento beta
2005 MSN Search Lançamento final
Bupor Lançamento
2006 Quaero Fundado
Trovit Fundado
2007 Ask.com Fundado
2008 Cuil Fundado
2009 Bing Fundado

- Modelos para a RI



Os sistemas de RI normalmente usam um modelo para representar os documentos relevantes e a consulta do utilizador. Muitos modelos ou abordagens têm sido propostos ao longo dos anos, sendo que três modelos são considerados clássicos:

  • Modelos Clássicos

- Linguagens de Consulta


Existem diferentes tipos de consultas que podem ser utilizados pelos SRI, dependendo do modelo de recuperação que o sistema adopte, por exemplo, um sistema full text não irá responder ao mesmo tipo de consulta de um sistema baseado em ordenação de palavras-chaves.
Uma constatação importante é que a maioria das linguagens de consulta tenta usar o conteúdo (semântica) e a estrutura (sintaxe) do texto da consulta para encontrar documentos que são relevantes.
· consultas que podem ser formuladas com linguagens de consultas baseadas em palavras-chaves (keyword-based);
· um tipo mais complexo de consulta envolvendo pattern matching;
· consultas em estruturas mais dependentes dos modelos de recuperação;
· padrão de protocolos usados na Internet.

- Ontologias

ontology_view.png

Definição e conceito do termo "Ontologia"

O termo ontologia foi e é aplicado em muitas áreas do conhecimento: em Filosofia e mais concretamente na Metafísica, também na Engenharia de Informática no campo da Inteligência Artificial, bem como na Ciência da Informação por gestores do conhecimento e profissionais da informação (Staab & Studer, 2004).

A característica proporciona o uso do conceito em todas estas áreas de conhecimento é que o termo ontologia faz referência aos conceitos de um domínio e as relações que se estabelecem entre eles. Dependendo da área em que se empregam as ontologias, surgirão características próprias a cada uma delas.

O termo ontologia pode ter várias definições relevantes para cada área do conhecimento, mas no âmbito deste trabalho, ontologia é ferramenta adequada para a gestão do conhecimento em sistemas integrais de informação para empresas do sector de telecomunicações.

- Casos de Estudo

Considerações Finais

Uma empresa utiliza boa parte de seu tempo na recuperação de informação para se manter à frente dos seus concorrentes, e os utilizadores usam a informação para melhorar o seu conhecimento sobre assuntos do seu interesse.
A facilidade de acesso às informações, deve-se em grande parte, ao desenvolvimento das plataformas de pesquisa. Porém, a informação não existe sozinha: exige dedicação dos seus criadores e principalmente da compreensão de todos, e essa é a maneira aumentar a qualidade da informação.
Quanto mais cresce o volume de informação oferecida, maior a necessidade de organização, que padronize e simplifique o processo de classificação de forma global e coerente.
Este trabalho procurou apresentar uma visão geral sobre a seriedade que se deve ter no entendimento e conhecimento, com a importância de se organizar os dados, de forma a trazer informações importantes e precisas para uma decisão.
Com o continuo avanço das tecnologias e o seu amadurecimento, espera-se que, cada vez mais, essa integração colectiva e as ferramentas de tomada de decisão sejam incorporadas, juntamente com processos mais coesos.
A Internet veio tornar mais urgente a resolução da questão da busca de informação, e com os "novos" motores de busca, este problema foi ultrapassado, permitindo o acesso a todas a informações mesmo quando não sabemos muito bem o que procuramos.

Bibliografia

Apresentação

Download Apresentação

Grupo

moc.liamg|agiev.anasus#atsitaB anasuS
moc.liamg|67raran#seugirdoR nosleN
moc.liamg|96onurb#oriebiR onurB


Este trabalho deve ser citado como:
Batista, Susana; Rodrigues, Nelson e Ribeiro, Bruno (2011). Sistemas de Recuperação de Informação. Trabalho da disciplina de Seminário de Sistemas e Tecnologias da Informação I. Universidade Atlântica, Portugal. Disponível em http://ssti1-1112.wikidot.com/sistemas-de-recuperacao-de-informacao. Acedido em (data do dia de acesso).

Perguntas sobre o trabalho

  1. Explique quais são os sub-sistemas que estão incluídos em um sistema de recuperação de informação.
  1. Explique a integração das ontologias com os sistemas de recuperação de informação.