Sistemas de Recuperação de Informação
Sumário
O que é afinal um sistema de recuperação de informação ?
“Conjunto de operações consecutivas executadas para localizar, dentro da totalidade de informações disponíveis, aquelas realmente relevantes “ (CESARINO 1985)
“… Tipos de sistemas de comunicação que, entre outras funções, visam dar acesso às informações neles registadas.(ARAÚJO,1995)
Existem na World Wide Web milhares de páginas cobrindo os mais variados assuntos e interesses. Estimativas recentes afirmam existir cerca de 2,5 Biliões de documentos com uma taxa de crescimento de 7,5 milhões ao dia. Localizar todas estas informações não é tarefa fácil. Pretende-se mostrar as diferenças nas formas de operação das diversas ferramentas de procura ou pesquisa que actualmente existem na web, bem como as suas características próprias podem afectar os resultados de uma pesquisa.
Conhecendo as suas características e modo de funcionamento é possível extrair todo o potencial de cada ferramenta e localizar as informações desejadas com uma maior eficiência.
Introdução
A recuperação de informações em bases de dados é um assunto bastante discutido pelos profissionais das TIC. A Internet tornou esta questão ainda mais urgente. A difusão do seu uso ampliou a necessidade de aceder, de forma rápida e precisa, informações armazenadas em base de dados gigantescas.
A Internet é um conjunto de inúmeras redes de computadores ligadas entre si, que permite a comunicação, partilha de informações, programas e equipamentos entre os seus utilizadores. Constitui a infra-estrutura sobre a qual circula grande volume de informações.
Ao contrário das bibliotecas, os documentos na Internet não estão classificados segundo um padrão determinado. Portanto,a dificuldade do utilizador é localizar informação num grande volume de páginas disponíveis, sem qualquer organização, usando palavras chave.
Encontrar informação depende, principalmente do uso eficiente das ferramentas de pesquisa. Para explorar todo o potencial desses motores, o utilizador precisa de conhecer:
- As suas características e limitações;
- Todas as possíveis formas de interacção;
- Linguagem na pesquisa;
- Reunir dados sobre a estruturação da informação em diferentes bases de dados.
O site de pesquisa ou motor de busca é um sistema idealizado para encontrar informações localizadas na web a partir de palavras-chave indicadas pelo utilizador, reduzindo o tempo necessário para encontrar informação.
Os motores de pesquisa surgiram logo após o aparecimento da Internet, com a intenção de prestar um serviço extremamente importante: a pesquisa de qualquer informação na rede, apresentando os resultados de uma forma organizada, e também com a proposta de fazer isto de uma maneira rápida e eficiente. A partir deste preceito básico, diversas empresas se desenvolveram, chegando algumas a valer milhões. Entre as maiores empresas encontram-se o Google, o Yahoo, o aeiou entre outros. Os primeiros motores de pesquisa, como o Yahoo, baseavam-se na indexação de páginas através da sua categorização. Posteriormente surgiram as meta-pesquisas. A mais recente geração de motores de pesquisa (como a do Google) utiliza tecnologias diversas, como a procura por palavras-chave directamente nas páginas e o uso de referências externas espalhadas pela web, permitindo até a tradução de páginas para a língua do utilizador. O Google, além de fazer a pesquisa pela Internet, oferece também o recurso de se efectuar a pesquisa somente dentro de um site específico
Este trabalho pretende mostrar as diferentes formas de reunir dados sobre a estruturação da informação que caracterizam os diversos motores disponíveis na Internet.
Desenvolvimento de Conteúdos
- História dos SRI para a WWW
A primeira ferramenta para conteúdos na WWW foi o Archie. O Archie usava uma base de dados que incluía todos os arquivos localizados em sites públicos de FTP (File Transfer Protocol) anónimos, permitindo desta forma a pesquisa por nome de arquivo. Foi criado em 1990 por uma aluno na McGill University, Alan Emtage. O seu nome teve origem na palavra Archive. Nesta fase, o Archie não era um motor de busca em toda a ascensão da palavra, mas terá sido o pai de todos eles.
O Gopher foi criado em 1991 por Mark McCahill, Farhad Anklesaria, Paul Lindner, Daniel Torrey e Bob Alberti da University of Minesota e indexava documentos de texto.
O Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) provia uma pesquisa por palavras para a maioria dos menus do Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) era uma ferramenta para obter informações de menu de vários servidores Gopher.
O primeiro search engine Web foi o Wandex, um índice actualmente extinto feito pela World Wide Web Wanderer, um web crawler (programa automatizado que acessa e percorre os sites seguindo os links presentes nas páginas.) desenvolvido por Matthew Gray no MIT, em 1993.
Outro sistema antigo, Aliweb, também apareceu no mesmo ano e existe até hoje.
O primeiro sistema "full text" baseado em crawler foi o WebCrawler, que saiu em 1994. Ao contrário de seus predecessores, ele permite aos utilizadores pesquisar por qualquer palavra em qualquer página, o que tornou-se padrão para todos serviços de pesquisa desde então. Também foi o primeiro a ser conhecido pelo grande público.
Ainda em 1994, o Lycos (que começou na Carnegie Mellon University) foi lançado e tornou-se um grande sucesso comercial.
Logo depois, muitos sistemas apareceram, incluindo Excite, Infoseek, Inktomi, Northern Light, e AltaVista. De certa forma, eles competiram com diretórios populares como o Yahoo!. Posteriormente, os directórios integraram ou adicionaram a tecnologia de Search Engine para maior funcionalidade.
Os primeiros motores de busca (Yahoo) baseavam-se na indexação de páginas através da sua categorização. Posteriormente surgiram as meta-pesquisas. A mais recente geração de motores de pesquisa (Google) utiliza outras diversas tecnologias, como, a procura por palavras-chave directamente nas páginas, o uso de referências externas espalhadas pela web, permitindo até a tradução directa de páginas (embora de forma básica ou errada) para a língua do utilizador
O Google, além de fazer a busca pela Internet, oferece também o recurso de se efectuar a pesquisa somente dentro de um site específico. É essa a ferramenta usada na comunidade Wiki.
Ano |
Engine |
Evento |
1993 |
Wandex |
Lançamento |
|
Aliweb |
Lançamento |
1994 |
WebCrawler |
Lançamento |
|
Infoseek |
Lançamento |
|
Lycos |
Lançamento |
1995 |
AltaVista |
Lançamento (parte do DEC) |
|
Sapo.pt |
Fundado |
|
Excite |
Lançamento |
1996 |
Dogpile |
Lançamento |
|
Inktomi |
Fundado |
|
Ask Jeeves |
Fundado |
1997 |
Northern Light |
Lançamento |
1997 |
Sapo.pt |
Lançado com objectivos comerciais |
1998 |
Google |
Lançamento |
1999 |
AlltheWeb |
Lançamento |
1999 |
Baidu |
Fundado |
2000 |
Singingfish |
Lançamento |
|
Teoma |
Fundado |
|
Vivisimo |
Fundado |
2003 |
Objects Search |
Lançamento |
2004 |
Yahoo! Search |
Lançamento final (primeiros resultados originais) |
|
MSN Search |
Lançamento beta |
2005 |
MSN Search |
Lançamento final |
|
Bupor |
Lançamento |
2006 |
Quaero |
Fundado |
|
Trovit |
Fundado |
2007 |
Ask.com |
Fundado |
2008 |
Cuil |
Fundado |
2009 |
Bing |
Fundado |
- Modelos para a RI
Os sistemas de RI normalmente usam um modelo para representar os documentos relevantes e a consulta do utilizador. Muitos modelos ou abordagens têm sido propostos ao longo dos anos, sendo que três modelos são considerados clássicos:
O modelo Booleano considera uma consulta (Query) como uma expressão booleana convencional, utilizando os operadores lógicos booleanos or, and e not para estabelecer relações específicas de ocorrência com as palavras-chave, de forma a especificar os documentos a serem recuperados. A sua maior desvantagem é o facto de trabalhar de forma binária, ou seja, os documentos são considerados relevantes ou não relevantes para consulta, não existem resultados parciais e não há informação que permita a ordenação dos resultados da consulta .
Os principais Problemas/Vantagem do modelo booleano são:
- A ausência de ordem na resposta, e as respostas podem ser nulas ou muito extensas.
- No modelo booleano os documentos recuperados são apenas aqueles que contêm os termos que satisfazem a expressão lógica da consulta.
- Se o utilizador souber exactamente o que pretende é eficaz.
- A grande vantagem deste modelo é a facilidade de implementação.
O modelo vectorial foi desenvolvido por Gerard Salton, que durante 30 anos “was information retrieval”.
No VSM (vector space model) um documento é representado como um “saco de palavras”. O ranking relevância dos documentos numa pesquisa pode ser calculado, usando os pressupostos da teoria semelhanças de documento, comparando o desvio de ângulos entre cada vector do documento e o vector da consulta original, onde a consulta é representada com o mesmo tipo de vector que os documentos.
O modelo vectorial é a base da grande maioria de sistemas de recuperação de informação na WWW, embora estes utilizem também outras técnicas para determinar o ranking de documentos como resposta a uma consulta.
As Principais vantagens do VSM:
- Um modelo simples baseado em álgebra linear
- O termo não binário
- Permite uma pesquisa contínua de semelhança entre consultas e documentos
- Permite a classificação dos documentos de acordo com a sua relevância
- Permite uma correspondência parcial
Mas o VSM também tem limitações:
- Documentos longos são mal representados porque eles têm valores de similaridade pobres
- Palavras-chave de pesquisa devem corresponder exactamente aos termos do documento
- Sensibilidade semântica: os documentos com contexto semelhante mas diferente vocabulário não serão associados
- A ordem em que os termos aparecem no documento é perdida na pesquisa vectorial
- Assume termos são estatisticamente independentes
- Ponderação é intuitiva, mas não muito formal
Mas muitas destas dificuldades podem, no entanto, ser superadas pela integração de várias ferramentas, incluindo técnicas matemáticas, como a decomposição em valores singulares e bases de dados lexicais, tais como WordNet.
O modelo probabilístico de recuperação de informação surgiu nos anos 70.
Neste modelo os termos indexados dos documentos e das consultas não possuem relevância pré-definida.
É baseado no princípio da ordenação probabilística (Probability Ranking Principle). Neste modelo, procura-se saber a probabilidade de um documento ser ou não relevante para uma consulta. Tal informação pode ser obtida assumindo-se, que a distribuição de termos na informação disponível seja capaz quantificar a relevância provável de um determinado documento.
A sua principal vantagem está na sua capacidade de construir uma função de ranking, que ordene os documentos de maneira decrescente segundo sua probabilidade se serem relevantes para a consulta efectuada. Esta potencialidade fica ofuscada pelas dificuldades operativas que este modelo apresenta, entre elas :
- A necessidade de segmentar a priori a informação em documentos relevantes e não relevantes sem nenhuma pauta de discriminação.
- O modelo não processa a ocorrência de um termo dentro de um documento para determinar o peso deste, devido a sua atribuição binária de pesos
- A necessidade de assumir a independência na probabilidade dos termos relevantes
- Linguagens de Consulta
Existem diferentes tipos de consultas que podem ser utilizados pelos SRI, dependendo do modelo de recuperação que o sistema adopte, por exemplo, um sistema full text não irá responder ao mesmo tipo de consulta de um sistema baseado em ordenação de palavras-chaves.
Uma constatação importante é que a maioria das linguagens de consulta tenta usar o conteúdo (semântica) e a estrutura (sintaxe) do texto da consulta para encontrar documentos que são relevantes.
· consultas que podem ser formuladas com linguagens de consultas baseadas em palavras-chaves (keyword-based);
· um tipo mais complexo de consulta envolvendo pattern matching;
· consultas em estruturas mais dependentes dos modelos de recuperação;
· padrão de protocolos usados na Internet.
A consulta baseada em palavras-chave é forma mais simples, e procura nos documentos que contenham estas as palavras-chave.
As consultas baseadas em palavras-chave são as mais populares porque são intuitivas, fáceis de usar e permitem uma ordenação rápida. Assim, uma consulta pode ser composta simplesmente por uma palavra (single-word), ou pode ser uma combinação complexa de operações envolvendo várias palavras (multiple-word).
Em ambos os casos este tipo de consulta é chamada de consulta básica.
Consultas single-word
A consulta mais elementar que pode ser formulada num SRI é uma palavra, por outro lado, as frases são essencialmente grandes sequência de palavras.
Alguns modelos permitem que os documentos sejam vistos sob a perspectiva de procurar palavras, e outros permitem que as palavras sejam divididas em letras, geralmente à procura de padrão.
Um alfabeto é composto por letras e separadores (espaços em branco ou caracteres especiais). Uma palavra é simplesmente identificada por um conjunto de letras entre separadores.
Alguns modelos, como o vectorial, possuem uma visão mais profunda a respeito das palavras, tentando extrair elementos semânticos, utilizando, por exemplo, medidas tais como a sua frequência no texto.
Consultas de contexto
Muitos sistemas complementam consultas single -word com a possibilidade de procurar as palavras num determinado contexto, ou seja, próxima de outras palavras.
As palavras que aparecem próximas umas das outras destacam-se com uma maior probabilidade de relevância, do que se aparecessem separadas. Por exemplo, poderiam ser usadas frases numa determinada consulta.
Por este motivo, dois tipos de consulta podem ser considerados: frase e proximidade .
Frase é uma sequência de consultas single-word, ou simplesmente uma sequência de palavras.
Proximidade é uma versão mais relaxada da consulta de frase. Neste caso, uma sequência de palavras ou frases é dada, juntamente com uma distância máxima permitida entre elas. As palavras ou frases podem ou não aparecer na mesma ordem em que foram colocadas na consulta.
A mais antiga (e ainda muito utilizada) forma de combinar consultas de palavras-chaves usando operadores booleanos. Uma consulta booleana possui uma sintaxe composta de átomos (consultas básicas) que recuperam documentos e operadores booleanos (AND, OR e BUT), que trabalham em seus operandos recuperando assim conjuntos de documentos.
É mais um estudo de como formular consultas, que são baseadas num padrão e que permitem a recuperação de excertos do texto com algumas propriedades.
Um padrão é um conjunto de características sintácticas que devem ocorrer num segmento do texto. Os segmentos que satisfazem às especificações do padrão são ditos “casar” com o padrão.
Cada sistema permite a especificação de alguns tipos de padrões, que vão dos mais simples (palavras) até os mais complexos (expressões regulares).
Geralmente, quanto mais poderoso é o conjunto de padrões permitidos, mais definidas são as regras de consultas que o utilizador pode formular, e mais complexa é a busca.
Os tipos mais usados de Pattern Matching são:
Palavras – Padrão mais básico, onde é feito o casamento exacto de uma palavra no texto.
Prefixos – Uma string que deve formar o início de uma palavra do texto. Por exemplo, usando o prefixo “Sist”, todos os documentos contendo palavras tais como “sistemas” e “sistematização” são recuperados.
Sufixos – Uma string que deve formar a terminação de uma palavra do texto. Por exemplo, usando o sufixo “emas”, todos os documentos contendo palavras tais como “temas”, “lemas” e “sistemas” são recuperados.
Substrings – Uma string que pode aparecer no corpo de uma palavra do texto. Por exemplo, dada a substring “ste”, todos os documentos contendo palavras tais como “Sistemas” são recuperados.
Também pode recuperar substrings em qualquer lugar do texto (e com separadores). Por exemplo, uma busca por “tema opera” poderá retornar “Sistema Operativo”.
Range ou intervalo – Um par de strings que casam com qualquer palavra no intervalo dentre elas, em uma ordem lexicográfica (como aparecem no dicionário). Por exemplo, palavras entre o intervalo limitado por “pane” e “pano” vão recuperar documentos que possuam as palavras “panela”, “pânico”, “panificadora”, etc.
Permitindo erros – Uma palavra com um limite de erro. Este padrão de busca recupera todas as palavras do texto que são similares a uma palavra dada.Este conceito pode ser descrito de várias formas mas a mais comum é que o padrão pode conter erros (de dactilografia ou de ortografia) e a consulta deve tentar recuperar uma dada palavra e suas variantes. Por exemplo uma procura com a palavra booleano.
Expressões Regulares – Alguns SRI permitem a procura por expressões regulares. Uma expressão regular é uma melhor maneira de construir padrão com strings simples e os seguintes operadores: concatenação (união de duas strings) e repetição.
Padrões Estendidos – Pode usar-se uma linguagem de consulta mais amigável para representar alguns casos de expressões regulares mais comuns. Padrões estendidos são subconjuntos de expressões regulares que são expressos numa sintaxe mais simples (o SRI converte-os internamente). Por exemplo, classes de caracteres , expressões condicionais, combinações que permitem a união exacta e partes com erros.
- Ontologias
Definição e conceito do termo "Ontologia"
O termo ontologia foi e é aplicado em muitas áreas do conhecimento: em Filosofia e mais concretamente na Metafísica, também na Engenharia de Informática no campo da Inteligência Artificial, bem como na Ciência da Informação por gestores do conhecimento e profissionais da informação (Staab & Studer, 2004).
A característica proporciona o uso do conceito em todas estas áreas de conhecimento é que o termo ontologia faz referência aos conceitos de um domínio e as relações que se estabelecem entre eles. Dependendo da área em que se empregam as ontologias, surgirão características próprias a cada uma delas.
O termo ontologia pode ter várias definições relevantes para cada área do conhecimento, mas no âmbito deste trabalho, ontologia é ferramenta adequada para a gestão do conhecimento em sistemas integrais de informação para empresas do sector de telecomunicações.
Quais são os benefícios? (Mike Bergman, 2010)
Uma boa ontologia oferece um conjunto de benefícios não estão disponíveis a taxonomias, esquemas de base de dados relacionais, ou outras formas padrão de estrutura de informação.
Entre esses benefícios estão:
- Navegação coerente, permitindo o movimento de conceito em conceito na estrutura da ontologia
- Pontos de entrada flexíveis porque qualquer perspectiva específica na ontologia pode ser rastreada e relacionada com todos os seus conceitos associados; não existe uma estrutura definida ou maneira para interagir com a ontologia
- Conexões que destacam informações relacionadas e ajuda a descoberta, sem a necessidade de conhecimento prévio do domínio ou sua terminologia
- Capacidade de representar qualquer tipo de informação, incluindo dados não estruturados (por exemplo, documentos ou texto), semi-estruturados (por exemplo, XML ou páginas Web) e estruturados (por exemplo, bases de dados convencional)
- Ligação indirecta de temas, segundo o qual, especificando um conceito (por exemplo, mamíferos) que também se refere a um conceito relacionado (por exemplo, que os mamíferos são uma espécie de animal)
- Correspondência conceito, o que significa que mesmo que a descrição seja um pouco diferente é possível fazê-la corresponder à mesma ideia (como alegre ou feliz tanto referindo-se ao conceito de um agradável estado de espírito)
- É possível integrar conteúdo externo por correspondência adequada e mapeamento desses conceitos
- Uma estrutura para a desambiguação pela natureza da correspondência e análise de conceitos e exemplos no gráfico ontologia
- Raciocínio, que é a capacidade de usar a coerência e estruturar-se para estabelecer questões de parentesco ou responder a perguntas.
Para Guimarães (2002), parte dos investigadores faz uso dos seus próprios critérios no processo de desenvolvimento da construção de ontologias, gerando uma prática comum entre eles que, dentro dos seus procedimentos, partem da aquisição do conhecimento directamente para a implementação, o que gera problemas, tais como:
- Os modelos conceptuais da ontologia ficam implícitos no código da implementação;
- Dificuldades de reutilização da ontologia, pois a estrutura da ontologia e as decisões de projeto estão implícitos no código;
- Dificuldades de comunicação, devido às dificuldades que o expert no domínio da ontologia tem para entender o código da implementação
- Dificuldades no desenvolvimento de ontologias complexas, pois a passagem da aquisição de conhecimento para a implementação é muito abrupta;
-Limita a capacidade de descrição conceptual do domínio da ontologia, dependendo da linguagem escolhida para a codificação.
Ontologia para um sistema de informação
A necessidade de capturar o domínio e de dispor de fontes de conhecimento com termos bem definidos levou muitos investigadores a desenvolver métodos para suportar ontologias. As principais caminhos de pesquisa são três:
· Propostas para guiar e suportar o processo de desenvolvimento das ontologias;
· Desenvolvimento de ferramentas para suportar o processo de construção (engenharia) de ontologias;
· Desenvolvimento e posta em marcha de mecanismos de inferência para grandes ontologias.
Mas poucos trabalhos focaram nestas três vias (Sure, Angele & Staab, 2003).
Dentro de um processo no qual ferramentas como as taxonomias se desenvolveram para formas mais complexas como os tesauros, e estes agora têm a necessidade de evoluir para sistemas mais complexos como as ontologias, capazes de responder a perguntas abarcando uma quantidade superior de informação e com uma falha semântica mais relevante. De maneira que as ontologias permitem a interacção entre o ser humano e a máquina; pois à proposta de perguntar a máquina tratará de responder contra uma ontologia.
As ontologias são instrumentos que na Sociedade do Conhecimento aplicam os arquitectos da informação e profissionais da informação como solução à sobre-abundancia de informação, para a organização e gestão do conhecimento em qualquer Sistema de Informação. O desenvolvimento de uma ontologia com linguagem OWL numa empresa do sector das telecomunicações permitirá possuir o domínio conceptual de sua documentação, solucionará problemas que apresentam aos gestores de bases de dados tradicionais, permitirá a interoperabilidade da informação, bem como processar o conteúdo dos documentos e responder a perguntas mediante deduções lógicas
Um exemplo de aplicação de ontologias é o serviço de busca de notícias disponibilizado pelo Yahoo!, consideravelmente popular entre as aplicações Web 2.0.
Exemplo prático (e gráfico de uma ontologia)
- Casos de Estudo
As Datas Google
Como funciona o site de pesquisa Google
Indexador do Google
O Googlebot indexa o texto completo das páginas que encontra. Estas páginas são armazenadas em base de dados do índice do Google. Este índice é ordenado alfabeticamente pelo termo de pesquisa, com cada entrada do índice armazenando uma lista de documentos em que o termo aparece na localização dentro do texto em que ocorre. Esta estrutura de dados permite o acesso rápido aos documentos que contêm os termos de consulta do utilizador.
Para melhorar o desempenho da pesquisa, o Google ignora palavras comuns (como o é, a, ou, de, como, porque, assim como determinados dígitos e letras simples). Essas palavras são tão comuns que eles não servem para especificar o que se está a procurar e, portanto, podem seguramente ser descartados. O indexador ignora também alguns sinais de pontuação e espaços múltiplos, bem como a conversão de todas as letras minúsculas, para melhorar o desempenho do Google.
Processador de expressões de busca do Google
O processador de consultas tem várias partes, incluindo a interface do utilizador (caixa de pesquisa), o “motor” que avalia as consultas e os resultados a documentos relevantes, e, finalmente, os resultados formatados.
PageRank é o sistema do Google para classificar a ordem de exibição das páginas. Uma página com um PageRank mais elevado é considerada mais importante e é mais provável que seja mostrada acima de uma página com um PageRank mais baixo.
O Google considera mais de uma centena de factores no cálculo de um PageRank e assim determinar quais são os documentos mais relevantes para uma consulta, incluindo a popularidade da página, a posição e o tamanho dos termos de pesquisa dentro da página, e a proximidade dos termos de pesquisa na página.
O Google também aplica técnicas, como, por exemplo, o sistema de correcção ortográfica para descobrir a intenção provável do utilizador e criar alternativas.
A indexação do texto completo da web permite que o Google vá além da simples correspondência de termos de pesquisa únicos. O Google dá mais prioridade para páginas que tenham termos de pesquisa próximos uns dos outros e na mesma ordem que a consulta. Considerando que o Google indexa o código HTML, indo além de somente o texto na página, os utilizadores podem restringir as pesquisas com base em onde aparecem as palavras consultadas, como por exemplo, no título, na URL, no corpo, e em links para a página.
Jerry Yang, que conjuntamente com o seu parceiro David Filo, começaram o projecto como um hobby em Fevereiro de 1994 na Universidade de Stanford, tinham o Yahoo! a residir nas suas próprias maquinas.
A Plataforma estava alojada na máquina de Yang “Akebono”, enquanto o software estava na máquina de Filo “Konishiki” . Começou por se chamar “Jerry and David's Guide to the World Wide Web” e tinha como objectivo gerir os interesses pessoais dos seus criadores na internet, uma vez que passavam a maior parte do tempo a gerir a lista de links dos favoritos do que a trabalhar na suas teses de doutoramento.
Rapidamente perceberam a utilidade da sua “invenção”: não só a facilidade de pesquisa de informações na WEB que procuravam, como a facilidade com que encontravam informação que não estavam à procura.
Yang e Filo, também perceberam que não eram os únicos a querer um local onde fosse possível encontrar todos os sites úteis. Os seus amigos começaram por espalhar a palavra, e no Outono de 1994 atingiram os cem mil utilizadores.
Por causa da aceitação e fluxo de informações do site, os fundadores perceberam que tinham um potencial negócio nas suas mãos. Em Março de 1995, um ano após o inicio do projecto, eles decidiram dedicar-se ao negócio a tempo inteiro, e fazendo uma parceria com a Sequoia Capital, no valor de dois milhões de dólares, contrataram 24 empregados. Em Abril de 1995, a forma como os consumidores encaravam a Internet mudou para sempre. No segundo semestre a empresa conseguiu um segundo investimento externo e em Abril de 1996 já contava com 49 trabalhadores.
Hoje a Yahoo! conta com cerca de 13.000 trabalhadores e tem escritórios em mais de 25 países.
Sendo que nos últimos anos a Yahoo! tem perdido a sua relevância no mercado (como tabela abaixo), esta neste momento a investir em novidades.
2010 |
Google |
Yahoo |
Bing |
Ask |
AOL Search |
Total |
2010-08-28 |
71.59% |
14.28% |
9.87% |
2.28% |
1.21% |
99.23% |
2010-07-31 |
71.43% |
14.43% |
9.86% |
2.32% |
1.19% |
99.23% |
2010-06-26 |
71.65% |
14.37% |
9.85% |
2.19% |
1.15% |
99.21% |
2010-05-22 |
72.00% |
14.58% |
9.20% |
2.18% |
1.06% |
99.02% |
2010-05-08 |
71.56% |
14.79% |
9.31% |
2.27% |
1.07% |
99.00% |
2010-03-06 |
71.07% |
14.46% |
9.55% |
3.01% |
0.98% |
99.07% |
2010-02-06 |
71.35% |
14.60% |
9.56% |
2.55% |
1.06% |
99.12% |
2010-01-02 |
72.25% |
14.83% |
8.91% |
2.53% |
0.77% |
99.29% |
A Yahoo! apresentou em Março de 2011 um novo sistema que classifica como "o futuro da pesquisa" e afirma ser o "mais rápido alguma vez visto". Para isso, combina a apresentação instantânea de resultados - apresentação de resultados à medida que são digitados os termos a pesquisar - com "respostas" instantâneas. Segundo este conceito, o consumidor quando faz uma pesquisa, procura respostas e não links.
A Yahoo! define-se como “empresa líder na área de comunicações, comércio e media na Internet” e, com isso, tem conseguido ficar de algum modo fora de uma disputa que reúne gigantes como o Google e a Microsoft, que lutam pelo predomínio no segmento de busca à imposição da plataforma onde se dará o desenvolvimento da próxima geração da Web.
Desde o início, a Yahoo! sempre se viu como uma plataforma de media, como disse várias vezes Jerry Yang, co-fundador da empresa.
Talvez uma das razões pelas quais o Yahoo não chame tanto a atenção quanto o Google se deva ao facto de que é difícil classificá-lo. Ele compete com o Google no segmento de busca, mas possui um pequeno grupo de outros activos, como o Hot Jobs, um site de empregos; o Yahoo 360, dedicado aos blogs e comunidades; além de uma rede comercial composta por grandes e pequenos negócios.
Outra frente de batalha em que o Yahoo aparece de modo discreto é o desenvolvimento da próxima geração da world wide web, mais conhecida como “Web 2.0”, uma referência às tentativas de construir uma plataforma de computação baseada na web com serviços de fácil criação e que substituirá o que o software de desktop faz hoje.
Whitehouse diz que o futuro desenvolvimento da web depende em grande parte de quais APIs (programas de interface) se tornarão padrão. Os APIs são uma série de rotinas, protocolos e ferramentas para a construção de aplicativos de software. “Uma das razões pelas quais a Microsoft preocupa-se tanto com o Google tem a ver com a batalha pelo controle dos APIs no desenvolvimento futuro da web”, observa Whitehouse. “Se o Google tornar-se a plataforma para o desenvolvimento da web 2.0, atingirá o coração da vantagem histórica da Microsoft.”
O que há de interessante em relação à disputa pelos APIs é que enquanto o Google atrai a maior parte da atenção, outras empresas como a Amazon e a Salesforce.com já dispõem de APIs próprios para agilizar o desenvolvimento dos seus serviços na web. Mas o Yahoo também começa a entrar nessa corrida.
A empresa, por exemplo, inovou com o Flash, da Macromedia, aplicando-o a seus serviços de mapas; também adquiriu o Flickr, um site que permite aos seus usuários anexar e compartilhar fotos entre grupos. “O Yahoo tem condições de costurar tudo isso em um conjunto abrangente de serviços”, observa Whitehouse. “Esse tipo de coisa pode acabar colocando o Yahoo na linha de frente dos serviços online.”
Sabe o que quer dizer Yahoo! ? “ Yet Another Hierarchical Officious Oracle”
Como curiosidade : Yahoo é uma criatura mítica das aventuras de Gulliver.
* Nome: Serviço de Apontadores Portugueses Online – SAPO
* Data de Nascimento: 4 de Setembro de 1995
* Local de Nascimento: Universidade de Aveiro
* Pais: 6 Jovens da Equipa do Centro de Informática da Universidade de Aveiro
* Morada: www.sapo.pt
Actualmente, a empresa é detida a 100% pela PTM.com
O SAPO XL integra os conteúdos de banda larga de várias empresas dos grupos Portugal Telecom e PT Multimédia, como o SAPO, Telepac, Lusomundo e TV Cabo Portugal e de alguns parceiros estratégicos, como a SIC, Sportinveste Multimédia, a Disney e o Grupo Renascença.
Mais recentemente o SAPO lançou um novo site denominado SAPO Vídeos, ainda na fase BETA, idêntico ao famoso YouTube e onde, além de qualquer pessoa poder colocar os seus vídeos online, pode também ver televisão em directo, não só os canais que se disponiblizavam no SAPO XL do grupo SIC (SIC, SIC Notícias, SIC Mulher, SIC Radical) mas também muitos canais que só é possível ver pela Internet como a TVNET e a Guimarães TV. É possível visualizar também os vídeos que a RTP e a SIC disponibilizam nos seus canais, todos os golos da liga portuguesa e uma série exclusiva: "T2 para 3" que está a fazer um enorme sucesso, sobretudo entre a população mais jovem.
Segundo o próprio site :
O que é a Pesquisa SAPO?
A Pesquisa SAPO é um avançado motor de busca através do qual pode facilmente encontrar a informação que pretende, mediante a utilização dos vários filtros existentes.
Como posso pesquisar?
Para que o SAPO encontre a informação pretendida, o utilizador deve especificar palavras-chave (keywords). Por exemplo: "desporto"; "jornais" e "educação" podem ser palavras-chave.
A Pesquisa SAPO disponibiliza 3 tipos de filtros para a pesquisa:
- Páginas de Portugal: apresenta apenas páginas em português de Portugal;
- Em língua portuguesa: apresenta páginas em Português, quer sejam portuguesas, brasileiras, …
- Toda a Web: apresenta todos os resultados da web, sem qualquer restrição linguística
Se escrever uma palavra sem acento o motor de busca reconhece a palavra na mesma?
O SAPO faz algum tratamento às palavras-chave que introduz, pelo que não há distinção entre maiúsculas ou minúsculas e o uso de acentuação é indiferente. Ou seja, "Educação" é o mesmo que "EdUcacao" ou "educacao". Tipicamente, as palavras-chave são introduzidas em minúsculas e sem acentuação
Considerações Finais
Uma empresa utiliza boa parte de seu tempo na recuperação de informação para se manter à frente dos seus concorrentes, e os utilizadores usam a informação para melhorar o seu conhecimento sobre assuntos do seu interesse.
A facilidade de acesso às informações, deve-se em grande parte, ao desenvolvimento das plataformas de pesquisa. Porém, a informação não existe sozinha: exige dedicação dos seus criadores e principalmente da compreensão de todos, e essa é a maneira aumentar a qualidade da informação.
Quanto mais cresce o volume de informação oferecida, maior a necessidade de organização, que padronize e simplifique o processo de classificação de forma global e coerente.
Este trabalho procurou apresentar uma visão geral sobre a seriedade que se deve ter no entendimento e conhecimento, com a importância de se organizar os dados, de forma a trazer informações importantes e precisas para uma decisão.
Com o continuo avanço das tecnologias e o seu amadurecimento, espera-se que, cada vez mais, essa integração colectiva e as ferramentas de tomada de decisão sejam incorporadas, juntamente com processos mais coesos.
A Internet veio tornar mais urgente a resolução da questão da busca de informação, e com os "novos" motores de busca, este problema foi ultrapassado, permitindo o acesso a todas a informações mesmo quando não sabemos muito bem o que procuramos.
Bibliografia
Anón, Como funciona o motor de pesquisa Sapo. Available at: http://www.softinmotion.pt/faq/optimizacao-sites-internet/optimizacao-sites-5.aspx [Acedido Novembro 24, 2011a].
Anón, Como funciona um motor de busca? Available at: http://www.portalwebmarketing.com/MotoresdeBusca/como_funciona_um_motor_de_busca/tabid/435/Default.aspx [Acedido Novembro 24, 2011b].
Anón, Ficheiro:Three biggest web search engines.svg – Wikipédia, a enciclopédia livre. Available at: http://pt.wikipedia.org/wiki/Ficheiro:Three_biggest_web_search_engines.svg [Acedido Novembro 24, 2011c].
Anón, Funcionamento de um motor de busca. Available at: http://visibilidade.net/tutorial/funcionamento-motor-busca.html [Acedido Novembro 24, 2011d].
Anón, Microsoft Offers to Buy Yahoo for $44.6 Billion (Update11) - Bloomberg. Available at: http://www.bloomberg.com/apps/news?pid=newsarchive&sid=aLsamJL6qUQY&refer=news [Acedido Novembro 24, 2011e].
Anón, Motor de busca – Wikipédia, a enciclopédia livre. Available at: http://pt.wikipedia.org/wiki/Motor_de_busca [Acedido Novembro 24, 2011f].
Anón, Mundo SAPO. Available at: http://mundo.sapo.pt/artigos/2007/03/06/hist_ria_do_sapo/index.html [Acedido Novembro 24, 2011g].
Anón, Perspectivas em Ciência da Informação - Information retrieval systems and search engines on the web: present and forecast. Available at: http://www.scielo.br/scielo.php?pid=S1413-99362006000200002&script=sci_arttext [Acedido Novembro 24, 2011h].
Anón, Recuperação de informação – Wikipédia, a enciclopédia livre. Available at: http://pt.wikipedia.org/wiki/Recupera%C3%A7%C3%A3o_de_informa%C3%A7%C3%A3o [Acedido Novembro 24, 2011i].
Anón, Sistemas de Informação Distribuídos/SID na Web/Recuperação de Informação em SID - Wikilivros. Available at: http://pt.wikibooks.org/wiki/Sistemas_de_Informa%C3%A7%C3%A3o_Distribu%C3%ADdos/SID_na_Web/Recupera%C3%A7%C3%A3o_de_Informa%C3%A7%C3%A3o_em_SID#Booleano [Acedido Novembro 24, 2011j].
Anón, The Google Story - YouTube. Available at: http://www.youtube.com/watch?v=EjN5avRvApk&feature=player_embedded [Acedido Novembro 24, 2011k].
Anón, WebBase : A repository of web pages. Available at: http://www9.org/w9cdrom/296/296.html [Acedido Novembro 24, 2011l].
Anón, Yahoo! – Wikipédia, a enciclopédia livre. Available at: http://pt.wikipedia.org/wiki/Yahoo! [Acedido Novembro 24, 2011m].
Anón, Yahoo! Media Relations. Available at: http://docs.yahoo.com/info/misc/history.html [Acedido Novembro 24, 2011n].
Anón, Yahoo! Messenger release history - Wikipedia, the free encyclopedia. Available at: http://en.wikipedia.org/wiki/Yahoo!_Messenger_release_history [Acedido Novembro 24, 2011o].
Anón, An Executive Intro to Ontologies » AI3:::Adaptive Information. Available at: http://www.mkbergman.com/900/an-executive-intro-to-ontologies/ [Acedido Novembro 28, 2011a].
Anón, DataGramaZero - Revista de Ciência da Informação - Artigo 04. Available at: http://www.dgz.org.br/abr06/Art_04.htm [Acedido Novembro 28, 2011b].
Apresentação
Download Apresentação
Grupo
moc.liamg|agiev.anasus#atsitaB anasuS
moc.liamg|67raran#seugirdoR nosleN
moc.liamg|96onurb#oriebiR onurB
Este trabalho deve ser citado como:
Batista, Susana; Rodrigues, Nelson e Ribeiro, Bruno (2011). Sistemas de Recuperação de Informação. Trabalho da disciplina de Seminário de Sistemas e Tecnologias da Informação I. Universidade Atlântica, Portugal. Disponível em http://ssti1-1112.wikidot.com/sistemas-de-recuperacao-de-informacao. Acedido em (data do dia de acesso).
Perguntas sobre o trabalho
- Explique quais são os sub-sistemas que estão incluídos em um sistema de recuperação de informação.
Os subsistemas identificados são : Entrada , Saída e Avaliação
Cada subsistema é composto pelas seguintes fases
- Entrada : Selecção e Aquisição , Descrição e Representação, Organização de Arquivos e Armazenagem
- Selecção e Aquisição : Processo de escolha dos documentos através de processo de selecção aquisição e descarte dos documentos
- Descrição e Representação : Produzir registos descritivos do documento com vista a destacar as características do mesmo
- Organização de Arquivos : Representar a colecção de Documentos (Aspectos físicos, estruturais, lógicos e arranjo)
- Armazenagem : Fornecer a sua localização física
- Saída : Análise das Questões, Estratégia de Busca/ Recuperação, Disseminação/ Acesso ao Documento
- Análise das Questões : Necessidade do Utilizador vs a questão da busca
- Estratégia de Busca/ Recuperação : Agilizar o processo de recuperação de informação e articular os termos da questão do utilizador com o SRI
- Disseminação/ Acesso ao Documento : Disponibilização ao utilizador dos resultados disponíveis para a sua questão
- Avaliação : Níveis de Avaliação
- Eficácia
- Custo Beneficio
- Precisão
- Explique a integração das ontologias com os sistemas de recuperação de informação.
Segundo Frederico Luiz Gonçalves de Freitas
A falta de mecanismos capazes de captar a semântica do conteúdo das páginas daWeb criou uma forte demanda de serviços que se ajusta adequadamente à classe de serviços estudada em Inteligência Artificial, que passou a ser vista como uma alternativa bastante factível para um melhor tratamento dos problemas relacionados à manipulação de informação na Internet. Basicamente, dois tipos de solução foram propostos, que não são mutuamente exclusivas:
• Dotar os sistemas de inteligência e autonomia para percorrer e seleccionar informação relevante na imensidão da rede, deduzindo ou aprendendo quais as informações úteis. Esta metáfora contribuiu para cunhar termos como agentes inteligentes, agentes de informação e manipulação cooperativa de informação [Oates et al 94].
• Dotar a própria Internet de inteligência, fazendo com que as páginas possuam uma semântica clara e definida. e que agentes possam raciocinar sobre esta semântica. Essa ideia deu origem ao que chamamos de Web Semântica.
Com efeito, as ontologias – especificação dos conceitos de um determinado domínio e suas relações, restrições e axiomas, definidos de forma declarativa - representam um papel fundamental em ambas as soluções.
No primeiro caso, as ontologias servem como ferramenta para organização, reuso e disseminação de conhecimento já especificado, facilitando a construção de novos agentes. Porém, para este tipo de solução, as ontologias desempenham um papel ainda mais importante, que motivou a retomada de pesquisas sobre o tema: servir como vocabulário de comunicação entre agentes inteligentes.
No segundo caso, linguagens estão sendo desenvolvidas para permitir que páginas sejam anotadas usando formalismos lógicos, que, por sua vez, possam definir ou instanciar ontologias.