Cap 6 Knowledge And Information Sharing
knowinfoshare.jpg

Fonte: http://olenaursu.wordpress.com/2011/10/14/seeing-a-bigger-part-of-the-knowledge-%E2%80%9Ciceberg%E2%80%9D/


6 Partilha de Conhecimento e de Informação

Tem-se verificado, a nível mundial, um grande esforço na compilação e partilha de conhecimento e informação, sendo as tecnologias semânticas como wikis (ex: Wikipedia) e bases de conhecimento (ex:DBpedia), ou ainda a bases de conhecimento comum (ex: Cyc) algumas das ferramentas utilizadas para tal. Estes exemplos são considerados como sendo uma das melhores formas de o conseguir.

Por outro lado, também se tem conseguido fazê-lo através da utilização de “partes” de conhecimento em sistemas de perguntas e respostas (que podem servir-se desde uma base de dados até à própria internet), acabando por potenciar uma maior aproximação às comunidades das wikis.

No entanto estima-se que a situação ideal se encontrará algures no meio deste dois tipos de sistema, através de um comedido controlo e moderação da abordagem através da semântica.

Sendo reconhecido o valor das wikis e das bases de conhecimento no papel de partilha de conhecimento e de informação, maior eficácia poderia ser obtida com a adopção por parte das comunidades utilizadoras deste tipo de ferramentas uma abordagem baseada em perguntas e respostas.

6.1 Wikis

Sendo uma ferramenta do conhecimento geral, as wikis são websites compostos por várias páginas ligadas entre si através de links. São também difinidos por permitirem a edição do seu conteúdo através do mesmo interface (web browsers, p/ex.) utilizado na sua pesquisa.

O facto de permitir a sua edição de forma muito simples, acaba por incentivar a contribuição e colaboração por toda a comunidade, com utilizadores a criarem e editarem as suas próprias páginas, podendo também editar ou em alguns casos até apagar as páginas ou conteúdos de terceiros, tendo sempre como pressupostos a cooperação, a verificação e a aprovação dessas alterações por uma comunidade crente na partilha de ideias.

São ferramentas que podem ser utilizadas como recurso de informação, como manuais, enciclopédias online, repositórios de livros, organização de eventos, pesquisa de papers, propostas para projectos e até, desenvolvimento de software.

Existem ainda wikis pessoais restringidas apenas ao próprio desktop, normalmente utilizadas para gestão de informação pessoal , caracterizadas pela sua simplicidade, com a WikiPad, a Tomboy e a VoodooPad a serem das mais conhecidas.

A WikiWikiWeb foi a primeira wiki fundada por Ward Cunningham, em Maio de 1995, e o seu nome é proveniente do termo Havaiano wiki, que significa “rápido” e “depressa”.

Pelo seu conceito, acaba por se distinguir dos blogs devido à sua natureza de partilha de propriedade e autores, ao contrário do verificado em blogs, onde existe apenas um grupo mais restrito ou até uma única pessoa autora dessa mesma informação.

A sua utilização no mundo empresarial surge com uma das principais ferramentas colaborativas nas suas intranets, sendo utilizada na pesquisa de projectos, propostas, papers, coordenação de reuniões, etc… No entanto, poderá chocar com barreiras hierárquicas, devido á facilidade de edição e ausência de workflows, devendo ser adoptadas medidas de precaução aquando na adopção de uma ferramenta com estas características.

Existem várias propostas para wikis, MediaWiki (utilizado nos sites da familia Wikipedia), Eugen Eric Kim's PurpleWiki, Alex Schröder's OddMuse, Wikipad, apresentando cada um características que contribuem para a sua diferenciação. Estas devem-se principalmente ao tipo de linguagem utilizada no seu desenvolvimento (Java, PHP, Python, Perl, Ruby, etc.) e no tipo de base de dados (MySQL, ficheiros soltos, etc…), se permitem o carregamento de ficheiros, RSS feeds, controlo no acesso às páginas, entre outras características.

Na sua maior parte, são gratis e open source e correm na maior parte dos sistemas operativos.

6.1.1 A Wikipedia

Consiste num projecto com uma quantidade superior a 250 wikis distintas e em várias linguagens, com a linguagem inglesa a mais utilizada.

A sua edição é possivel a qualquer artigo já existente, podendo-se também consultar o histórico das edições no caso de ser necessário voltar a uma versão anterior para correcção por parte da comunidade devido a edição errónea ou propositadamente incorrecta.

Não existe nenhuma hierarquia predefinida na comunidade da maioria das wikis, sendo os seus conteúdos regulados de forma democrática, com o recurso a fóruns de discussão sobre determinados assuntos a servirem de exemplo.

O facto de muitas pessoas serem levadas a contribuir com o seu conhecimento e a sua participação nas wikis pode ser associado a algum comportamento egocentrico, devido à necessidade em demonstrarem aos restantes que sabem, e ao mesmo tempo de saberem o quanto contribuíram na comunidade.

Assim como a Wikipedia, também a Wikimedia Foundation tem uma familia de sitios na web, como o Wiktionary e o Wikibooks, este último a apresentar também anotações de textos.

6.1.2 Wikis Semânticas

As Wikis têm vindo a evoluir de simples editores em páginas web para wikis semânticas, com funções de sistemas de anotação mais sofisticados, sendo que o ideal estará algures na possibilidade de se poderem obter algumas estruturas e anotações, mas com alguma moderação, de modo a não desencorajar os utilisadores a fornecerem este tipo de semântica.

Deverá ser incentivada a procura de medidas que visem a redução do tempo necessário para treino de utilização deste tipo de ferramenta, bem como na recompensa pela contribuição de markup semantico (ex: visibilidade do utilizador, re-utilização por terceiros, contribuição, etc…).

Através de utilização de templates para melhor estruturação dos metadados, será possível uma melhor procura, gestão e reutilização de informação.

Normalmente, essas anotações são desenhadas para criarem instâncias de ontologias derivadas de determinado domínio e das propriedades relacionadas, sejam ontologias explicitas ou que surgem com a utilização da própria wiki. Outras wikis utilizam anotações semânticas para fornecimento de metadados mais avançados acerca de outras páginas da wiki. No entanto, ambas as opções podem ser combinadas, de modo a fornecer uma capacidade de representação de informação mais avançada.

Uma wiki semântica deve assentar sobre um modelo baseado no conhecimento contido nas suas páginas, permitindo a captura e a identificação de mais informação sobre as suas páginas – metadados, e do modo de como se relacionam, e deverá estar disponível numa linguagem formal, como RDFS ou OWL, de modo a possibilitar alguma interpretação por parte das próprias máquinas.

Algumas wikis têm a capacidade de proporcionar inline queryring, com a pesquisa associada a determinados assuntos a surgirem na própria página ou ainda de relacionamento de termos obtidos por foaf.

6.1.2.1 MediaWiki Semântica

A MediaWiki semântica consiste em permitir a ligação entre páginas e atribui dados relacionados às mesmas passa existir uma estrutura entendida pelas maquinas . Por exemplo, "José Saramago" relaciona-se com a sua editora «Caminho», por sua vez com outros escritores da mesma editora e/ou da mesma data de nascimento e assim sucessivamente. Ora num sistema de páginas wiki comum tais links não estão disponíveis. Os atributos semânticos da palavra procurada permitem uma pesquisa sintáctica, sendo esta sintaxe traduzida para anotações de RDF quando a página é guardada. Para além disto, as categorias da página são utilizadas para modelar as instâncias relacionadas que se criarem á posteriori. Ontologicamente, as anotações são uma ferramenta que pretende esquematizar as instâncias/ocorrências, tornando não só os links entre anotações mais explícitos mas também as relações entre as páginas wiki, bem como construir pontes de documentos para hyperlinks para conceitos e relações.

Este sistema de anotações é livre e aberto estando dependente da responsabilidade do comportamento do utilizador.

- A heterogeneidade dos links resultantes do conteúdo pesquisado, ou seja, cada um tem a sua forma de procurar, por exemplo, um livro, procurando um pelo título do livro, outro pelo nome do autor e respectivo título.Obviamente as duas formas de pesquisa resultarão em diferentes links e é esta heterogeneidade que se pretende evitar por exemplo no IkeWiki ou UFOWiki, quando se dá assistência ao utilizador na criação de anotações.

6.2.1.2 Ontowiki

A Ontowiki é uma wiki semântica desenvolvida pelo grupo de investigação AKSW na Universidade de Leipzig que funciona como uma aplicação de distribuição de conhecimento e como um editor de texto ontológico.A vantagem da Ontowiki é basear-se em mecanismos de informação estruturada em vez de ter por base a sintaxe ou os marcadores. Apresenta a informação em forma de mapa com diferentes vistas sobre os dados da instância e mantém um controlo sobre o acesso das pessoas aos conteúdos tendo páginas de discussão mas desabilitando por exemplo marcadores de popularidade. A linguagem utilizada é RDF e baseia-se em MySQL e PHP.

6.1.3 DBPedia

É importante sublinhar que a DBPedia embora não seja uma wiki por si, permite exportar dados RDF da Wikipedia e pode ser vista como uma das altas componentes do PROJECTO Linking Open Data. Foi criada a partir da exportação das infoboxes nas diversas línguas da Wikipedia ligando-as umas ás outras. Ou seja, articulando artigos da Wikipedia a DBPedia define URL´s para muitos conceitos para que as pessoas os possam utilizar nas suas próprias anotações. As vantagens da DBPedia é estar disponível para download gratuito e fornecer um SPARQL. SPARQL é um tipo de pesquisa que atravessa várias fontes de dados quer os dados estejam armazenados originalmente como RDF ou não, incluindo também padrões grafológicos ou padrões RDF. Também existe a DBPedia Mobile que consiste num interface de mapas, funcionando por sugestões geograficamente localizadas.

6.1.4 A reputação na Semântica baseada na Wikipédia

Enquanto plataforma global neutra e independente para a qual todos podemos contribuir, a Wikipédia poderia de facto servir de sistema de reputação aberto. No entanto, quem contribui para os artigos não tem assim tanta visibilidade ou pelo menos quem sabe mais sobre determinado tópico, o chamado expert, não tem a notoriedade que lhe compete. Já se tentou que esta reputação fosse estabelecida por exemplo com o Naymz, contudo a reputação nestes sites depende da regularidade com que o autor publica e normalmente as pessoas mais esclarecidas estão limitadas em termos de tempo. Uma das soluções para este "problema" é dar mais ênfase às páginas de discussão fazendo sobressair o autor das melhores opiniões para a alteração de um determinado tópico, por exemplo. Se incluirmos microconteúdos nas páginas tais como microformatos RDF resolvemos duas situações em primeiro lugar, a Wikipédia torna-se uma plataforma mais pesquisável em termos motivacionais uma vez que é a reputação de cada um que está também em causa; em segundo lugar, a Wikipédia beneficia avançando na Semântica Web, resolvendo esta questão de quem é ou não motivado para contribuir para a semântica e porquê. Esta informação pode também potenciar serviços como o QDOS de Garlik.

6.2 Outros serviços de conhecimento ao nível da Semântica

O Twine da Radar Network ou o Arquivo da Internet, a Freebase ou os espaços Open Link Data são serviços de conhecimento que beneficiam da utilização das tecnologias semânticas.

6.2.1 TWINE

O serviço Twine permite às pessoas partilhar o que sabem e o que possa ser pensado enquanto aplicação de rede de conhecimentos que disponibiliza a partilha, a organização e a pesquisa de informação com utilizadores de confiança. O Twine tem uma série de novas e úteis funções que o elevam acima das plataformas sociais com as quais tem sido comparado:permite a escolha de tipos de items de personalização e a sua anexação a um endereço de correio electrónico, personalizando-o, por exemplo. O interesse no Twine são estes items. Enquanto o Facebook é usado para gerir as relações sociais e o Linkedin as profissionais, o Twine é usado para gerir as próprias relações.Com uma ligação Twine pode-se partilhar conhecimentos, efectuar a gestão de informação em grupos ou comunidades gerir as mesmas em função dos próprios interesses colaborando com os outros.As suas actividades fundamentais são organizar, partilhar e descobrir. De acordo com Spivak, segredo está precisamente em tudo ser gerado a partir de uma ontologia em que todos os elementos, até o interface do utilizador, barras laterais, barra de navegação, botões, etc., provêm de uma ontologia aplicação-definição. Esta ontologia personalizada não se limita a ontologias internas, estando a Radar em vias de iniciar o processo de união com as ontologias externas. A expectativa é a de que as pessoas criem as suas próprias ontologias decorrendo do facto da comunidade Twine ter ontologias mais extensíveis.

O Twine desempenha o processamento de texto natural de uma linguagem, permitindo a codificação automática, estando presentemente a utilizar apenas uma parte das suas capacidades semânticas; a pesquisa Twine tem capacidades semânticas, ou seja, os marcadores podem ser filtrados por relação a empresas, ou pessoas podem ser filtradas com relação ao lugar de onde são. Não se trata de indexar toda a Web mas muito trabalho de investigação está por detrás do Twine.

O Twine pretende massificar-se alcançando o utilizador comum através de um interface simples e acessível, de modo a que uma pessoa que não perceba nada de dados estruturados ou de codificação automática possa, em segundos, perceber como usá-lo, ou seja, o público-alvo do Twine é em primeiro lugar o indivíduo.

Quando os grupos começarem a usar o Twine, a inteligência colectiva surge através de outras pessoas que procuram material, items, que testam, comentam, etc.É um tipo de conhecimento comunitário, no entanto restrito e privado em 60% das suas actividades. Portanto, a privacidade e a segurança são tidos em consideração e integradas nas estruturas de dados do Twine.Desde que o Twine abandonou a versão Beta que o SEO aumentou a visibilidade dos seus conteúdos.

O Twine desenvolve-se em Java, PostGreSQL, e WebDAV. Uma vez que as bases de dados não estão optimizadas para dados semânticos, estas têm sido armazenadas no Twine e tiveram que sofrer ajustes. O Twine usa uma tuple store de oito elementos (sujeito-predicado-objecto, proveniência, marca de tempo, valor de confidencialidade, e outras estatísticas acerca do próprio item). A inferência de predicados pode ser estabelecida através de declarações de privacidade.

Em termos inter-operacionais, o Twine interage por exemplo com o Amazon.com, o Outlook, o Exchange e o FreeBase. Os dados semânticos obtém-se em RDF no Twine para reutilização noutro sítio, adicionando-os ao final de cada URL Twine. Uma plataforma destas requer um mecanismo de detecção de duplicação de conteúdos.

Os twines pretendem ser fortemente atractivos para as pessoas mais do que quaisquer marcadores sociais presentemente o são. O próximo passo da Radar são os patrocínios.

O desejável é, no fundo, que as aplicações da Semântica Web sejam usadas por leigos construindo aplicações que implicam Semântica Web sem terem que para isso saber programar.

6.22 – O Arquivo da Internet

É um local onde são armazenados todos os tipos de dados que circulam na internet.

Dados esses que vão desde os livros electrónicos (ebooks), páginas web aos conteudos de video e som. Este tipo de conteudos podem ser vistos e revistos por milhares de utilizadores, votando e marcando de modo a serem partilhados por outros utilizadores.

Devido ao grande volume de dados e aos vários tipos, existem enormes vantagens da utilização de semântica e interligação entre os conteudos. As aplicações de Web Semântica para aceder e pesquisar informações no Arquivo da Internet, podem ajudar as pessoas a lidar com a enorme quantidade de informação nos sites.

Segundo Brewster Kahle, co-fundador do Arquivo da Internet, um livro tem 1MB de tamanho, desta forma a Biblioteca do Congresso dos EUA, que tem cerca de 26 milhões de livros, corresponde a 26 TB de espaço de armazenamento. A digitalização de um livro custa $30, ficando cada página a 10 cêntimos.

Até à data já foram digitalizados cerca de 250.000 livros. Contudo, maior parte das pessoas continuam a gostar de ter livros em papel, desta forma começaram a surgir os livros digitais com a possibilidade de serem impressos, pois assim a impressão do mesmo fica no valor de $1.

O Arquivo da Internet tem 100.000 ficheiros em 100 colecções, sendo o custo da digitalização de um disco de som apenas $10.

No que diz respeito aos videos, existem cerca de 55.000 videos em 100 colecções, sendo maior parte, peças de teatro e provenientes da India. O custo da digitalização de video é de $15 por hora.

Existem alguns obstáculos relaccionados com a disponibilização online de audio e video, obstáculo esse que diz respeito aos direitos de autores. O método de negócio do Arquivo da Internet é garantir o armazenamento ilimitado, largura de banda ilimitada, para sempre, e gratuitamente em troca da renuncia a quaisquer questões de direitos reservados.

Em 1996, surgiu a WayBack Machine, que consiste num arquivo especifico de páginas Web. Tirando um snapshot de cada página acessivel através da internet, chegando aos dias de hoje com cerca de 2 PB de armazenamento de mais de 100 biliões de páginas.

O objectivo é permitir aos utilizadores recuperarem as suas páginas, dados e informações quando for necessário.


6.2.3 – Powerset

É uma empresa que está a implementar tecnologias de Web Semântica com o uso de linguagem natural, de modo a facilitar o método das pessoas acederem ao conhecimento e informação.

O primeiro produto desta empresa foi a pesquisa semântica para a Wikipedia, o que levou a Microsoft a adquirir a Powerset em 2008.

Barney Pell, director técnico da Powerset, acredita que a linguagem natural pode ajudar à realização da Web Semântica. De um lado, podem ser criadas anotações de um texto não-estruturado, gerando ontologias mapeadas e ligadas entre si. Por outro lado, a linguagem natural pode ser “alimentada” pela Web Semântica expondo o seu conteudo como resposta a perguntas efectuadas em linguagem natural.

O objectivo da Powerset é permitir às pessoas interagir com a informação e serviços de forma natural e o mais eficaz possivel, combinando a linguagem natural e a tecnologia de pesquisa escalável.

Como exemplo do funcionamento da linguagem natural: quando é efectuada a pesquisa por “Sir Edward Heath morreu de quê?”, o sistema analisa cada frase/palavra, extrai entidades e relações semânticas, identifica e amplia para entidades semelhantes, relações e abstracções. E de seguida indexa mutiplos factos para cada frase. Sendo que a informação pode surgir de váiras fontes.


6.2.4 – OpenLink Data Spaces

“ODS” é uma plataforma de colaboração comercial que aproveita vocabulários populares da Web Semântica. ODS SPARQL fornece o acesso a dados de uma instância semântica de aplicativos ODS, ou seja, blogs, wikis , feeds, bookmarks, etc.

Existe, por exemplo, o MyOpenLink.net que é um serviço baseado em ODS, que pode expor dados de instância semântica para clientes do serviço de consulta SPARQL.

O ODS expõe todos os seus dados na forma de gráficos RDF reais ou virtuais.


6.2.5 – Freebase

Iniciou em 2007, pela Metaweb Technologies de San Francisco. Fundada por Danny Hills e Robert Cook, recebendo $60 milhoes de financiamento.

A Metaweb descreveu a Freebase como sendo uma “enorme base de dados colaborativa e editável de dados interligados”, e pretendia que se torna-se na “Base de dados do Mundo, com toda a informação do Mundo”.

Actualmente, a Freebase incorpora principalmentedados criados pela comunidade combinando com dados importados de repositórios abertos. Como por exemplo, a Wikipedia e a MusicBrainz.
Contudo, possivelmente possa começar a ser usado ambientes comerciais ou proprietários, de modo a gerar receitas pelo fornecimento do serviço.

A Freebase organiza os seus dados e categorias de dados com base em ontologias, ao que chamam de “Freebase Types”, que é baseado num modelo de gráfico.

Qualquer utilizador pode alterar/criar os seus próprios tipos e as propriedades associadas, podendo estas alterações serem adoptadas pelos Administradores.


Análise Critica

Por muito atractivo que possa ser este conceito de partilha de informação e conhecimento através da utilização de ferramentas como as wikis, o risco disseminação de informação proveniente de fontes não credibilizadas torna-se cada vez maior. Torna-se cada vez mais difícil certificar a veracidade da informação existente, seja pela facilidade de edição proporcionada, seja pela impossível capacidade em acompanhar o fluxo correspondente a toda a informação que é continuamente inserida e ou editada, e de certo modo realizar algum tipo de controlo de qualidade sobre a mesma.

A utilização em meios empresariais também pode ter algumas contrapartidas, pois pode expôr o nível de conhecimento de determinado utilizador, o que poderá não ser inteiramente do agrado do mesmo. Por outro lado, corre-se o risco de se inserir informação incompleta, ou até mesmo resistência à utilização da própria ferramenta, com o propósito de os utilizadores defenderem a sua posição ou estatuto dentro da empresa através da detenção do conhecimento correspondente a determinada matéria.

No que corresponde a wikis semânticas, efectivamente urge a necessidade de se trabalhar um pouco mais o tipo de sintaxe necessária para contribuir para uma wiki semântica. Os utilizadores mais comuns poderão considerar demasiado incómoda a utilização deste tipo de sintaxe, acabando por não contribuir tanto como poderiam inicialmente fazer. Também deverá ser cuidadosa a utilização deste conceito, sob pena de desvirtualizar o assunto inicial com ligações a outros assuntos que, apesar de partilharem terminologias, podem-se vir a verificar como estando descontextualizados, o que poderá originar alguma descrença em relação ao seu propósito original.

O conceito do Arquivo de Internet é essencial nos dias de hoje, contudo o facto de serem armazenados milhares de dados torna a capacidade de armazenamento cada vez maior. E como é referido neste capitulo, por exemplo, maior parte dos dados de video e audio sao provenientes da India ou até mesmo peças de teatro. A meu ver este tipo de conteudos não tem tanta importancia comparando com filmes ou mesmo musicas internacionais, não querendo pagar direitos de autores o conteudo armazenado não tem tanta “riqueza”, logo não terá tanta procura.

No que diz respeito ao Powerset, esta variante da Web Semântica parece ser o ideal para efectuar uma pesquisa em qualquer base de dados, contudo nem sempre será tão linear implementar este tipo de tecnologia, pois nem todos os conteudos são questionaveis, ou seja, continua a existir pessoas que não sabem como pesquisar ou mesmo o que pretendem questionar.

A plataforma Open Link Data limita-se a mostrar/expor informação de outros sites, ou seja, em vez de o utilizador ir directamente à Wikipedia, acedendo a esta plataforma, a mesma irá sugerir o site da Wiki. É uma plataforma de concorrência ao Google, que por variados motivos muito dificilmente irá sobrepor-se à Google.

O conceito inicial da Free Base até parecia ser o ideal, contudo nunca iria ser possivel. Pois no mundo em que vivemos existe e sempre irá existir competitividade, desta forma não poderia existir apenas uma “base de dados Mundial”.
Na interpretação dos autores desta análise, a Metaweb tem a filosofia das comunidades FreeSoftware: Tudo livre e gratuito - O que nos dias de hoje é impossivel.


Diogo Gonçalves
Jorge Alves
Paulo Ribeiro
Pedro Cardoso
Rui Silva

Este trabalho deve ser citado como:
Gonçalves, Diogo; Alves, Jorge; Ribeiro, Paulo; Cardoso, Pedro e Silva, Rui (2012). Resumo de Knowledge And Information Sharing. Trabalho da disciplina de Seminário de Sistemas e Tecnologias da Informação I. Universidade Atlântica, Portugal. Disponível em http://ssti1-1112.wikidot.com/cap-6-knowledge-and-information-sharing