Autor: Daniel Gomes (link:http://xldb.fc.ul.pt/daniel)

Resumo:
A Web foi idealizada como um meio de comunicação rápido mas tem vindo progressivamente a substituir a imprensa como meio privilegiado de publicação. Cada vez existem mais publicações que são exclusivamente disseminadas através da Web. É importante preservar este conhecimento para que possa vir a ser útil no futuro.

A Web como ferramenta de conhecimento

O conhecimento humano é construído incrementalmente. As gerações actuais preservam conhecimento para que as futuras o possam assimilar e melhorar. Ao longo da evolução humana, várias ferramentas foram criadas para que este processo se tornasse mais eficiente. A escrita permitiu que o conhecimento passasse a ser registado, a imprensa permitiu que se tornasse reprodutível e a Web que se tornasse acessível à escala mundial.

A força crescente do acesso aberto ao conhecimento científico é um forte contributo para o progresso do conhecimento humano e tem ganho força crescente graças também às capacidades da Web. Os autores publicam versões não finais dos artigos nas suas páginas pessoais, as publicações científicas dependem menos das editoras porque publicam online, os blogs e fóruns são pontos de encontro e debate entre investigadores.

Embora a Ciência evolua cada vez mais depressa, é um facto que o conhecimento científico pode demorar anos até ser útil à sociedade. Os artigos publicados por John Nash entre 1950-1953 foram aplicados em Economia durante a década de 1990 e valeram-lhe nesta altura um prémio Nobel. Os esboços de Leonardo da Vinci, que hoje provavelmente teriam sido publicados num blog, inspiraram 5 séculos mais tarde as invenções do helicóptero e do tanque de guerra.

A Web é efémera

Contudo, a Web padece de um problema grave como meio de publicação e disseminação de conhecimento: a informação nela publicada é extremamente efémera. 50% dos endereços disponíveis hoje, tornam-se indisponíveis passados apenas 2 meses (link: http://portal.acm.org/citation.cfm?id=1145623), 80% dos conteúdos são alterados ou desaparecem passado 1 ano (link: http://portal.acm.org/citation.cfm?id=988674).

Mesmo as publicações científicas impressas sofrem os efeitos da volatilidade da Web porque frequentemente citam conteúdos que deixaram de estar online. Spinellis visitou endereços extraídos de artigos científicos publicados pela ACM e IEEE e verificou que passado 1 ano, 20% estavam inválidos (link: http://www.spinellis.gr/pubs/jrnl/2003-CACM-URLcite/html/urlcite.html). Passados 4 anos este número subia para 50%.

O arquivo da Web além de contribuir para preservar conhecimento científico e histórico, permite também que cidadãos comuns mantenham as suas memórias enquanto indivíduos. Todos os dias as pessoas tiram fotografias e partilham-nas na Web. Contudo, os cuidados mais elementares para a preservação desta informação, como copiar as fotografias para um disco, raramente são tomados. No futuro, muitas pessoas terão dificuldade em mostrar retratos das suas memórias ou famílias.

Preservar hoje, Saber amanhã

A publicação na Web quebrou barreiras económicas e geográficas ao conhecimento, mas a natureza efémera da Web poderá fazer com que se quebre o acesso ao próprio conhecimento. Cabe-nos a responsabilidade de fazer com que a informação publicada online permaneça acessível para a gerações futuras.

O Arquivo da Web Portuguesa é um projecto da Fundação para a Computação Científica Nacional que visa arquivar e preservar conteúdos da Web relevantes para a comunidade portuguesa. Este projecto destaca-se por ter desenvolvido um serviço de pesquisa textual sobre conteúdos do passado, disponível experimentalmente em http://www.arquivo.pt.