Torne-se perito

Cientistas defendem instituição para arquivar a Web portuguesa

Artigo sobre criação de arquivos digitais premiado em conferência internacional

É preciso criar um arquivo das páginas Web portuguesas, feito por uma instituição dedicada e com funcionários permanentes - a ideia é de um grupo de investigadores da Faculdade de Ciências de Lisboa. Mário Silva, docente naquela faculdade, Daniel Gomes, aluno de doutoramento, e Sérgio Freitas, aluno de mestrado, lançaram no ano passado um protótipo de arquivo da Web portuguesa, mas defendem agora a necessidade de dar o próximo passo e criar um sistema oficial.Chamado Tomba, o protótipo desenvolvido armazena as páginas Web indexadas pelo Tumba (sigla de Temos Um Motor de Busca Alternativo), um motor de pesquisa dedicado a conteúdos nacionais e lançado em 2001 pelos mesmos investigadores. O Tomba (disponível em http://tomba.tumba.pt/ ) permite visualizar várias versões antigas de sites portugueses e conta já com cerca de 57 milhões de documentos, num total de 1,5 milhões de megabytes.
Toda a informação, e o software desenvolvido para encontrar e armazenar os ficheiros, está alojada em computadores da Fundação para a Computação Científica Nacional. Mas a capacidade de armazenamento está esgotada.
Para Mário Silva, as exigências técnicas e humanas deste serviço fazem com que deva ter lugar fora do âmbito da investigação universitária: "Um arquivo da Web tem que ser feito de forma institucional, como se faz com a Biblioteca Nacional ou a Torre do Tombo. São instituições com edifícios próprios e funcionários permanentes." Só assim, argumenta, será possível criar uma infra-estrutura para manter "durante décadas" e "transformar o actual protótipo num sistema funcional."
É papel das universidades inovar e criar o primeiro arquivo, diz, mas não podem ser os cientistas - sem pagamento e em paralelo com a actividade de investigação - a mantê-lo.

Desafios técnicosO armazenamento das páginas Web de cada país é uma questão "de importância histórica e também sociológica", observa Mário Silva. A Austrália e os países nórdicos, por exemplo, estão a investir na criação de instituições nacionais para a preservação dos seus conteúdos on-line. Nos EUA, o Internet Archive conta com vários apoios, incluíndo da Biblioteca do Congresso, para criar um gigantesco arquivo de toda a Web.
Fazer arquivos de um determinado país é, contudo, uma tarefa com muitos desafios, garante Daniel Gomes. Por um lado, operações "aparentemente simples", como a transferência de ficheiros, tornam-se complexas pela grande quantidade de dados envolvida. Por outro, é preciso desenvolver aplicações capazes de seleccionar, sem intervenção humana, os sites a armazenar.
"Estes problemas de processamento da informação são problemas da comunidade científica em geral", diz Daniel Gomes. É uma questão com que cientistas de muitos países ainda se debatem.
O artigo onde os três investigadores descrevem o método usado no Tomba para distinguir os sites portugueses dos de outros países foi premiado em Setembro, na Conferência Europeia sobre Investigação e Tecnologia Avançada para Bibliotecas Digitais, como o melhor artigo científico escrito por um jovem investigador.
O Tomba considera como portugueses todos os sites de língua portuguesa, com o domínio .pt ou que tenham uma ligação a partir de um site com esse domínio. O sistema tem falhas, admite Daniel Gomes (há, por exemplo, a possibilidade de incluir sites brasileiros). Mas o método é eficaz o suficiente para garantir um armazenamento de uma parte significativa da Web portuguesa, diz, sem sobrecarregar de trabalho os computadores responsáveis por processar a informação.
Outro problema técnico associado a esta tarefa é o facto de as tecnologias usadas nos próprios sites poderem tornar-se obsoletas. Algumas páginas foram construídas para funcionar em browsers que caíram em desuso e há ficheiros que só podem ser abertos com programas que já não existem, explica Mário Silva: "O grande desafio é navegar como em 1991 [ano em que a WWW veio a público], mas a Web tem evoluído muito e a nossa preocupação é ter os conteúdos armazenados para que possam ser vistos daqui a 50 anos."

Sugerir correcção