Arquivo.pt: uma viagem pela Web portuguesa que premeia projectos inovadores

Preservar a informação na Web portuguesa para futura memória e investigação é o principal objectivo do Arquivo.pt. Para se mostrar a utilidade deste projecto, lança-se a segunda edição do seu prémio.

Fotogaleria
João Gomes, director da Área de Serviços Avançados da Fundação para a Computação Científica Nacional Nuno Ferreira Santos
Fotogaleria
Actualmente, o Arquivo.pt tem mais de 5500 milhões de ficheiros Nuno Ferreira Santos
Fotogaleria
Este serviço tem 14 milhões de websites Nuno Ferreira Santos
Fotogaleria
O Arquivo pode ser útil para jornalistas, para investigadores de várias áreas ou para curiosos Nuno Ferreira Santos
Fotogaleria
Oficialmente, o Arquivo.pt foi criado em 2008 Nuno Ferreira Santos

Há um endereço que lhe permite viajar pela Web portuguesa até 1996: o Arquivo.pt. Nesse regresso ao passado, pode ter como destino o primeiro portal de conteúdos da Web portuguesa, a página das eleições presidenciais de 1996 ou até mesmo o site do PÚBLICO. Agora, para que esta viagem pelo tempo possa ser feita por um público cada vez mais alargado, lança-se a segunda edição de um concurso que premeia projectos que mostrem a utilidade e importância deste serviço. As inscrições do Prémio Arquivo.pt 2019 estão abertas até 3 de Maio e os valores dos prémios vão até dez mil euros.

“O Arquivo.pt é um serviço público que visa preservar a informação da Web portuguesa para consulta futura”, começa por explicar João Gomes, director da Área de Serviços Avançados da Fundação para a Computação Científica Nacional (FCCN), uma unidade da Fundação para a Ciência e a Tecnologia. “Temos páginas preservadas desde 1996 e é possível ir a sites da Web desde essas datas e navegar neles. Não há só uma fotografia do site, pode-se navegar neles como estavam aquando da sua recolha.”

Para que isso aconteça, basta pesquisar no motor “à la Google” do Arquivo.pt. Depois, pode encontrar conteúdo que já só existe neste serviço como a página da Expo-98, a do Euro 2004 e de outros sites que já foram desligados. “A Internet é gigantesca e todos os dias surgem domínios novos. Só em Portugal há mais de um milhão de domínios em .pt. Como deixou de ser possível uma só entidade [a Internet Archive, organização internacional sem fins lucrativos] fazer a recolha, há uma entidade em cada país que faz essa recolha”, justifica João Gomes sobre a necessidade deste projecto. “Se não fizéssemos esta recolha, dentro de dez anos não se poderia ver o que estava no portal da Presidência da República, do Governo ou dos meios de comunicação social.”

Oficialmente, o Arquivo.pt iniciou-se em Janeiro de 2008. Mas a ideia de um arquivo da Web portuguesa surgiu ainda em 2001 com o projecto científico tumba!, de um grupo de investigação da Faculdade de Ciências da Universidade de Lisboa. Foi em 2007 que o arquivo da Web portuguesa passou a ser desenvolvido na FCCN.

Desde 2008 que a equipa – agora com cinco pessoas e com recurso a 85 servidores – faz quatro recolhas anuais completas da Web portuguesa, assim como recolhas temáticas como quando há eleições ou mudanças de Governo. “Varremos tudo o que é .pt e de todos os outros domínios em que há páginas de Portugal. E, todos os dias, fazemos uma recolha de 300 sites que são considerados importantes para a preservação do património informacional português [entre eles a edição online do PÚBLICO, que foi criada em 1995]”, conta João Gomes, acrescentando que as recolhas só ficam disponíveis um ano depois para não “competirem” com o tráfego dos sites.

Verificação de factos

Além da recolha, há colecções de conteúdos da Web portuguesa que contribuem para o Arquivo.pt. Uma das colecções vem do projecto mundial Internet Archive, que tinha recolhas da Web portuguesa entre 1996 e 2008. Outras pertenciam ao deputado José Magalhães – que tinha um CD-ROM com conteúdos da Web portuguesa em 1996 – ou à Biblioteca Nacional, que tinha conteúdos arquivados em 2005 a propósito do projecto Recolha. O Arquivo.pt está sempre interessado em conteúdos já não disponíveis na Web e aceita colecções.

PÚBLICO -
Foto
Actualmente, trabalham cinco pessoas no Arquivo.pt e há 85 servidores Nuno Ferreira Santos

Actualmente, o Arquivo.pt tem mais de 5500 milhões de ficheiros, 14 milhões de websites e atingiu os 174 mil utilizadores anuais no ano passado (mais 74% do que em 2017). E estima-se que tenha um custo anual de 250 mil euros (suportado pelo Orçamento do Estado), que inclui contratos de manutenção de hardware, recursos humanos ou licenciamento de software.

Este serviço pode ser útil para jornalistas (para saber o que um político disse no passado ou servir como base para verificação de factos, ou fact checking), investigadores de várias áreas (para analisar como se escrevia na Web há 20 anos, por exemplo) ou para o público em geral (que tenha curiosidade em fazer uma viagem no tempo). “No fundo, o Arquivo.pt é o notariado da Web, que recolhe um site como estava num determinado tempo. No Google só se pode aceder a coisas que estão online, se forem desligadas ou rescritas já não se pode.”

Quanto às limitações do arquivo (e sobre conteúdos que não chegaram a ser recolhidos), João Gomes diz que os maiores problemas são o armazenamento – a Web está sempre a crescer –, conseguir ter um motor de busca mais rápido para os utilizadores ou a falta de recursos humanos e tecnológicos.

Para mostrar a utilidade do projecto, criou-se então em 2018 o Prémio Arquivo.pt, que tem na edição de 2019 o alto patrocínio da Presidência da República. “Destina-se a fomentar trabalhos inovadores com base na informação preservada no Arquivo.pt”, refere João Gomes. Os trabalhos têm de ser feitos em português e podem participar pessoas a nível individual ou em grupo de Portugal ou de fora do país. O primeiro prémio tem o valor de dez mil euros, o segundo de três mil euros e o terceiro de dois mil.

PÚBLICO -
Foto
Primeiro registo do PÚBLICO no Arquivo.pt, com data de 1996. O jornal chegou à Internet um ano antes

Analisar fake news

O projecto Conta-me Histórias foi o grande vencedor da primeira edição do prémio. “É um sumarizador temporal”, resume Ricardo Campos, investigador no Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência (Inesc-Tec, no Porto),  docente no Instituto Politécnico de Tomar​ e um dos cinco autores desse projecto. Seleccionando 24 fontes de notícias nacionais a partir do Arquivo.pt, o Conta-me Histórias permite aos utilizadores criarem automaticamente uma narrativa das notícias.

A ideia surgiu depois de um extractor de palavras-chave desenvolvido pela equipa de Ricardo Campos ter sido premiado na Conferência Europeia de Recuperação de Informação em 2018, em França. Esse extractor chama-se YAKE! e, quando se insere um texto, destaca as palavras mais relevantes. “Achei que tínhamos potencial para adaptarmos isto ao Conta-me Histórias”, recorda o investigador, salientando que o projecto com o nome de uma música dos Xutos & Pontapés é uma homenagem à banda. “A ideia foi aplicar o extractor de palavras ao longo do tempo e oferecer ao utilizador um conjunto de títulos [de artigos] que são um pouco difíceis de aceder no Arquivo.pt.”

Experimentemos então o serviço do Conta-me Histórias: por exemplo, se quisermos pesquisar o processo da troika em Portugal, basta escrever no motor de busca “troika em Portugal” e temos uma narrativa desse processo desde 2010. “[Este serviço] conta-nos quais os melhores resultados num determinado período de tempo e não só os selecciona automaticamente como selecciona as notícias mais relevantes”, indica Ricardo Campos. “Desta forma, acaba por ser oferecida toda uma contextualização sobre o que foi a troika em Portugal.”

Ricardo Campos – que se identifica como “um verdadeiro consumidor de notícias” – considera que o Conta-me Histórias pode ser uma boa ferramenta para jornalistas ou para estudantes. “Pode ajudar a construir narrativas assentes em factos reais, o que de outra forma não se conseguiria aceder porque não existe na Web convencional.” Ao disponibilizar a interface gráfica e o pacote de programação, a equipa tornou o Conta-me Histórias disponível para toda a comunidade científica e adaptável a outros projectos.

Como o Conta-me Histórias é adaptável a outros conjuntos de dados, a equipa já ultrapassou as fronteiras do Arquivo.pt. Por exemplo, aplicou este serviço num conjunto de um milhão de notícias maioritariamente da agência Reuters publicadas em Setembro de 2015 e disponibilizadas pela empresa Signal Media (do Reino Unido), bem como a um conjunto de publicações do Facebook. Ricardo Campos vai testá-lo ainda num conjunto de textos sobre alterações climáticas para um projecto de investigadores da Suíça.

No futuro, a equipa também quer usar este serviço para analisar informações falsas – as conhecidas fake news. “Queríamos ver se as notícias estão de facto enviesadas, se são pró ou contra certos pontos de vista e tentar perceber isso automaticamente”, explica Ricardo Campos, indicando que isto seria feito com os dados do Conta-me Histórias, que já teve um artigo científico aceite na Conferência Europeia de Recuperação de Informação deste ano, em Abril na Alemanha. A sua equipa está agora a organizar um workshop sobre a construção de narrativas a partir da análise de textos para essa conferência.

Sobre os restantes galardoados com o Prémio Arquivo.pt, o segundo classificado fez um enquadramento do conceito de “homossexualidade” em 20 anos no jornal Expresso. Já o terceiro desenvolveu a aplicação Arquivo de Opinião, que disponibiliza um repositório de artigos de opinião entre 2008 e 2016 dos principais meios de comunicação em Portugal.

Memorial da Web portuguesa

Quanto ao Arquivo.pt, também tem continuado a evoluir. Em breve, haverá um portal de pesquisa de imagens. “As imagens já estão recolhidas, porque quando recolhemos páginas Web tiramos todos os elementos. Temos um portefólio de imagens brutal”, esclarece João Gomes.

Ainda em 2019, será lançado o serviço Memorial do Arquivo.pt, que quer fazer a preservação de alta qualidade de sites que já não são actualizados. “Existem websites que já não são actualizados com novos conteúdos, mas que têm de ser mantidos online porque disponibilizam informação importante, como os websites de projectos concluídos”, contextualiza João Gomes.

PÚBLICO -
Foto
Ainda este ano, será lançado o Memorial do Arquivo.pt, que quer dar uma preservação de alta qualidade de sites desactualizados Nuno Ferreira Santos

“O custo de manutenção destes sites aumenta com o passar do tempo devido à obsolescência das tecnologias que os suportam e que, muito frequentemente, causa vulnerabilidades perigosas de segurança”, refere, adiantando que há mesmo organizações que investem recursos significativos para manter estes sites ao longo do tempo.

Durante uma fase-piloto em 2018, já foram integrados dez sites no Memorial do Arquivo.pt. Esses sites ficaram com o domínio activo (por exemplo, www.umic.pt, da antiga Agência para a Sociedade do Conhecimento), mas depois é-se redireccionado para uma versão preservada desta página no Arquivo.pt. “Os responsáveis por este site deixaram de ter de manter a infra-estrutura que o suportava (como servidores, electricidade e sistema de gestão de conteúdos), passando a ter de manter apenas o domínio activo”, explica.

Neste regresso ao passado, se quisermos fazer uma viagem mais aprofundada pelo site do PÚBLICO, podemos ler a notícia do anúncio do Prémio Nobel da Literatura a José Saramago em 1998, recordar a cobertura da Expo-98 e das eleições legislativas de 1999. Ou até mesmo regressar à edição de 3 de Fevereiro de 2005, quando se fazia um balanço do número de mortes causadas pelo grande tsunami na Indonésia no final de 2004: “Uma nova actualização do número de vítimas causadas pelo maremoto que no dia 26 de Dezembro devastou parte do Sudeste asiático aponta para mais de 234 mil mortes. Cerca de três mil turistas europeus continuam desaparecidos.” Tínhamos assistido ao poder devastador de um tsunami.