Arquivo.pt: “Daqui a 50 anos, a Internet vai ajudar a contar a história da covid-19”

O Arquivo.pt está a guardar jornais online, sites do Governo, blogues e artigos de opinião para ajudar a contar a história da covid-19.

arquivo,ciencia-tecnologia,internet,media,ciencia,suecia,
Fotogaleria
A informação nos servidores do Arquivo.pt vai permitir navegar no passado da covid-19 Reuters/sergio perez
arquivo,ciencia-tecnologia,internet,media,ciencia,suecia,
Fotogaleria
Actualmente, há 77 servidores no Arquivo.pt Nuno Ferreira Santos
arquivo,ciencia-tecnologia,internet,media,ciencia,suecia,
Fotogaleria
Há 12 anos que a equipa faz recolhas temáticas quando há eleições Nuno Ferreira Santos
arquivo,ciencia-tecnologia,internet,media,ciencia,suecia,
Fotogaleria
Após um ano, apenas 20% de um conjunto de endereços online se mantêm válidos. Nuno Ferreira Santos

Futuros académicos, cientistas e jornalistas que estejam a estudar a resposta portuguesa à pandemia da covid-19 vão querer ler testemunhos em primeira mão de quem foi afectado, registos oficiais do número de vítimas, e recomendações dos médicos, políticos e cientistas da época. Grande parte da história está a ser escrita na Internet e guardada pelo Arquivo.pt, um serviço público que desde 2008 preserva milhões de páginas recolhidas da Web portuguesa para consulta futura. É desenvolvido pela Fundação para a Computação Científica Nacional (FCCN), uma unidade da Fundação para a Ciência e a Tecnologia.

“Estamos a arquivar diariamente páginas de 106 sites com informação específica sobre o impacto da covid-19 na vida em Portugal”, explica ao PÚBLICO João Gomes, director da Área de Serviços Avançados da FCCN e coordenador do Arquivo.pt. O objectivo é garantir que a informação não se perde.” De acordo com a equipa, após um ano, apenas 20% de um conjunto de endereços online se mantêm válidos. A homepage de um jornal online, por exemplo, muda diariamente.

“Daqui a 50 anos, a Internet vai ajudar a contar a história da covid-19”, continua João Gomes. “É sempre tentador reescrever a história, mas com este repositório vai ser possível voltar atrás e ver como as pessoas pensaram durante o período da pandemia.”

O foco tem sido guardar as páginas dos meios de comunicação social com secções dedicadas à covid-19, informação oficial do Governo (como actualizações no site da Direcção-Geral da Saúde e destaques no site do Governo), blogues sobre as experiências das pessoas durante o isolamento social e sites que estão muito activos.

Foto
João Gomes, director da Área de Serviços Avançados da FCCN Nuno Ferreira Santos

A colecção final, disponível para consulta em 2021, vai permitir, por exemplo, ver a forma como informação sobre o primeiro estado de emergência declarado em Portugal durante a pandemia, a 18 de Março, mudou entre os dias 17 e 19 de Março de 2020, quando a medida entrou em vigor, através da análise de notícias publicadas em diferentes jornais nacionais.

“Portugal foi rápido o suficiente a reagir? Como é que a opinião dos portugueses mudou desde Janeiro, quando o vírus parecia estar só na China? Quais os países com as medidas mais eficazes? Até quando é que se achou que máscaras não faziam a diferença?”, enumera João Gomes. “São perguntas deste tipo que queremos explorar.”

Esforço mundial

Portugal não é o único país a preservar o seu arquivo digital. O Consórcio Internacional de Preservação da Internet (IIPC), com parceiros de 45 países, incluindo o Arquivo.pt, está a coordenar uma colecção de conteúdo digital publicado desde Fevereiro sobre o novo coronavírus. À data, já há mais de 5150 páginas preservadas na colecção.

Foto
Exemplo de páginas sobre a covid-19 guardadas na colecção do IIPC Archive-IT

“O propósito destas colecções é obviamente manter um registo dos eventos e do seu impacto, e poder comparar diferentes pontos de vista no futuro”, explicou ao PÚBLICO Marie Payet, porta-voz da Biblioteca Nacional Francesa (BnF), que também está a colaborar com o IIPC e começou a arquivar sites sobre a pandemia no final de Janeiro.

Embora a maioria dos países tenha imposto medidas de isolamento social para travar a propagação da covid-19, há excepções. A Suécia tem optado por uma abordagem de “responsabilização individual, ao manter escolas, bares, e restaurantes abertos com algumas limitações. Já os Presidentes do Brasil, Nicarágua, Bielorrússia e Turquemenistão têm desvalorizado a pandemia para proteger o sector económico.

Um dos benefícios de recolher diferentes versões de um mesmo site, em dias diferentes, é perceber a forma como o conhecimento evolui. “Hoje em dia, as publicações online são o principal canal de disseminação de informação de última hora, juntamente com a televisão e a rádio, enquanto que versões impressas, por exemplo jornais, são uma espécie de resumo de tudo aquilo que já foi lido e debatido”, disse ao PÚBLICO Pär Nilsson, responsável pela colecção digital da Biblioteca Nacional da Suécia.

Foto
O Arquivo.pt usa 77 servidores para guardar toda a informação Nuno Ferreira Santos

Portugal é dos que mais contribui

Até agora, Portugal tem sido dos países que mais contribuíram para o arquivo do IIPC. Depois de sites que acabam em .com, o domínio de topo português (.pt) é o mais comum na colecção. “Somos um dos maiores contribuidores do mundo, porque o nosso sistema é gerido por uma equipa de tecnólogos. Todo os países têm os seus arquivos online, mas alguns são difíceis de navegar e aceder”, justifica João Gomes.

Por exemplo, para aceder aos arquivos da Web em alemão é preciso usar um computador numa biblioteca em Frankfurt ou Leipzig. Em causa, estão visões diferentes sobre a privacidade e direitos de autor. Além disso, tirando casos pontuais, como em Portugal ou no Japão, a responsabilidade dos arquivos recai sobre as bibliotecas nacionais dos diferentes países que nem sempre têm o conhecimento técnico para gerir alguns destes arquivos.

A informação recolhida não se pode limitar a meras cópias de ecrã, normalmente designadas de print-screen. “Queremos que as pessoas naveguem num site, da mesma forma que as navegariam na altura em que foi criado. Vendo sites, abrindo hiperligações”, explica Daniel Gomes, gestor do arquivo português. Uma das ferramentas usadas pelo Arquivo.pt é o Pywb, uma espécie de “gravador de Web” para Phython, uma linguagem de programação. “Além de recolher sites, é preciso criar formas de indexar a informação para que seja fácil de encontrar. Por exemplo, ao procurar ‘gripe’ no Arquivo.pt quero que um site com ‘gripe’ no título apareça primeiro que um site com 10% de ‘gripe’ no texto.”

Foto
Novembro 2012, no Público. Dá para interagir nas páginas preservadas

Fora dos sites recolhidos diariamente sobre a covid-19, há 12 anos que a equipa portuguesa — que actualmente tem seis pessoas e 77 servidores — faz três a quatro recolhas anuais completas da Web portuguesa, assim como recolhas temáticas em épocas de eleições. A informação, que inclui páginas até 1996, é guardada no edifício na FCCN, em Lisboa, com backups no Porto e nos EUA.

Ainda assim, não se consegue preservar tudo. “Um dos grandes desafios é o Facebook que é utilizado por um número crescente de políticos e instituições públicas”, partilha Daniel Gomes. Como é preciso ser-se um utilizador do site para ver algumas páginas, a rede social faz um esforço considerável para impedir a informação de ser recolhida. “Há um risco de que muita informação não possa ser preservada. Nas últimas eleições autárquicas, cerca de 38% dos candidatos não tinham site, só páginas no Facebook”, lembra o gestor do arquivo.

Para mostrar a utilidade da preservação digital, nos últimos dois anos, a organização portuguesa tem promovido o Prémio Arquivo.pt. A aplicação móvel O Meu Parlamento, que mostra propostas legislativas feitas em plenário nos últimos dez anos, foi o vencedor de 2019. Outros trabalhos premiados incluem um enquadramento do conceito de homossexualidade em 20 anos de publicação do jornal Expresso, e uma análise de 217 notícias publicadas online sobre violência doméstica.

As candidaturas da edição de 2020 estão abertas até dia 4 de Maio. Como este ano o PÚBLICO é um dos parceiros do projecto, haverá uma menção honrosa para trabalhos realizados com base nos conteúdos do jornal guardados no arquivo.

A colecção de páginas Web sobre a covid-19 apenas deverá ser disponibilizada no próximo ano. “Actualmente, quem está a pesquisar sobre o tema ainda pode utilizar o Google”, justifica João Gomes. “Só depois de algum tempo, pelo menos um ano, é que o arquivo é relevante para pesquisar informação que já não está disponível ou pode ter sido alterada. Nem tudo o que vai para a Internet é para sempre.”

Sugerir correcção
Comentar