Criada uma ferramenta para “desarquivar” ligações entre entidades

Este ano, o Prémio Arquivo.pt distinguiu uma ferramenta para encontrar ligações de entidades escondidas no conteúdo jornalístico português, uma extensão para pesquisa do serviço Arquivo.pt e ainda uma aplicação para explorar os preços do passado.

Foto
O serviço Arquivo.pt preserva milhões de páginas recolhidas da Web portuguesa Nuno Ferreira Santos

Miguel Ramalho criou uma ferramenta para “desarquivar” as ligações entre pessoas, organizações ou locais através de notícias dos últimos 20 anos, o Desarquivo. A ideia surgiu depois de ter visto alguns trabalhos relacionados com a investigação Luanda Leaks, que tentavam, com o recurso à tecnologia, analisar os mais de 700 mil documentos de forma a facilitar o trabalho dos jornalistas. A oportunidade certa para pôr a sua ideia em prática foi a participação no Prémio Arquivo.pt 2020 – um concurso que premeia projectos que mostrem a utilidade e importância do serviço Arquivo.pt, que preserva milhões de páginas recolhidas da Web portuguesa. “Peguei em grandes quantidades de documentos que, neste caso, foram notícia e tentei extrapolar para algo que fosse pesquisável e diferente do que é típico num motor de busca”, conta. Acabou por ser premiado com o primeiro prémio do concurso no valor de dez mil euros.

Esta é já a terceira edição do Prémio Arquivo.pt 2020. Além de Miguel Ramalho, o concurso premiou com o segundo lugar, no valor de três mil euros, uma extensão para este serviço criada por Rodrigo Marques e Hugo Silva. O terceiro lugar foi para Nuno Bragança, que desenvolveu uma aplicação na Internet onde se pode comparar preços desde o tempo do escudo português. Por ela, receberá dois mil euros. A menção honrosa – dedicada a trabalhos realizados com base nos conteúdos do PÚBLICO, que é parceiro mediático do projecto – foi atribuída a Bruno Galhardo, que fez um jogo sobre a data de notícias.

Os trabalhos foram avaliados por um júri composto por Miguel Fontes (director-executivo da Startup Lisboa), Helena Freitas (bióloga e professora da Universidade de Coimbra), Paulo Bastos (jornalista da TVI), Maria Beatriz Marques (professora da Universidade de Coimbra e doutorada em Letras na área de Ciências Documentais) e Teresa Firmino (editora da secção de Ciência do PÚBLICO). Os prémios serão entregues no Encontro Ciência 2020, no início de Novembro.

Ligações escondidas

Miguel Ramalho acabou de terminar o mestrado em Engenharia Informática e Computação na Faculdade de Engenharia da Universidade do Porto. Durante o confinamento causado pela pandemia, estava a trabalhar na sua tese e apeteceu-lhe “dar asas à imaginação e desconfinar mentalmente”. Já conhecia o Prémio Arquivo.pt e tinha recebido informação sobre ele em e-mails da faculdade. Juntou a isso à vontade de conjugar o que tinha visto na investigação Luanda Leaks com o que o Arquivo.pt podia dar e criou o Desarquivo.

Através deste projecto, pode explorar-se um grafo – ou seja, uma rede de ligações entre pessoas, organizações e locais –, que está escondido no conteúdo jornalístico português. Para isso, teve-se em consideração a análise de milhões de notícias dos principais jornais generalistas portugueses dos últimos 20 anos que estão no Arquivo.pt.

Foto
Exemplo de uma rede de ligações no Desarquivo DR

Ao aceder ao site do Desarquivo, há um menu do lado esquerdo. Aí podem procurar-se pessoas, locais ou organizações. Depois, podem explorar-se as ligações entre as opções escolhidas (que estão num nó circular). Pode ainda examinar-se a força das ligações entre as entidades escolhidas. No lado direito da página, há ainda a opção de ler as notícias onde se detectaram essas ligações.

Foto
Miguel Ramalho DR

“Ao pegarmos numa catrefada de notícias escritas nos últimos 20 anos, permite-nos ter uma noção do que foi acontecendo ao nível das entidades públicas e como se foram relacionando”, esclarece Miguel Ramalho, de 24 anos. Ao explorar as ligações entre as entidades, pode extrair-se algum conhecimento novo que não seria possível se apenas se procurassem notícias de forma tradicional.

Esta ferramenta é de acesso gratuito. Miguel Ramalho frisa mesmo que é objectivo é mesmo “democratizar o acesso a este tipo de ferramenta de pesquisa”. O Desarquivo poderá ser um bom contributo para os jornalistas, ao nível da investigação jornalística ou da verificação de factos. Aliás, Miguel Ramalho está interessado em dar continuidade a este projecto. “Possivelmente, no futuro, estou a pensar alterar a ferramenta para corresponder mais às necessidades dos jornalistas com os quais terei de falar. Nunca deixará de ter uma parte pública, mas queria ter algo mais útil e específico para os casos dos jornalistas.”

E já tem algumas melhorias que gostaria de fazer na ferramenta. Por exemplo, gostaria de criar a capacidade de pesquisa semântica, ou seja, que quando se pesquisasse um termo aparecessem entidades com o mesmo significado, mas com palavras diferentes. Também gostaria de eliminar entidades repetidas (por exemplo, Presidente Marcelo ou Professor Marcelo) ou ainda obter dados de outras fontes e expandir a ferramenta a outros contextos além do português.

No fundo, Miguel Ramalho diz que é um interessado em tecnologia e que vê nela muito valor para o jornalismo. “Há muitas coisas em que a tecnologia pode beneficiar [o jornalismo], que é algo que vejo como um esforço para a preservação da liberdade”, considera. E gostaria de desenvolver mais projectos nesta linha. “Tenho algumas ideias. É uma área em que não me importaria de trabalhar no futuro”, assume, referindo precisamente que a sua tese se foca na detecção de conteúdo político malicioso no Twitter.

Uma extensão para o Arquivo.pt

No início, Rodrigo Marques e Hugo Silva pensaram criar uma aplicação do serviço para aparelhos móveis, mas acabaram por saber que já existia. Surgiu então a ideia de fazerem uma extensão para se pesquisar conteúdo no Arquivo.pt. “Dá muito jeito porque torna a pesquisa mais rápida”, realça Rodrigo Marques.

Foto
Extensão do Arquivo.pt DR

Primeiro, tem de se instalar a extensão através da loja Chrome Web Store. Depois, aparece um ícone no canto superior direito no navegador. Ao carregar no ícone, as pessoas poderão depois fazer a sua pesquisa. Pode ser feita uma pesquisa simples, ou avançada, e tanto se podem procurar páginas e ficheiros como imagens guardadas no Arquivo.pt.

Foto
Rodrigo Marques DR
Foto
Hugo Silva DR

“A maior vantagem é mesmo poupar tempo e cliques. À primeira vista pode não parecer uma grande vantagem, mas para uma pessoa que use muito este tipo de recursos facilita muito e é menos maçador do que ir ao site e pesquisar. Assim é instantâneo”, explica Rodrigo Marques, indicando que pode ser usada por todos os que queiram aceder ao Arquivo.pt.

Juntamente com Hugo Silva, de 22 anos, e que terminou este ano a licenciatura em Engenharia Informática, Rodrigo Marques achou que participar neste concurso seria uma boa ideia, pois estava a desenvolver algo para um projecto português. Além disso, foi uma boa oportunidade para aprenderem a fazer uma extensão. “Vamo-nos mandar para a frente, pode ser que dê nalguma coisa”, recorda Rodrigo Marques de 23 anos, que frequenta a licenciatura de Engenharia Informática.

Comparar preços do passado

Nuno Bragança começou por ver trabalhos de vencedores de outras edições do Prémio Arquivo.pt e decidiu fazer algo diferente relacionado com economia para concorrer ao prémio. Assim nasceu o Arquivo Económico.pt. Para isso, recolheu dados de várias fontes do Arquivo.pt com preços, como páginas de supermercados ou de transportes.

A viagem pelos preços de outros tempos começa quando acede à página do Arquivo Económico.pt no computador, tablet ou telemóvel. Primeiro, tem de se seleccionar uma categoria (supermercados, transportes e diversos). Depois, pode escolher-se a data em que pretende aceder aos preços (entre 2004 e 2018) e seleccionar subcategorias. Aqui, vão encontrar-se os produtos que se pretende consultar e o seu preço correspondente.

Esta aplicação pode ser consultada por todos os que tiverem curiosidade em saber os preços do passado. Também pode ser um contributo para a investigação científica. “Os investigadores podem consultar algum objecto em particular quer seja para calcular a inflação quer seja para ver como evoluiu o preço de alguma matéria-prima que esteja na base de algum projecto de investigação”, indica Nuno Bragança, de 22 anos.

Foto
Nuno Bragança DR

Mas este projecto não ficará por aqui. Nuno Bragança está já a trabalhar num jogo de perguntas para testar a memória das pessoas e ver se conseguem adivinhar um preço de um certo produto. “É um projecto em que estou a trabalhar e vou incluir no mesmo website, numa outra secção”, esclarece. Outra das ideias é construir narrativas em vídeo de como o preço de algum produto subiu ou desceu.

Este é também um primeiro passo nesta área para Nuno Bragança, que terminou um mestrado em engenharia química e gostaria de seguir uma carreira em programação. Para isso, está a fazer cursos em ciência dos dados. “Achei que seria um projecto diferente e interessante para aprender mais sobre este ramo e sobre a análise de dados.”

Sugerir correcção