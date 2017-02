A Wikipédia e a Alphabet, a empresa-mãe do Google, uniram-se na missão de desintoxicar a Internet de comentários ofensivos. O objectivo é criar um programa informático, dotado de inteligência artificial, que consiga moderar grandes comunidades na Internet com a mesma subtileza e precisão que um ser humano.

PUB

“As pessoas falam cada vez mais através da Internet, logo os debates sobre temas importantes e difíceis estão também a acontecer online. Mas, em vez de discursos produtivos, a maioria das discussões online estão consumidos por ondas de comentários tóxicos e insultuosos,” justifica um dos investigadores do projecto, Nithum Thain, em declarações ao PÚBLICO. Thain faz parte da equipa do Google Jigsaw, uma empresa subsidiária da Alphabet que se encarrega de resolver problemas globais através de soluções tecnológicas. Segundo o investigador, a crescente toxicidade na Internet está por detrás do encerramento de fóruns, como aconteceu recentemente com os comentários no IMDb, uma base de dados de filmes e séries: "Queremos perceber o fenómeno e construir ferramentas que permitam inverter a situação". O IMDb justificou a medida com o facto de as pessoas usarem as redes sociais para comentar, e não os sistemas de cada site.

A primeira parte do projecto de investigação, chamado DeTox, foi divulgada nesta terça-feira: trata-se de uma lista de 13.500 comentários ofensivos, obtida através da análise manual de 115 mil mensagens publicadas nas páginas de discussão da Wikipédia, onde os editores do site devem discutir como melhorar os artigos e páginas publicados. Os dados estão a ser utilizados para treinar um programa informático a perceber no que consiste uma ofensa escrita na Internet. “Através da informação recolhida via crowdsourcing [através de voluntários], conseguimos desenvolver um algoritmo que consegue analisar cada novo comentário à medida que este entra nas páginas de conversa da Wikipedia para ver se este se trata de um ataque pessoal a outro utilizador,” explica Thain.

PUB

“Embaraçosamente pouco inteligente” e “pobre, miserável e solitário” são alguns dos exemplos na lista tornada pública que poderiam ser ignorados por um programa de moderação de comentários em uso actualmente. Segundo os investigadores, esses programas nem sempre conseguem distinguir as subtilezas que tornam um comentário ofensivo se este não incluir palavrões.

Apostar na criação de um processo automatizado que seja mais requintado é mais economicamente viável do que contratar grandes equipas de moderadores humanos. “Técnicas manuais para identificar linguagem abusiva tipicamente incluem anotar e analisar milhares de comentários, contudo grandes plataformas de discussão na Internet têm ordens de magnitude muito superiores,” explica a equipa da Wikipedia no relatório de apresentação do projecto.

Só na versão em inglês da Wikipédia, existem 63 milhões de páginas dedicadas ao debate da edição da enciclopédia livre. Os investigadores dizem que o algoritmo informático que criaram consegue fazer um trabalho minucioso equivalente ao de três moderadores humanos.

“Estamos muito interessados em estender a tecnologia que estamos a desenvolver a outras línguas, e estamos a procurar formas de reunir bases de dados adequadas para poder treinar o programa informático a operar noutros idiomas,” diz Thain.

O melhor do Público no email Subscreva gratuitamente as newsletters e receba o melhor da actualidade e os trabalhos mais profundos do Público. Subscrever ×

Contudo, há também algum cepticismo sobre o projecto. De acordo com Ellery Wulczyn, uma das investigadoras da Fundação Wikimedia (a organização não-lucrativa por detrás da Wikipédia), os utilizadores na Internet podem reagir aos novos programas de moderação mais desenvolvidos ao editar a forma como utilizam linguagem abusiva e ofensiva de modo a evitar a detecção.

Os resultados da investigação do projecto DeTox serão apresentados na 26ª conferência World Wide Web, que tem lugar em Perth, na Austrália entre os dias 3 e 7 de Abril.

Texto editado por João Pedro Pereira

PUB