Um arquivo com mais de 190 mil livros pirateados foi removido da Internet depois de uma denúncia de um grupo dinamarquês anti-pirataria. Estava a ser usado para treinar modelos de IA.

A Internet perdeu uma das suas maiores fontes para treinar modelos de inteligência artificial (IA) – milhares de livros disponíveis gratuitamente na Internet. Pelo menos, temporariamente. A base de dados Books3, que incluía mais de 196 mil livros, foi removida da Internet este mês depois de uma denúncia da Rights Alliance, um grupo anti-pirataria na Dinamarca. Em causa está o facto de a colecção incluir livros pirateados e poder ser usada por gigantes tecnológicas para treinar modelos de inteligência artificial.

A notícia foi inicialmente avançada pelo site especializado TorrentFreak e confirmada pelo criador do arquivo, o norte-americano Shawn Presser, que vê o caso a prejudicar o desenvolvimento de ferramentas de IA por pequenas empresas. O objectivo do Books3, criado em 2020, não era ser usado por gigantes tecnológicas – a missão era dar aos internautas uma base de dados suficientemente grande para competir com gigantes online como a Google, a Microsoft e a OpenAI.

Segundo uma análise levada a cabo pela revista The Atlantic, a colecção incluía 196.640 obras, com livros de autores como Haruki Murakami, Margaret Atwood e Stephen King. Fazia parte de uma base de dados maior, compilada pelo grupo de investigação EleutherAI, para treinar modelos de linguagem.

“A retirada do Books3 é um passo importante”, resume a equipa da Rights Alliance, num comunicado sobre a remoção da biblioteca pirata da Internet. “Em primeiro lugar porque impede que o Books3 seja descarregado e utilizado para treinar novos serviços, mas também porque mostra claramente que os titulares de direitos não aceitam que cópias ilegais das suas obras sejam utilizadas para treinar IA.”

Shawn Presser não se arrepende de criar o Books3. “Teria todo o gosto em ir para a prisão durante 10 meses [pelo Books3]”, escreveu em tom de provocação na rede social X (o antigo Twitter), aludindo à sentença de prisão aplicada ao fundador do site de pirataria The Pirate Bay. Para Presser, o objectivo do Books3 sempre foi “promover a ciência”.

Bases de dados opacas

Regra geral, os grandes modelos de linguagem por detrás de ferramentas como o ChatGPT aprendem sobre o mundo através de gigantescas bases de dados opacas das quais se sabe muito pouco. A OpenAI, por exemplo, diz que a colecção que usou para treinar os seus modelos de linguagem inclui dois repositórios de livros misteriosos a que chama de Books1 e Books2. Estima-se que o Books2 seja composto por mais de 300 mil obras.

A versão de Presser, o Books3, estava aberto a todos, permitindo que qualquer pessoa consultasse o conteúdo. Ao longo do tempo, a colecção terá atraído tecnológicas como a Meta (dona do Facebook e do WhatsApp), motivando queixas de pirataria dos autores cujas obras estavam a ser usadas para treinar ferramentas de inteligência artificial sem crédito. A gigante de notícias Bloomberg também usou o Books3 para criar o modelo de linguagem BloombergGPT que ajuda os jornalistas a criar manchetes e analisar informação financeira.

A Meta ainda não comentou a remoção do Books3 da Internet. Já a Bloomberg admite ter usado o Books3, mas nota que não vai incluir o arquivo em futuras versões do seu modelo de linguagem.

Para Shawn Presser, não faz sentido remover bases de dados como o Books3, que vê como essenciais para criar ferramentas de IA independentes de gigantes tecnológicas. “A não ser que os autores [que acusam o Books3 de pirataria] pretendam, de alguma forma, tirar o ChatGPT do ar, ou processá-los até que deixem de existir, e então é crucial que nós possamos criar as nossas [próprias versões do] ChatGPT”, frisou Presser em declarações ao site Gizmodo.

A directora da Rights Alliance, Maria Fredenslund, garante que também está de olho na OpenAI. “Temos uma grande tarefa pela frente para detectar e eliminar conjuntos de dados de treino ilegais como o Books3, mas também para lidar com a IA que já foi treinada com conteúdos ilegais e que está agora a espalhar-se na Internet", prometeu Fredenslund, em comunicado.

Em Julho, milhares de escritores, incluindo a canadiana Margaret Atwood, assinaram uma carta aberta exigindo às empresas de IA que peçam autorização antes de incorporar trabalhos protegidos por direitos autorais nas suas tecnologias.