Ípsilon

Inteligência artificial

Obras pirateadas de Stephen King e Murakami usadas para treinar IA

Um arquivo com mais de 190 mil livros pirateados foi removido da Internet depois de uma denúncia de um grupo dinamarquês anti-pirataria. Estava a ser usado para treinar modelos de IA.

Karla Pequenino

22 de Agosto de 2023, 23:43

O Books3 incluía várias obras de Stephen King, entre outros autores, sem permissão Mike Segar

Ouça este artigo

00:00

04:01

Gostaria de ouvir? Assine já

A Internet perdeu uma das suas maiores fontes para treinar modelos de inteligência artificial (IA) – milhares de livros disponíveis gratuitamente na Internet. Pelo menos, temporariamente. A base de dados Books3, que incluía mais de 196 mil livros, foi removida da Internet este mês depois de uma denúncia da Rights Alliance, um grupo anti-pirataria na Dinamarca. Em causa está o facto de a colecção incluir livros pirateados e poder ser usada por gigantes tecnológicas para treinar modelos de inteligência artificial.

A notícia foi inicialmente avançada pelo site especializado TorrentFreak e confirmada pelo criador do arquivo, o norte-americano Shawn Presser, que vê o caso a prejudicar o desenvolvimento de ferramentas de IA por pequenas empresas. O objectivo do Books3, criado em 2020, não era ser usado por gigantes tecnológicas – a missão era dar aos internautas uma base de dados suficientemente grande para competir com gigantes online como a Google, a Microsoft e a OpenAI.

Segundo uma análise levada a cabo pela revista The Atlantic, a colecção incluía 196.640 obras, com livros de autores como Haruki Murakami, Margaret Atwood e Stephen King. Fazia parte de uma base de dados maior, compilada pelo grupo de investigação EleutherAI, para treinar modelos de linguagem.

“A retirada do Books3 é um passo importante”, resume a equipa da Rights Alliance, num comunicado sobre a remoção da biblioteca pirata da Internet. “Em primeiro lugar porque impede que o Books3 seja descarregado e utilizado para treinar novos serviços, mas também porque mostra claramente que os titulares de direitos não aceitam que cópias ilegais das suas obras sejam utilizadas para treinar IA.”

Shawn Presser não se arrepende de criar o Books3. “Teria todo o gosto em ir para a prisão durante 10 meses [pelo Books3]”, escreveu em tom de provocação na rede social X (o antigo Twitter), aludindo à sentença de prisão aplicada ao fundador do site de pirataria The Pirate Bay. Para Presser, o objectivo do Books3 sempre foi “promover a ciência”.

Bases de dados opacas

Regra geral, os grandes modelos de linguagem por detrás de ferramentas como o ChatGPT aprendem sobre o mundo através de gigantescas bases de dados opacas das quais se sabe muito pouco. A OpenAI, por exemplo, diz que a colecção que usou para treinar os seus modelos de linguagem inclui dois repositórios de livros misteriosos a que chama de Books1 e Books2. Estima-se que o Books2 seja composto por mais de 300 mil obras.

A versão de Presser, o Books3, estava aberto a todos, permitindo que qualquer pessoa consultasse o conteúdo. Ao longo do tempo, a colecção terá atraído tecnológicas como a Meta (dona do Facebook e do WhatsApp), motivando queixas de pirataria dos autores cujas obras estavam a ser usadas para treinar ferramentas de inteligência artificial sem crédito. A gigante de notícias Bloomberg também usou o Books3 para criar o modelo de linguagem BloombergGPT que ajuda os jornalistas a criar manchetes e analisar informação financeira.

A Meta ainda não comentou a remoção do Books3 da Internet. Já a Bloomberg admite ter usado o Books3, mas nota que não vai incluir o arquivo em futuras versões do seu modelo de linguagem.

Para Shawn Presser, não faz sentido remover bases de dados como o Books3, que vê como essenciais para criar ferramentas de IA independentes de gigantes tecnológicas. “A não ser que os autores [que acusam o Books3 de pirataria] pretendam, de alguma forma, tirar o ChatGPT do ar, ou processá-los até que deixem de existir, e então é crucial que nós possamos criar as nossas [próprias versões do] ChatGPT”, frisou Presser em declarações ao site Gizmodo.

A directora da Rights Alliance, Maria Fredenslund, garante que também está de olho na OpenAI. “Temos uma grande tarefa pela frente para detectar e eliminar conjuntos de dados de treino ilegais como o Books3, mas também para lidar com a IA que já foi treinada com conteúdos ilegais e que está agora a espalhar-se na Internet", prometeu Fredenslund, em comunicado.

Em Julho, milhares de escritores, incluindo a canadiana Margaret Atwood, assinaram uma carta aberta exigindo às empresas de IA que peçam autorização antes de incorporar trabalhos protegidos por direitos autorais nas suas tecnologias.

Comentários

Últimas publicações

Tópicos disponíveis

Escolha um dos seguintes tópicos para criar um grupo no Fórum Público.

Ao criar um novo grupo de discussão, tornar-se-à administrador e será responsável pela moderação desse grupo. Os jornalistas do PÚBLICO poderão sempre intervir.

Saiba mais sobre o Fórum Público.

Notificações

Ao activar esta opção, receberá um email sempre que forem feitas novas publicações neste grupo de discussão.

Erro

PÚBLICO

PÃšBLICO

Olá

Área de leitor

Fale connosco

Ípsilon

Obras pirateadas de Stephen King e Murakami usadas para treinar IA

Bases de dados opacas

Não há comentários

Não há comentários pendentes

Notificações

Em destaque

Edição impressa

17 de Maio de 2024

Opinião

Bases de dados opacas

Notificações

Em destaque

Edição impressa

17 de Maio de 2024

Opinião

Notificações bloqueadas

Gerir notificações

Gerir notificações

Notificações bloqueadas