SÃO PAULO, SP (FOLHAPRESS) – Alvos de processos na Justiça dos Estados Unidos, pelo menos três empresas de inteligência artificial americanas usaram livros de Clarice Lispector, Chico Buarque, Paulo Coelho e outros autores brasileiros para treinar seus modelos de inteligência artificial sem pedir autorização, sem pagar por isso –e apelando a cópias piratas disponíveis na internet.
As empresas são a Meta, que usou as obras para treinar o modelo LLaMa; a Anthropic, que fez o mesmo no desenvolvimento do chatbot Claude; e a Microsoft, no treino do Megatron-Turing. As três companhias usaram uma base de dados chamada Books3, que reúne quase 200 mil cópias ilegais de livros.
Procuradas, Meta, Anthropic e Microsoft disseram que não iam comentar o caso. As empresas de IA americanas têm argumentado que pegar livros para desenvolver chatbots é “uso justo”, quando não é preciso pagar; elas defendem que os robôs não reproduzem conteúdo das obras e sim entregam algo transformado, como um humano faria. Elas também pleiteiam uma leitura dos direitos autorais mais permissiva, que não freie a inovação no setor.
A Folha fez o download dos metadados da Books3 e encontrou 109 obras, de 31 autores brasileiros, em sete idiomas. Além de Clarice, Chico e Paulo Coelho, também há livros de Raduan Nassar, Jorge Amado e Rubem Fonseca, além de autores contemporâneos como Daniel Galera e Bernardo Carvalho.
A reportagem baixou a base de dados da plataforma Hugging Face. Em seguida, confirmou a integridade da cópia com informações fornecidas em relatório pela EleutherAI, grupo de pesquisa sem fins lucrativos que primeiro descreveu a Books3 publicamente.
Além disso, o pesquisador responsável à época divulgou que o repositório continha todos os 196.400 livros de uma biblioteca pirata –número que bate com o repositório encontrado pela Folha.
Paulo Coelho é o mais pirateado de todos, com 31 livros na base de dados, a maioria com traduções para o inglês, com obras como “O Alquimista” e “O Diário de um Mago”. Em segundo lugar vem Clarice Lispector, com uma variedade maior de idiomas: há não só edições em inglês de “Perto do Coração Selvagem” e “A Paixão Segundo G.H.”, mas também as versões em sueco e italiano desses mesmos livros, por exemplo.
A lista continua com Jorge Amado, Paulo Freire, Rubem Fonseca, Raduan Nassar e João Cabral de Melo Neto, entre outros. Machado de Assis e Euclides da Cunha são os únicos autores em domínio público –mas as traduções costumam contar com proteção de copyrights.
Há poucos livros nacionais em português, 21 no total, de 18 editoras brasileiras. O número pode ser maior porque só 129 mil arquivos tinham um ISBN, espécie de CPF que permite identificar uma edição.
Livros, roteiros, reportagens de jornais e artigos acadêmicos são valiosos para treinar modelos de linguagem, já que os chatbots se beneficiam do acesso a textos com escrita elaborada e argumentos complexos.
A Books3, por exemplo, tem um comentário sobre a qualidade do texto e uma nota de 0 a 10 como referência para o algoritmo. “O Alienista”, de Machado de Assis, recebe nota oito por sua “narrativa instigante e bem-escrita”, enquanto “A Hora da Estrela”, de Clarice, um nove por, além disso, ter tradução clara para o inglês.
Relatórios técnicos sobre o desenvolvimento dos modelos de inteligência artificial de Meta e Microsoft confirmam o uso da base pirata. Em ambos os casos, os pesquisadores deram à Books3 alto peso no treinamento dos robôs.
Já no caso da Anthropic, o uso da Books3 e outras bibliotecas piratas está documentado no processo que autores movem contra a empresa pelo uso de seus livros em autorização. “Não há dúvidas de que a Anthropic fez o download de 196.640 arquivos da Books3”, escreve o juiz William Alsup, da Justiça da Califórnia, na decisão em que transformou o caso em uma ação coletiva.
O uso de conteúdo proprietário sem autorização é denunciado em diversas ações na Justiça americana. Mas os casos da Meta –ao qual o da Microsoft foi incorporado– e o da Anthropic estão entre os mais rumorosos.
O primeiro teve uma decisão inicial favorável à big tech em junho, quando a Justiça decidiu que empregar os livros sem autorização era “uso justo” –quando é permitido usar o conteúdo sem pagar. O caso ainda está em curso, e o juiz ainda vai deliberar sobre a pirataria.
Os autores também reclamam que as big techs se apropriam dos seus livros para criar ferramentas que depois vão competir com eles. O juiz do processo acha esse o ponto mais importante, com o risco de que a IA diminua o valor dos livros ao inundar o mercado com obras sintéticas –mas diz que os autores da ação não apresentaram dados que provem essa tese.
Os últimos emails de executivos entregues pela Meta à Justiça mostram que a empresa trabalha em um modelo de licenciamento e avalia quanto vai oferecer aos autores.
O caso da Anthropic se tornou o mais rumoroso, pelo potencial de falir a empresa com indenizações que poderiam chegar a US$ 1 trilhão (R$ 5,4 trilhões). Além da Books3, a companhia baixou milhões de livros de duas bibliotecas piratas –5 milhões da Library Genesis e outros 2 milhões de uma chamada PiLiMi. Por isso, o juiz marcou para dezembro um julgamento a fim de estabelecer indenizações.
É a partir desse conjunto de cerca de 7 milhões de arquivos que vai se produzir, até o dia 1º de setembro, uma lista oficial de quem tem direito a reparação. O juiz achou que, com a Books3, seria mais difícil identificar a edição de cada obra –e disse que os autores não deram uma solução para automatizar a checagem.
Em um depoimento no dia 21 de agosto, Benjamin Mann, um dos fundadores da companhia, disse que chegou à conclusão de que usar as bibliotecas piratas era “uso justo” quando trabalhava na OpenAI. E falou que, em 2019, fez download pessoalmente de livros do Libgen para treinar modelos.
Na terça-feira (26), a empresa comunicou a Justiça que chegou a um acordo com os autores do processo original, mas não divulgou detalhes da negociação. Agora, o juiz do caso precisa avaliar se o pacto atende de forma satisfatória os interesses da classe de escritores e validá-lo.
As empresas de IA americanas acompanham tudo com a respiração presa. Afinal, várias outras companhias são alvos de cobrança na Justiça por usar conteúdo proprietário sem autorização e também ensinar robôs com pirataria.
Emails da Meta no processo judicial, por exemplo, indicam que a empresa também recorreu à Library Genesis ao desenvolver o Llama e ocultou evidências desse uso. O temor de todas é serem as próximas a ter que botar a mão no bolso para compensar os donos de livros, artigos, filmes e músicas que usaram.