Uma entrevista com um acadêmica que testemunhou de perto o impacto da inflação de citações por IA

Como alguém de fora do meio acadêmico em sua totalidade, devo admitir que não tenho muita experiência com a publicação acadêmica/literatura revisada por pares.
Mas mesmo assim, eu sei quando algo está errado, e claramente o que ficou conhecido como “Frankencitações” — referências em artigos acadêmicos a literatura inexistente, inventadas por meio do uso do LLM — está errado. Elas ridicularizam todo o empreendimento e me parecem uma espécie de crise.
Ben Williamson, da Universidade de Edimburgo, tem acompanhado o fenômeno devido a uma experiência muito pessoal com as Frankencitations. Fiz-lhe algumas perguntas sobre o que está acontecendo e o que ele acha que devemos fazer a respeito.
JW: Vamos começar com uma apresentação para que as pessoas entendam suas credenciais.
BW: Sou professora sênior no Centro de Pesquisa em Educação Digital da Universidade de Edimburgo e editora do periódico Learning, Media and Technology . Minha pesquisa se concentra em tecnologia digital e dados no setor educacional, com trabalhos recentes e em andamento voltados para investidores em tecnologia educacional, a ascensão das ciências biológicas da aprendizagem com uso intensivo de dados e políticas educacionais relacionadas à IA.
P: O que é uma “Frankencitação” e por que devemos nos preocupar com elas?
R: Nos últimos dois ou três anos, muitos de nós que trabalhamos em universidades começamos a notar essas estranhas referências a artigos de periódicos acadêmicos ou livros que não existem. As referências são fabricadas por inteligência artificial generativa quando um autor, por exemplo, instrui um modelo de linguagem complexo a ajudá-lo a escrever um artigo ou adiciona referências para fundamentar uma revisão bibliográfica. Acho que todos já sabemos que os modelos de linguagem complexos rotineiramente inventam material. É isso que está acontecendo aqui. Os modelos de linguagem complexos estão criando referências acadêmicas porque pesquisadores acadêmicos os utilizam para produzir trabalhos de pesquisa, como artigos, capítulos ou livros.
Já ouvi vários nomes diferentes para isso: referências fantasmas, citações zumbis, referências espectrais ou Frankencitações. O que todos esses termos querem dizer é que as referências falsas geradas por IA não são reais, como um corpo humano vivo, mas têm uma espécie de meia-vida. “Frankencitações” funciona bem como nome porque elas são como o monstro — costuradas a partir de dados em um modelo de linguagem e, em seguida, animadas quando alguém usa um chatbot como o ChatGPT para fazer o trabalho por elas. E então, essas citações fabricadas podem causar todo tipo de problema quando se espalham pelo mundo ao serem incluídas em artigos acadêmicos.
P: Isso me parece muito ruim. Uma verdadeira onda de conteúdo falso infectando pesquisas acadêmicas e citações.
R: O grande problema que enfrentamos agora é que essas citações Frankenstein estão acabando em manuscritos enviados para revisão por pares. Isso está sobrecarregando editores e revisores, pois agora precisamos fiscalizar os manuscritos em busca de informações falsas nas listas de referências. Algumas dessas citações Frankenstein estão até mesmo sendo publicadas em periódicos acadêmicos. Elas simplesmente não estão sendo detectadas em nenhuma etapa do processo de publicação acadêmica — nem por editores, nem por revisores, nem mesmo durante a revisão, a correção de provas e a produção da publicação final.
Usar IA para produzir publicações acadêmicas com essas inserções falsas é uma forma de poluição do conhecimento, como deixar toxinas se infiltrarem em um rio e alterarem todo o ecossistema que ele alimenta. Também interfere na integridade acadêmica e quebra as cadeias de citação que sinalizam a relação de um autor com sua área de estudo. Isso representa o perigo real de que indivíduos sejam creditados por ideias que nunca tiveram ou que lhes sejam atribuídas afirmações que nunca fizeram. É por isso que a ideia de que essas referências falsas têm uma espécie de meia-vida me parece correta: elas estão circulando, deixando sua marca no mundo acadêmico e causando enormes problemas para editores, revisores e leitores de periódicos, apesar de não terem a substância de uma publicação real.
P: Você tem uma história interessante sobre como se deparou com o fenômeno pela primeira vez. Gostaria que você nos contasse essa história, mas também gostaria de saber o que você estava pensando/sentindo enquanto tudo acontecia. Qual foi a jornada intelectual/emocional de descobrir que você havia sido tão extensivamente Frankenificado?
R: Sou editora de periódico e isso envolve verificar novos manuscritos submetidos para decidir se são adequados para revisão por pares. Recentemente, meus coeditores e eu começamos a encontrar referências em novos manuscritos a artigos nos quais um ou mais de nós éramos creditados como autores, mas soubemos imediatamente que esses artigos não deviam ser reais, pois não os escrevemos!
Nossa hipótese é que alguns autores que submetem artigos à nossa revista estejam solicitando aos editores que incluam referências a artigos dos próprios editores, na esperança de que isso aumente as chances de seus manuscritos serem aprovados na revisão inicial. O problema é que eles estão inserindo erros crassos que detectamos imediatamente. Assim, nesses casos, os editores se tornam não apenas os primeiros leitores, mas também os últimos, já que somos obrigados a rejeitá-los de imediato. Isso configura uma conduta acadêmica inadequada, segundo os padrões de publicação científica, visto que os autores são absolutamente responsáveis pela precisão das referências em seus próprios manuscritos.
Recentemente, porém, decidi fazer uma busca na internet por uma dessas falsas referências a mim, puramente por curiosidade para ver se ela aparecia em algum outro lugar. Tinha o título “Governança e datificação da educação”. É um título bem genérico, mas já publiquei sobre os temas “educação”, “governança” e “datificação”, então essas são palavras-chave plausíveis para associar ao meu nome. Mas quando pesquisei “Governança e datificação da educação”, percebi rapidamente que essa citação Frankenstein em particular teve uma vida útil bastante agitada. Pelo que pude apurar, esse texto, “Governança e datificação da educação”, foi citado cerca de 70 vezes. Você mesmo pode conferir — basta acessar o Google Acadêmico, pesquisar “Governança e datificação da educação” e encontrará páginas e páginas de publicações que me citam por algo que eu nunca escrevi.
O que me intriga ainda mais é que, entre todos esses artigos, o subtítulo “Governança educacional e datificação” muda constantemente. Ele é citado em diversos periódicos diferentes. Às vezes, é um livro inteiro. Na maioria das vezes, tem um coautor nomeado — alguém com quem já colaborei —, mas às vezes não. E esse não-artigo continua a circular, ainda recebendo novas citações.
P: Sua reputação acadêmica explodiu!
R: Uma publicação inexistente tornou-se rapidamente uma das minhas mais citadas. É um pouco frustrante, porque de fato dediquei anos de trabalho relevante, mas dezenas de autores preferem citar algo em que eu nunca trabalhei.
O que realmente me preocupa é não saber pelo que estou sendo creditado. A maioria desses artigos é da minha área. Alguns foram publicados por editoras predatórias de qualidade muito baixa e podem ser ignorados sem problemas. Mas nem todos. Há casos em que acadêmicos renomados, que publicam em periódicos de alto impacto, estão citando meu trabalho. O que eles estão dizendo que eu escrevi ou reivindiquei? Também fiquei sabendo por um colega de outra instituição que minha citação falsa apareceu em um trabalho de um aluno. Portanto, a produção e reprodução dessas referências falsas também coloca os alunos em risco.
É uma situação realmente ridícula. Sou mais reconhecido por algo que não escrevi do que pelos artigos que de fato escrevi sobre o tema de educação, dados e governança!
P: Mesmo achando que entendo o fenômeno em um nível básico, não tenho certeza de como e por que essas coisas se proliferam tão rapidamente. Você fez um estudo para verificar quantas vezes havia sido alvo de Frankencitações e, algum tempo depois, outra pessoa fez um acompanhamento e o número de Frankencitações havia aumentado significativamente. Qual é o mecanismo? Qual a dimensão do fenômeno?
R: Sim, depois que publiquei algo online sobre minha descoberta, um cientista da computação chamado Dirk HR Spennemann investigou o assunto de forma completamente independente. Ele usou isso como exemplo para examinar como os LLMs produzem referências fabricadas — ele acabou de publicar um preprint no arXiv que detalha os aspectos técnicos. Então, ele fez uma busca muito mais minuciosa no Google Acadêmico do que eu consegui. O que ele descobriu foi que o artigo inexistente havia sido citado quase 140 vezes. E ele queria entender, em um nível técnico, como os LLMs geram essas referências. A conclusão dele foi que existem padrões distintos na forma como o genAI as cria. Aqui está o que ele escreveu no artigo:
“As referências acadêmicas alucinadas criadas pelo ChatGPT não são erros aleatórios, mas sim artefatos previsíveis e orientados por padrões, que refletem a forma como os modelos de IA geram texto. Essas referências são reconstruções sistemáticas construídas a partir de autores, periódicos e palavras-chave relevantes reais. Como os modelos de IA se baseiam no reconhecimento de padrões em vez da verificação factual, eles produzem citações que são estruturalmente corretas e contextualmente plausíveis, porém inexistentes. Essas alucinações podem ser geradas repetidamente, levando à duplicação e consistência em diferentes textos, o que pode aumentar sua legitimidade percebida.”
Certo, então, “Governança educacional e datificação” é uma combinação de um autor real (eu), periódicos reais (alguns dos quais publiquei) e palavras-chave relevantes (como eu disse, trabalho na área da educação e estudo dados e governança). Como também existe no Google Acadêmico, considerado um índice de referência da produção acadêmica mundial, um modelo de linguagem que busca informações na web — em vez de apenas gerar texto a partir de seus dados de treinamento — acaba confirmando a existência e a legitimidade do artigo, apesar de ele não existir. Spennemann também realizou um pequeno experimento no qual instruiu o ChatGPT a gerar ensaios sobre o tema de governança educacional e dados. Ele citou o artigo inexistente, é claro.
Como explicou Aaron Tay, especialista em sistemas de bibliotecas , o que temos é um conjunto dinâmico de processos que envolvem tanto o Google Acadêmico quanto a IA generativa. O Google Acadêmico estabeleceu “Governança e datificação da educação” como uma citação referenciada por outras 140 publicações, e os LLMs (mestrados em direito) estão amplificando sua existência ao executar processos de geração aumentada por recuperação (RAG) que tratam o Google Acadêmico como uma fonte autorizada de verdade citacional. O Google Acadêmico o trata como real e os chatbots o reproduzem como tal assim que alguém escreve uma proposta para uma redação ou artigo sobre o mesmo tema.
Uma coisa que tem sido difícil de descobrir completamente é se “Governança educacional e datificação” surgiu inicialmente como uma referência totalmente gerada por IA, ou se originou de um erro humano, que a genAI apenas amplificou massivamente desde então.
P: Creio que seja óbvio para todos por que proliferar citações falsas sobre uma fonte inexistente é simplesmente errado e ruim, mas o que há além disso? O que podemos esperar se permitirmos que essas coisas continuem a se proliferar?
R: Obviamente, já tivemos problemas com citações incorretas e pesquisas falsificadas no passado. O uso atual de IA generativa está industrializando problemas antigos na academia e nos colocando sob muito mais pressão quando se trata de publicação acadêmica. Para mim, isso é uma questão de confiança. Como confiar no registro acadêmico se ele está poluído com material sintético que não se refere mais com precisão a pesquisas anteriores? Quero dizer, toda pesquisa deveria ser um processo de construção sobre o conhecimento prévio para gerar novas ideias e fazer contribuições originais para a compreensão. Não é o caso com as Frankencitações. De forma mais prosaica, por que eu deveria confiar em um autor que submeteu algo à nossa revista que viola a integridade acadêmica?
É também uma questão de trabalho acadêmico. Uma pessoa que tenta economizar tempo ou ser mais produtiva com IA tem efeitos subsequentes sobre aqueles que supervisionam os manuscritos acadêmicos durante a revisão e publicação. Isso está começando a causar um sofrimento intolerável para editores e revisores de periódicos. Já estamos tendo que trabalhar muito mais para acompanhar o aumento exponencial das taxas de submissão, e agora muitas pessoas estão dizendo que também deveríamos verificar cada referência em um artigo — uma tarefa praticamente impossível.
O problema realmente abrangente é o que alguns agora chamam de “desleixo acadêmico”. Enciclopédias Frankenstein podem ser um bom indicador de um artigo gerado por IA. Estamos falando de lixo de IA na academia. Não se trata apenas de referências falsificadas com IA, mas de artigos e livros inteiros. O problema é que grande parte disso é difícil de detectar. Alguns pesquisadores acreditam que deveríamos trabalhar mais com IA e sugerem que é natural que, com o tempo, cada vez mais registros acadêmicos sejam aumentados com a ajuda da IA — seja pelo uso da IA na produção e análise de dados ou como coautora e parceira na produção de conhecimento. Isso pode ser verdade para alguns, em projetos específicos, para fins específicos. Mas o que temos aqui é a produção massiva e mecânica de material acadêmico que pode ou não corresponder a algo real no mundo. Se um artigo não corresponde nem mesmo à literatura anterior em sua própria área, como podemos confiar que ele nos diga algo sobre seus próprios sujeitos e objetos de análise?
P: A curto prazo, existe algo que nós (leitores, pesquisadores, instituições, publicações, etc.) possamos fazer para impedir essa proliferação?
R: Um dos motivos pelos quais temos nos manifestado bastante sobre isso em nossa revista é justamente para tentar persuadir autores acadêmicos de que é uma má ideia se desvalorizarem como pesquisadores e nos insultarem como editores e revisores, submetendo manuscritos com material falso. Quer dizer, se você nos cita e nós não escrevemos o artigo, sabemos o que você fez, e isso diz muito sobre seus padrões acadêmicos. Mas, é claro, essas referências falsas nem sempre são fáceis de detectar, e lidar com isso exigirá esforços muito mais sistêmicos. As editoras já estão testando soluções tecnológicas que supostamente detectam referências geradas por IA. Mas isso aparentemente é muito mais complexo tecnicamente do que se imagina. Já sabemos que os detectores de escrita por IA geram muitos falsos positivos, e é por isso que não são confiáveis para uso em revistas acadêmicas ou para a revisão de trabalhos de estudantes. Os detectores de citação por IA podem apenas amplificar os mesmos problemas, levando a ondas de falsas acusações, rejeições de artigos e animosidade acadêmica.
Acho que precisamos deixar claro que as editoras acadêmicas e as empresas de tecnologia precisam, sem dúvida, se unir e nos ajudar nessa questão. Afinal, as editoras têm parcerias multimilionárias com as grandes empresas de IA para alugar nossos artigos existentes como dados de treinamento para novos modelos. Elas fazem parte do problema do conteúdo acadêmico produzido por IA e precisam trabalhar com editores, autores, bibliotecas e instituições para resolvê-lo.
Aqui no Reino Unido, muitas bibliotecas acadêmicas já estão cancelando contratos com editoras devido ao aumento vertiginoso dos custos. E se nossas bibliotecas e as associações que as representam fossem até as editoras e as grandes empresas de tecnologia com as quais têm parceria e exigissem providências? Sem dúvida, há muito mais força em alianças desse tipo do que em alguns editores gritando em suas redes sociais (como tenho feito ultimamente).
P: E a longo prazo? Quais são as mudanças estruturais/sistêmicas necessárias para evitar que sejamos inundados por esse tipo de lixo de IA?
R: Precisamos de algum tipo de conjunto de acordos consensuais em todo o setor quando se trata de publicação acadêmica. É claro que as violações da integridade acadêmica não começaram com a IA generativa. Editoras predatórias existem há muito tempo. As fábricas de papel também conseguem produzir manuscritos sob demanda há anos. Algumas pesquisas científicas são ruins e nunca deveriam ser publicadas.
A IA está agora amplificando todos esses problemas existentes. Não os está atenuando. E no atual contexto político de muitos países, a ciência já está sob ataque. Não é difícil imaginar publicações “científicas” geradas por IA que sirvam a fins políticos mais explícitos, especialmente porque certas revistas acadêmicas já foram tomadas e se voltaram contra acadêmicos liberais. A IA também tem o potencial de acelerar ainda mais a produção de artigos científicos, agravando o dilúvio de manuscritos que já inunda as revistas. Esta não é a utopia da IA para a transformação da publicação acadêmica que nos foi prometida quando as editoras se aliaram à OpenAI, ao Google e à Microsoft.
Então, que tipos de regras e normas precisamos reforçar para nos proteger de tudo isso? Precisamos de acordos setoriais sobre como lidar com violações da integridade acadêmica? Na academia e no mercado editorial, temos diversos conjuntos de princípios, padrões e regras. Então, por que não para a IA também?
Não tenho respostas ou soluções completas para esses problemas. Assim como muitos outros editores, revisores, autores e bibliotecários universitários, tenho lutado para manter uma certa esperança acadêmica, visto que a IA foi simplesmente liberada em todos os nossos sistemas de conhecimento. É claro que o sistema já apresentava sérios problemas, mas me parece evidente que o experimento descontrolado com IA dos últimos anos tem sido um desastre para a produção e publicação do conhecimento acadêmico.
Os editores da revista Organization Science acabaram de realizar um estudo detalhado sobre isso , concluindo que o uso acadêmico da IA levou a mais pesquisas, mas não a pesquisas de melhor qualidade, e causou uma crise na revisão por pares. Precisaremos de esforços conjuntos de instituições, editoras e até mesmo das próprias empresas de tecnologia para resolver essa situação. Caso contrário, corremos o risco de o público perder ainda mais a confiança no setor como fonte confiável de conhecimento importante. Ou, para sermos mais otimistas, talvez possamos aproveitar este momento para definir qual tipo de sistema de publicação acadêmica realmente funcionaria melhor no futuro.
Fonte: Inside Higher Ed