
Por John Drake, professor da Universidade da Geórgia, para a Forbes
O termo “IA slop” geralmente descreve as imagens e o texto de baixa qualidade que a mídia social desordena. Chegou agora ao sistema de revisão por pares que governa o que conta como conhecimento científico.
As Submissões à Ciência da Organização, uma das principais revistas em pesquisa de gestão, subiram 42% desde o lançamento do ChatGPT. A escrita piorou.
Um novo estudo da equipe editorial da revista descobriu que os manuscritos gerados por IA são mais difíceis de ler, mais jargões carregados e mais propensos a serem rejeitados do que aqueles escritos por humanos. Enquanto isso, mais de 30% das avaliações de especialistas que os periódicos rotineiramente usam para decidir o que publicar agora mostram o uso detectável de IA, e os editores relatam que essas revisões são essencialmente pouco informativas. A tecnologia que deveria tornar a ciência mais produtiva está, no momento, tornando mais difícil avaliar. Sem dúvida, este é um instantâneo de um sistema em transição, não um veredicto permanente sobre a IA na pesquisa. Mas o instantâneo vale a pena olhar de perto.
Tenho escrito sobre as pressões estruturais sobre a revisão por pares, e sobre o risco de que as ferramentas de IA possam degradar a qualidade do pensamento científico, mesmo à medida que aceleram a produção. Este artigo, da Força-Tarefa de IA da revista liderada por Sharique Hasan, da Duke, é o primeiro a colocar dados detalhados por trás dessas preocupações em um único periódico.
AFP via Getty Images
A qualidade dessa escrita deteriorou-se. As pontuações de IA e Flesch Reading Ease foram negativamente correlacionadas entre as submissões. Manuscritos com alto conteúdo de IA exigem um nível de nível mais alto para analisar, usar mais nominalizações (palavras como “conceitualização” e “operacionalização”) e carregar mais jargões. Curiosamente, existem algumas dimensões em que o texto de IA teve melhor desempenho: tendia a ser mais específico e menos hedge. Mas o efeito líquido é a prosa que é mais densa e mais difícil de ler. Gartenberg invocou o ensaio de George Orwell “Política e a Língua Inglesa”, com seus exemplos de políticos enterrando significado na abstração. A prosa de IA, disse ela, se lê como esses políticos: densa, vagamente impressionante, difícil de seguir.
O título do jornal enquadra o problema: “Mais versus melhor”. “A IA, como está sendo usada hoje, está colidindo com incentivos institucionais para criar mais do que uma pesquisa melhor”, disse Gartenberg. “Não é a IA por si só. É IA mais incentivos de publicação ou pereza.”
O jornal inclui uma descoberta que deve preocupar qualquer um que pense que isso é apenas sobre alguns maus atores com ChatGPT. As escolas de negócios cujo corpo docente historicamente mais responde aos rankings de contagem de publicações aumentaram desproporcionalmente seus envios de IA depois que o ChatGPT se tornou disponível. O ranking em questão é a lista da UTD, mantida pela Universidade do Texas em Dallas, que pontua escolas de negócios por quantos artigos seu corpo docente publica em 24 revistas de topo designadas. É uma das métricas mais amplamente observadas na academia de negócios, e os acadêmicos de escolas que competem nela têm fortes incentivos para maximizar a quantidade.
O efeito é estatisticamente significativo: as escolas que competem no ranking da UTD enviaram mais trabalhos após o ChatGPT, e esses trabalhos adicionais foram desproporcionalmente IA escrita. Isso sugere que o uso pesado de IA em manuscritos não é aleatório, mas rastreia incentivos institucionais. Autores em escolas onde a contagem de publicações mais importa são os que mais se apoiam nas máquinas.
Gartenberg descreveu o que ela vê como sua visão central do projeto: a IA é uma ferramenta agnóstica. Você pode apontá-lo para a qualidade ou você pode apontá-lo para o volume. “Há incentivos de volume tão poderosos agora”, disse ela, “que pode realmente ser destrutivo”.
A IA não se limita ao pipeline de submissão. Mais de 30% das avaliações por pares na Organization Science agora mostram o uso detectável de IA, acima de quase zero antes do ChatGPT. Essas revisões seguem o mesmo padrão que os envios: mais difícil de ler, mais nominalização, mais jargões. Eles também mudam a ênfase para a teoria e para longe de dados e métodos empíricos, um estreitamento da faixa avaliativa que, se persistir, poderia remodelar que tipo de ciência é recompensada.
A ética da IA na revisão por pares é instável. Se um especialista usa a IA para informar uma opinião, essa opinião ainda é do especialista? Manuscritos inéditos são compartilhados com revisores em confiança. Enviá-los para os servidores de um chatbot é geralmente visto como inaceitável, uma divulgação para um leitor não autorizado, mesmo que esse leitor seja uma máquina. Mas o cálculo muda se o manuscrito já estiver público em um servidor de pré-impressão? Se a IA é executada em um ambiente com caixa de areia que não retém nada? Se o revisor coloca uma pergunta que nunca compartilha explicitamente o texto? Essas distinções importam, e nenhuma delas está resolvida.
A descoberta mais reveladora é que, na Organization Science, as revisões de IA não parecem informar decisões editoriais. As revisões humanas correlacionam-se com os resultados editoriais. As avaliações de IA não. “Não é como se os editores soubessem que essas são avaliações de IA e estão jogando-as fora”, disse Gartenberg. “Eles estão lendo e não estão informando a recomendação final do editor.” Os editores estão substituindo seu próprio julgamento, o que significa que a revisão, o mecanismo central do controle de qualidade na ciência, está produzindo um texto no qual ninguém age.
A boa notícia é que o processo editorial da Organization Science ainda está filtrando de forma eficaz. Apenas 3,2% dos manuscritos pontuados em 70% ou mais de uso da IA recebem uma revisão e reenvio, em comparação com 11,9% para papéis de IA baixos. Artigos publicados permanecem predominantemente gerados pelo ser humano. Os editores estão a apanhar o mau trabalho.
No entanto, há um custo humano significativo. A revista dobrou seus editores adjuntos de seis para onze e quase dobrou seus editores seniores de cerca de 30 para 60. Tudo isso é trabalho voluntário, acadêmicos não remunerados doando tempo para manter a qualidade científica. Quando esses acadêmicos estão eliminando o IA slop, eles não estão usando seu tempo para dar aulas, realizar pesquisas ou servir suas profissões.
O economista Scott Cunningham moldou a produção científica como uma função de produção com dois insumos: tempo humano e tempo da máquina. Um pouco de tempo de máquina, combinado com tempo humano substancial, aumenta a qualidade da saída. Mas se os pesquisadores deixarem a máquina substituir seu próprio engajamento, eles entram no que Cunningham chama de “zona de perigo”, uma região onde a qualidade da produção realmente fica abaixo do que eles teriam produzido sem a IA. O mecanismo é simples: o tempo humano não é apenas trabalho. É o processo através do qual a atenção se acumula no conhecimento e no julgamento. Evite as horas e você pule o aprendizado.
Os dados de Gartenberg sugerem que a zona de perigo não é hipotética. Já é visível nas estatísticas de submissão de uma grande revista. “As pessoas pensam como escrevem”, ela me disse, “e por isso, se você não escreve, você não está pensando tão profundamente sobre isso.” Os pesquisadores que enviam manuscritos obtiveram pontuação em 70% ou mais de conteúdo de IA, na estrutura de Cunningham, ultrapassaram esse limiar. Trocaram o pensamento pela produção. Os editores podem dizer.
Essas descobertas merecem contexto. Os dados vão até o início de 2026, mas grande parte da IA que a equipe detectou foi produzida com modelos anteriores, ChatGPT 3.5 e GPT-4, que tinham contagens estilísticas bem conhecidas e uma tendência para a prosa nominal inchada. As ferramentas estão melhorando rapidamente. Não há nada fundamental para impedir que um modelo de linguagem seja treinado ou solicitado a escrever em um nível de leitura alvo, para minimizar o jargão, para passar nos mesmos testes de legibilidade que os editores humanos usam. A lacuna de qualidade deste documento em papel pode ser substancialmente uma função de quão grosseiramente a maioria dos pesquisadores está atualmente implantando as ferramentas. Há tanto a maturidade das próprias ferramentas quanto a maturidade das pessoas que as usam. Ambos estão evoluindo.
Também vale a pena notar o que o papel não mostra. A Ciência da Organização não está perdendo o seu melhor trabalho. Os principais artigos da revista ainda estão passando, e sua taxa geral de rejeição é essencialmente inalterada em todas as categorias de IA. Os envios adicionais são principalmente medíocres e os editores estão filtrando-os. Uma maneira de ler os dados é que o efeito líquido sobre o conhecimento ainda é positivo: toda a boa ciência que estava sendo produzida antes, além de alguma fração de novo trabalho que, embora não mude de campo, registra fatos e descobertas que podem ser úteis para alguém no futuro. A ciência sempre gerou uma longa cauda de trabalho incremental ao lado dos avanços. Se o custo de produção dessa cauda cair, e o processo editorial ainda puder separar o sinal do ruído, a base de conhecimento pode crescer mesmo que a qualidade média dos envios diminua.
Também existe uma possibilidade mais especulativa. Se a IA está aumentando a variação na qualidade de submissão enquanto o processo editorial apara a cauda inferior, os melhores papéis no pipeline poderiam realmente ser melhores do que antes. Pesquisadores que usam bem a IA, como um parceiro de pensamento em vez de um ghostwriter, podem estar produzindo um trabalho mais ambicioso do que poderiam ter conseguido sozinhos. Os dados ainda não podem confirmar isso. Mas eles são consistentes com isso.
Em um ponto de nossa conversa, Gartenberg desenhou uma analogia com o xadrez. A IA pode vencer qualquer jogador humano, mas o xadrez é mais popular agora do que nunca. A pergunta que ela continua entregando: o que se torna o objetivo da ciência quando a IA pode produzir as saídas? Quando falei com Jeff Clune, autor sênior de um artigo recente da Nature sobre automação de pesquisa de ponta a ponta, ele fez uma observação semelhante sobre escalada em rocha. Alex Honnold pode escalar El Capitan mais rápido e melhor do que Clune jamais vai. Isso não fez Clune desistir de subir. Montanhas e xadrez e ciência não são entretenimento. São coisas que proporcionam significado às pessoas. A ciência pode estar se aproximando de um momento existencial, onde o propósito do trabalho importa mais do que os produtos dele.
A ironia da situação atual é que a mesma tecnologia que cria problemas no lado da submissão pode ser útil no lado editorial. O gargalo na publicação acadêmica não é produção. É avaliação. Os diários estão se afogando em manuscritos e lutando para encontrar revisores dispostos a lê-los. A IA é adequada exatamente para o tipo de avaliação estruturada que pode aliviar essa pressão.
Considere o que um periódico pode fazer com a IA no pipeline editorial. Antes que qualquer ser humano leia um envio, uma tela automatizada verifica a facilidade de leitura, a densidade do jargão e a complexidade da frase. Trabalhos abaixo de um limiar são devolvidos aos autores com feedback específico. Isso, por si só, filtraria uma parcela substancial dos envios de baixa qualidade que atualmente consomem tempo de editores voluntários.
A IA também pode avaliar dimensões que os editores humanos avaliam de forma intuitiva, mas inconsistente: se as alegações de um artigo são apoiadas por seus métodos, se a revisão da literatura envolve o trabalho anterior relevante, se a abordagem estatística corresponde ao design da pesquisa. Nenhuma dessas avaliações precisaria ser definitiva. Eles precisariam ser informativos o suficiente para ajudar os editores a alocar sua atenção para os manuscritos que merecem isso. O humano fica no circuito. A máquina lida com triagem. No lado da revisão, onde os dados de Gartenberg mostram a inteligência artificial mudando a atenção para a teoria e longe dos dados, um assistente de revisão bem projetado poderia fazer o oposto: levar os revisores a se envolver com alegações empíricas específicas, sinalizando inconsistências entre métodos e resultados, andaime da revisão em vez de substituí-la.
Para mim, a tecnologia não é madura o suficiente para ser implantada de forma confiável em escala. Errar a implementação pode introduzir novos problemas. Mas a restrição de ligação na ciência está mudando da produção para a avaliação, e a IA é a ferramenta mais plausível para abordá-la.
A própria Gartenberg usa Claude e Codex em sua própria pesquisa. Ela não está argumentando que a IA deve ser mantida fora da ciência. Seu artigo é uma medida de onde as coisas estão hoje, não uma previsão de onde elas vão acabar. Como editor de periódicos, reconheço tudo nele: as submissões crescentes, o engajamento do revisor em declínio, o crescente fardo editorial. O sistema está a aguentar. A questão em aberto é se as ferramentas que estão atualmente forçando-o podem ser reaproveitadas para fortalecê-lo.
Fonte: Forbes
