Citações zumbis devastam o mundo da Ciência

Uma entrevista com um acadêmica que testemunhou de perto o impacto da inflação de citações por IA

Como alguém de fora do meio acadêmico em sua totalidade, devo admitir que não tenho muita experiência com a publicação acadêmica/literatura revisada por pares.

Mas mesmo assim, eu sei quando algo está errado, e claramente o que ficou conhecido como “Frankencitações” — referências em artigos acadêmicos a literatura inexistente, inventadas por meio do uso do LLM — está errado. Elas ridicularizam todo o empreendimento e me parecem uma espécie de crise.

Ben Williamson, da Universidade de Edimburgo, tem acompanhado o fenômeno devido a uma experiência muito pessoal com as Frankencitations. Fiz-lhe algumas perguntas sobre o que está acontecendo e o que ele acha que devemos fazer a respeito.

JW: Vamos começar com uma apresentação para que as pessoas entendam suas credenciais.

BW: Sou professora sênior no Centro de Pesquisa em Educação Digital da Universidade de Edimburgo e editora do periódico Learning, Media and Technology . Minha pesquisa se concentra em tecnologia digital e dados no setor educacional, com trabalhos recentes e em andamento voltados para investidores em tecnologia educacional, a ascensão das ciências biológicas da aprendizagem com uso intensivo de dados e políticas educacionais relacionadas à IA.

P: O que é uma “Frankencitação” e por que devemos nos preocupar com elas?

R: Nos últimos dois ou três anos, muitos de nós que trabalhamos em universidades começamos a notar essas estranhas referências a artigos de periódicos acadêmicos ou livros que não existem. As referências são fabricadas por inteligência artificial generativa quando um autor, por exemplo, instrui um modelo de linguagem complexo a ajudá-lo a escrever um artigo ou adiciona referências para fundamentar uma revisão bibliográfica. Acho que todos já sabemos que os modelos de linguagem complexos rotineiramente inventam material. É isso que está acontecendo aqui. Os modelos de linguagem complexos estão criando referências acadêmicas porque pesquisadores acadêmicos os utilizam para produzir trabalhos de pesquisa, como artigos, capítulos ou livros.

Já ouvi vários nomes diferentes para isso: referências fantasmas, citações zumbis, referências espectrais ou Frankencitações. O que todos esses termos querem dizer é que as referências falsas geradas por IA não são reais, como um corpo humano vivo, mas têm uma espécie de meia-vida. “Frankencitações” funciona bem como nome porque elas são como o monstro — costuradas a partir de dados em um modelo de linguagem e, em seguida, animadas quando alguém usa um chatbot como o ChatGPT para fazer o trabalho por elas. E então, essas citações fabricadas podem causar todo tipo de problema quando se espalham pelo mundo ao serem incluídas em artigos acadêmicos.

P: Isso me parece muito ruim. Uma verdadeira onda de conteúdo falso infectando pesquisas acadêmicas e citações.

R: O grande problema que enfrentamos agora é que essas citações Frankenstein estão acabando em manuscritos enviados para revisão por pares. Isso está sobrecarregando editores e revisores, pois agora precisamos fiscalizar os manuscritos em busca de informações falsas nas listas de referências. Algumas dessas citações Frankenstein estão até mesmo sendo publicadas em periódicos acadêmicos. Elas simplesmente não estão sendo detectadas em nenhuma etapa do processo de publicação acadêmica — nem por editores, nem por revisores, nem mesmo durante a revisão, a correção de provas e a produção da publicação final.

Usar IA para produzir publicações acadêmicas com essas inserções falsas é uma forma de poluição do conhecimento, como deixar toxinas se infiltrarem em um rio e alterarem todo o ecossistema que ele alimenta. Também interfere na integridade acadêmica e quebra as cadeias de citação que sinalizam a relação de um autor com sua área de estudo. Isso representa o perigo real de que indivíduos sejam creditados por ideias que nunca tiveram ou que lhes sejam atribuídas afirmações que nunca fizeram. É por isso que a ideia de que essas referências falsas têm uma espécie de meia-vida me parece correta: elas estão circulando, deixando sua marca no mundo acadêmico e causando enormes problemas para editores, revisores e leitores de periódicos, apesar de não terem a substância de uma publicação real.

P: Você tem uma história interessante sobre como se deparou com o fenômeno pela primeira vez. Gostaria que você nos contasse essa história, mas também gostaria de saber o que você estava pensando/sentindo enquanto tudo acontecia. Qual foi a jornada intelectual/emocional de descobrir que você havia sido tão extensivamente Frankenificado?

R: Sou editora de periódico e isso envolve verificar novos manuscritos submetidos para decidir se são adequados para revisão por pares. Recentemente, meus coeditores e eu começamos a encontrar referências em novos manuscritos a artigos nos quais um ou mais de nós éramos creditados como autores, mas soubemos imediatamente que esses artigos não deviam ser reais, pois não os escrevemos!

Nossa hipótese é que alguns autores que submetem artigos à nossa revista estejam solicitando aos editores que incluam referências a artigos dos próprios editores, na esperança de que isso aumente as chances de seus manuscritos serem aprovados na revisão inicial. O problema é que eles estão inserindo erros crassos que detectamos imediatamente. Assim, nesses casos, os editores se tornam não apenas os primeiros leitores, mas também os últimos, já que somos obrigados a rejeitá-los de imediato. Isso configura uma conduta acadêmica inadequada, segundo os padrões de publicação científica, visto que os autores são absolutamente responsáveis ​​pela precisão das referências em seus próprios manuscritos.

Recentemente, porém, decidi fazer uma busca na internet por uma dessas falsas referências a mim, puramente por curiosidade para ver se ela aparecia em algum outro lugar. Tinha o título “Governança e datificação da educação”. É um título bem genérico, mas já publiquei sobre os temas “educação”, “governança” e “datificação”, então essas são palavras-chave plausíveis para associar ao meu nome. Mas quando pesquisei “Governança e datificação da educação”, percebi rapidamente que essa citação Frankenstein em particular teve uma vida útil bastante agitada. Pelo que pude apurar, esse texto, “Governança e datificação da educação”, foi citado cerca de 70 vezes. Você mesmo pode conferir — basta acessar o Google Acadêmico, pesquisar “Governança e datificação da educação” e encontrará páginas e páginas de publicações que me citam por algo que eu nunca escrevi.

O que me intriga ainda mais é que, entre todos esses artigos, o subtítulo “Governança educacional e datificação” muda constantemente. Ele é citado em diversos periódicos diferentes. Às vezes, é um livro inteiro. Na maioria das vezes, tem um coautor nomeado — alguém com quem já colaborei —, mas às vezes não. E esse não-artigo continua a circular, ainda recebendo novas citações.

P: Sua reputação acadêmica explodiu!

R: Uma publicação inexistente tornou-se rapidamente uma das minhas mais citadas. É um pouco frustrante, porque de fato dediquei anos de trabalho relevante, mas dezenas de autores preferem citar algo em que eu nunca trabalhei.

O que realmente me preocupa é não saber pelo que estou sendo creditado. A maioria desses artigos é da minha área. Alguns foram publicados por editoras predatórias de qualidade muito baixa e podem ser ignorados sem problemas. Mas nem todos. Há casos em que acadêmicos renomados, que publicam em periódicos de alto impacto, estão citando meu trabalho. O que eles estão dizendo que eu escrevi ou reivindiquei? Também fiquei sabendo por um colega de outra instituição que minha citação falsa apareceu em um trabalho de um aluno. Portanto, a produção e reprodução dessas referências falsas também coloca os alunos em risco.

É uma situação realmente ridícula. Sou mais reconhecido por algo que não escrevi do que pelos artigos que de fato escrevi sobre o tema de educação, dados e governança!

P: Mesmo achando que entendo o fenômeno em um nível básico, não tenho certeza de como e por que essas coisas se proliferam tão rapidamente. Você fez um estudo para verificar quantas vezes havia sido alvo de Frankencitações e, algum tempo depois, outra pessoa fez um acompanhamento e o número de Frankencitações havia aumentado significativamente. Qual é o mecanismo? Qual a dimensão do fenômeno?

R: Sim, depois que publiquei algo online sobre minha descoberta, um cientista da computação chamado Dirk HR Spennemann investigou o assunto de forma completamente independente. Ele usou isso como exemplo para examinar como os LLMs produzem referências fabricadas — ele acabou de publicar um preprint no arXiv que detalha os aspectos técnicos. Então, ele fez uma busca muito mais minuciosa no Google Acadêmico do que eu consegui. O que ele descobriu foi que o artigo inexistente havia sido citado quase 140 vezes. E ele queria entender, em um nível técnico, como os LLMs geram essas referências. A conclusão dele foi que existem padrões distintos na forma como o genAI as cria. Aqui está o que ele escreveu no artigo:

“As referências acadêmicas alucinadas criadas pelo ChatGPT não são erros aleatórios, mas sim artefatos previsíveis e orientados por padrões, que refletem a forma como os modelos de IA geram texto. Essas referências são reconstruções sistemáticas construídas a partir de autores, periódicos e palavras-chave relevantes reais. Como os modelos de IA se baseiam no reconhecimento de padrões em vez da verificação factual, eles produzem citações que são estruturalmente corretas e contextualmente plausíveis, porém inexistentes. Essas alucinações podem ser geradas repetidamente, levando à duplicação e consistência em diferentes textos, o que pode aumentar sua legitimidade percebida.”

Certo, então, “Governança educacional e datificação” é uma combinação de um autor real (eu), periódicos reais (alguns dos quais publiquei) e palavras-chave relevantes (como eu disse, trabalho na área da educação e estudo dados e governança). Como também existe no Google Acadêmico, considerado um índice de referência da produção acadêmica mundial, um modelo de linguagem que busca informações na web — em vez de apenas gerar texto a partir de seus dados de treinamento — acaba confirmando a existência e a legitimidade do artigo, apesar de ele não existir. Spennemann também realizou um pequeno experimento no qual instruiu o ChatGPT a gerar ensaios sobre o tema de governança educacional e dados. Ele citou o artigo inexistente, é claro.

Como explicou Aaron Tay, especialista em sistemas de bibliotecas , o que temos é um conjunto dinâmico de processos que envolvem tanto o Google Acadêmico quanto a IA generativa. O Google Acadêmico estabeleceu “Governança e datificação da educação” como uma citação referenciada por outras 140 publicações, e os LLMs (mestrados em direito) estão amplificando sua existência ao executar processos de geração aumentada por recuperação (RAG) que tratam o Google Acadêmico como uma fonte autorizada de verdade citacional. O Google Acadêmico o trata como real e os chatbots o reproduzem como tal assim que alguém escreve uma proposta para uma redação ou artigo sobre o mesmo tema.

Uma coisa que tem sido difícil de descobrir completamente é se “Governança educacional e datificação” surgiu inicialmente como uma referência totalmente gerada por IA, ou se originou de um erro humano, que a genAI apenas amplificou massivamente desde então.

P: Creio que seja óbvio para todos por que proliferar citações falsas sobre uma fonte inexistente é simplesmente errado e ruim, mas o que há além disso? O que podemos esperar se permitirmos que essas coisas continuem a se proliferar?

R: Obviamente, já tivemos problemas com citações incorretas e pesquisas falsificadas no passado. O uso atual de IA generativa está industrializando problemas antigos na academia e nos colocando sob muito mais pressão quando se trata de publicação acadêmica. Para mim, isso é uma questão de confiança. Como confiar no registro acadêmico se ele está poluído com material sintético que não se refere mais com precisão a pesquisas anteriores? Quero dizer, toda pesquisa deveria ser um processo de construção sobre o conhecimento prévio para gerar novas ideias e fazer contribuições originais para a compreensão. Não é o caso com as Frankencitações. De forma mais prosaica, por que eu deveria confiar em um autor que submeteu algo à nossa revista que viola a integridade acadêmica?

É também uma questão de trabalho acadêmico. Uma pessoa que tenta economizar tempo ou ser mais produtiva com IA tem efeitos subsequentes sobre aqueles que supervisionam os manuscritos acadêmicos durante a revisão e publicação. Isso está começando a causar um sofrimento intolerável para editores e revisores de periódicos. Já estamos tendo que trabalhar muito mais para acompanhar o aumento exponencial das taxas de submissão, e agora muitas pessoas estão dizendo que também deveríamos verificar cada referência em um artigo — uma tarefa praticamente impossível.

O problema realmente abrangente é o que alguns agora chamam de “desleixo acadêmico”. Enciclopédias Frankenstein podem ser um bom indicador de um artigo gerado por IA. Estamos falando de lixo de IA na academia. Não se trata apenas de referências falsificadas com IA, mas de artigos e livros inteiros. O problema é que grande parte disso é difícil de detectar. Alguns pesquisadores acreditam que deveríamos trabalhar mais com IA e sugerem que é natural que, com o tempo, cada vez mais registros acadêmicos sejam aumentados com a ajuda da IA ​​— seja pelo uso da IA ​​na produção e análise de dados ou como coautora e parceira na produção de conhecimento. Isso pode ser verdade para alguns, em projetos específicos, para fins específicos. Mas o que temos aqui é a produção massiva e mecânica de material acadêmico que pode ou não corresponder a algo real no mundo. Se um artigo não corresponde nem mesmo à literatura anterior em sua própria área, como podemos confiar que ele nos diga algo sobre seus próprios sujeitos e objetos de análise?

P: A curto prazo, existe algo que nós (leitores, pesquisadores, instituições, publicações, etc.) possamos fazer para impedir essa proliferação?

R: Um dos motivos pelos quais temos nos manifestado bastante sobre isso em nossa revista é justamente para tentar persuadir autores acadêmicos de que é uma má ideia se desvalorizarem como pesquisadores e nos insultarem como editores e revisores, submetendo manuscritos com material falso. Quer dizer, se você nos cita e nós não escrevemos o artigo, sabemos o que você fez, e isso diz muito sobre seus padrões acadêmicos. Mas, é claro, essas referências falsas nem sempre são fáceis de detectar, e lidar com isso exigirá esforços muito mais sistêmicos. As editoras já estão testando soluções tecnológicas que supostamente detectam referências geradas por IA. Mas isso aparentemente é muito mais complexo tecnicamente do que se imagina. Já sabemos que os detectores de escrita por IA geram muitos falsos positivos, e é por isso que não são confiáveis ​​para uso em revistas acadêmicas ou para a revisão de trabalhos de estudantes. Os detectores de citação por IA podem apenas amplificar os mesmos problemas, levando a ondas de falsas acusações, rejeições de artigos e animosidade acadêmica.

Acho que precisamos deixar claro que as editoras acadêmicas e as empresas de tecnologia precisam, sem dúvida, se unir e nos ajudar nessa questão. Afinal, as editoras têm parcerias multimilionárias com as grandes empresas de IA para alugar nossos artigos existentes como dados de treinamento para novos modelos. Elas fazem parte do problema do conteúdo acadêmico produzido por IA e precisam trabalhar com editores, autores, bibliotecas e instituições para resolvê-lo.

Aqui no Reino Unido, muitas bibliotecas acadêmicas já estão cancelando contratos com editoras devido ao aumento vertiginoso dos custos. E se nossas bibliotecas e as associações que as representam fossem até as editoras e as grandes empresas de tecnologia com as quais têm parceria e exigissem providências? Sem dúvida, há muito mais força em alianças desse tipo do que em alguns editores gritando em suas redes sociais (como tenho feito ultimamente).

P: E a longo prazo? Quais são as mudanças estruturais/sistêmicas necessárias para evitar que sejamos inundados por esse tipo de lixo de IA?

R:  Precisamos de algum tipo de conjunto de acordos consensuais em todo o setor quando se trata de publicação acadêmica. É claro que as violações da integridade acadêmica não começaram com a IA generativa. Editoras predatórias existem há muito tempo. As fábricas de papel também conseguem produzir manuscritos sob demanda há anos. Algumas pesquisas científicas são ruins e nunca deveriam ser publicadas.

A IA está agora amplificando todos esses problemas existentes. Não os está atenuando. E no atual contexto político de muitos países, a ciência já está sob ataque. Não é difícil imaginar publicações “científicas” geradas por IA que sirvam a fins políticos mais explícitos, especialmente porque certas revistas acadêmicas já foram tomadas e se voltaram contra acadêmicos liberais. A IA também tem o potencial de acelerar ainda mais a produção de artigos científicos, agravando o dilúvio de manuscritos que já inunda as revistas. Esta não é a utopia da IA ​​para a transformação da publicação acadêmica que nos foi prometida quando as editoras se aliaram à OpenAI, ao Google e à Microsoft.

Então, que tipos de regras e normas precisamos reforçar para nos proteger de tudo isso? Precisamos de acordos setoriais sobre como lidar com violações da integridade acadêmica? Na academia e no mercado editorial, temos diversos conjuntos de princípios, padrões e regras. Então, por que não para a IA também?

Não tenho respostas ou soluções completas para esses problemas. Assim como muitos outros editores, revisores, autores e bibliotecários universitários, tenho lutado para manter uma certa esperança acadêmica, visto que a IA foi simplesmente liberada em todos os nossos sistemas de conhecimento. É claro que o sistema já apresentava sérios problemas, mas me parece evidente que o experimento descontrolado com IA dos últimos anos tem sido um desastre para a produção e publicação do conhecimento acadêmico.

Os editores da revista Organization Science acabaram de realizar um estudo detalhado sobre isso , concluindo que o uso acadêmico da IA ​​levou a mais pesquisas, mas não a pesquisas de melhor qualidade, e causou uma crise na revisão por pares. Precisaremos de esforços conjuntos de instituições, editoras e até mesmo das próprias empresas de tecnologia para resolver essa situação. Caso contrário, corremos o risco de o público perder ainda mais a confiança no setor como fonte confiável de conhecimento importante. Ou, para sermos mais otimistas, talvez possamos aproveitar este momento para definir qual tipo de sistema de publicação acadêmica realmente funcionaria melhor no futuro.


Fonte:  Inside Higher Ed

Quão fácil é manipular sua posição no ranking científico? Conheça Larry, o gato mais citado do mundo

“Exercício de absurdo” revela falhas nas métricas de produtividade do Google Acadêmico.

Michael Richardson segurando Larry, o gato.

Larry, aqui retratado com Michael Richardson (pai de Reese Richardson), ostentou o título de gato mais citado do mundo por uma semana. Kelly Richardson 

Por Christie Wilcox para a “Science”

Larry Richardson parecia ser um matemático promissor em início de carreira. Segundo o Google Acadêmico, ele havia escrito uma dúzia de artigos sobre temas que variavam de álgebras complexas à estrutura de objetos matemáticos, acumulando mais de 130 citações em 4 anos. Tudo seria bastante notável — se os estudos não fossem um completo disparate. E Larry não era um gato.

“Foi um exercício de absurdo”, diz Reese Richardson, estudante de pós-graduação em metaciência e biologia computacional na Universidade Northwestern. No início deste mês, ele e seu colega Nick Wise, da Universidade de Cambridge, que também investiga má conduta em pesquisas, criaram o perfil de Larry e arquitetaram a ascensão científica do felino. O objetivo: torná-lo o gato mais citado do mundo , imitando uma tática aparentemente usada por um serviço de aumento de citações anunciado no Facebook. Em apenas duas semanas, a dupla cumpriu sua missão.

A ação visa, espera-se, chamar a atenção para o crescente problema da manipulação de métricas de pesquisa, afirma Peter Lange, consultor de ensino superior e professor emérito de ciência política da Universidade Duke. “Acredito que a maioria dos professores das instituições que conheço sequer tem conhecimento dessas fábricas de citações.”

De maneira geral, quanto mais um artigo científico é citado por outros estudos, mais importante ele e seus autores são em uma área de pesquisa. Uma forma abreviada de medir isso é o popular “ índice h “: um índice h de 10 significa que uma pessoa tem 10 artigos com pelo menos 10 citações cada, por exemplo.

Inflar o número de citações e o índice h de um pesquisador lhe confere “uma enorme vantagem” em contratações e decisões de titularidade, afirma Jennifer Byrne, pesquisadora de câncer da Universidade de Sydney. Isso também alimenta o modelo de negócios de organizações obscuras que prometem aumentar suas citações em troca de dinheiro . “Se você pode simplesmente comprar citações”, diz Byrne, “você está comprando influência”.

Eis que surge Larry, o gato. Sua história começou algumas semanas atrás, quando Wise viu um anúncio no Facebook oferecendo “aumento de citações e índice h”. Não era a primeira vez que ele e Richardson viam uma promoção desse tipo. (O preço médio parece ser de cerca de US$ 10 por citação.) Mas este anúncio incluía capturas de tela de perfis do Google Acadêmico de cientistas reais. Isso significava que a dupla podia ver exatamente quais citações estavam elevando os números.

Descobriu-se que as citações frequentemente pertenciam a artigos repletos de textos sem sentido, escritos por matemáticos há muito falecidos, como Pitágoras. Os estudos haviam sido carregados como PDFs na plataforma acadêmica ResearchGate e, posteriormente, excluídos, obscurecendo sua natureza. (Wise e Richardson tiveram que vasculhar o cache do Google para ler os documentos.) “Pensamos: ‘Nossa, esse procedimento é incrivelmente fácil'”, lembra Richardson. “Basta publicar alguns artigos falsos no ResearchGate.”

Wise observou na época que era tão fácil que um roteiro escrito às pressas para produzir artigos com aparência plausível poderia tornar qualquer pessoa altamente citada — até mesmo um gato. “Não sei se ele estava falando sério”, diz Richardson. “Mas certamente encarei isso como um desafio.” E ele sabia exatamente qual gato superar: FDC Willard . Em 1975, o físico teórico Jack Hetherington adicionou seu gato siamês a um de seus artigos de autoria única para que as referências a “nós” fizessem mais sentido. Até este ano , “Felis Domesticus Chester Willard” tem 107 citações.

Para quebrar esse recorde, Richardson recorreu a Larry, o gato de sua avó. Em cerca de uma hora, ele criou 12 artigos falsos, um atribuído a Larry e o outro a outros 12 autores, cada um citando um dos trabalhos de Larry. Isso resultaria em 12 artigos com 12 citações cada, totalizando 144 citações e um índice h de 12. Richardson carregou os manuscritos em um perfil do ResearchGate que criou para o felino. Então, ele e Wise esperaram que o Google Acadêmico extraísse automaticamente os dados falsos.

Em 17 de julho, os artigos de Larry e 132 citações apareceram no site. (O Google Acadêmico não conseguiu detectar um estudo espúrio, observa Wise.) E, assim, Larry se tornou o gato mais citado do mundo. “Perguntei a Larry qual foi sua reação por telefone”, disse Richardson à Science . “Só posso presumir que ele ficou tão atônito que não conseguiu falar.”

aspas

Se você pode simplesmente comprar citações, está comprando influência.

Jennifer ByrneUniversidade de Sydney

Embora o perfil de Larry possa parecer obviamente falso, encontrar perfis manipulados geralmente não é fácil, afirma Talal Rahwan, cientista da computação da Universidade de Nova York em Abu Dhabi. No início deste ano, ele, Yasir Zaki, também cientista da computação da mesma instituição, e seus colegas analisaram mais de 1 milhão de perfis do Google Acadêmico em busca de contagens de citações anômalas. Eles encontraram pelo menos 114 perfis com “padrões de citação altamente irregulares”, de acordo com um artigo publicado em fevereiro no servidor de pré-impressões arXiv. “A grande maioria tinha pelo menos algumas de suas citações duvidosas provenientes do ResearchGate”, diz Zaki.

A ResearchGate está “claro que ciente dos crescentes problemas de integridade na pesquisa na comunidade científica global”, afirma o CEO da empresa, Ijad Madisch. “[Nós] estamos continuamente revisando nossas políticas e processos para garantir a melhor experiência para nossos milhões de usuários pesquisadores.” Nesse caso, ele diz, a empresa desconhecia que sites de citação ilegal excluem conteúdo após a indexação, aparentemente para encobrir seus rastros — informação que pode ajudar a ResearchGate a desenvolver sistemas de monitoramento mais eficazes. “Agradecemos à revista Science por nos relatar essa situação específica e usaremos este relatório para revisar e adaptar nossos processos conforme necessário.”

O Google Acadêmico removeu as citações de Larry cerca de uma semana depois de terem sido publicadas, fazendo com que ele perdesse seu título não oficial. No entanto, seu perfil ainda existe , e as citações duvidosas presentes no anúncio permanecem. Portanto, “Eles não resolveram o problema”, afirma Wise. O Google Acadêmico não respondeu aos pedidos de comentários.

Não é a primeira vez que alguém manipula o Google Acadêmico publicando artigos falsos. Em 2010, Cyril Labbé, um cientista da computação da Universidade Grenoble Alpes, inventou um pesquisador chamado Ike Antkare (“Não me importo”) e o tornou o sexto cientista da computação mais citado no serviço, publicando artigos falsos no site institucional de Labbé. “Imitando um cientista falso em um gato é muito fofo”, diz Labbé. “Se isso pode ser feito com um gato, pode ser facilmente feito com uma pessoa de verdade.”

Por essa razão, muitos pesquisadores gostariam de ver menos ênfase no índice h e em outras métricas que têm “o brilho indevido da quantificação”, como Lange coloca. Enquanto os benefícios de manipular esses sistemas superarem os riscos e custos, diz Wise, as pessoas continuarão tentando burlá-los. “Como criar uma métrica que não possa ser manipulada? Tenho certeza de que a resposta é: Não dá.”


Fonte: Science

Estudo revela que 20.000 cientistas “hiperprolíficos” publicam quantidades irrealistas de artigos científicos

Análise encontra números ‘implausivelmente altos’ de artigos de muitos cientistas importantes

Crédito: C&EN/Shutterstock 

Por Dalmeet Singh Chawla, especial para C&EN

Cerca de 20.000 cientistas estão publicando um número “implausivelmente alto” de artigos em periódicos acadêmicos e têm um número anormalmente alto de novos colaboradores, sugere um novo estudo.

A análise, publicada em dezembro na Accountability in Research, analisou os padrões de publicação de cerca de 200.000 pesquisadores na lista dos 2% melhores cientistas da Universidade de Stanford, que se baseia em métricas de citação (DOI: 10.1080/08989621.2024.2445280 ).

Descobriu-se que cerca de 10% dos que estavam na lista — cerca de 20.000 cientistas — publicaram um número improvável de artigos. Alguns produziram centenas de estudos por ano com centenas a milhares de novos coautores anualmente.

“Acontece que os pesquisadores, particularmente os mais jovens, estão sendo pressionados a adotar esse tipo de prática que prioriza a quantidade em detrimento da qualidade”, diz a coautora do estudo Simone Pilia, geocientista da King Fahd University of Petroleum and Minerals (KFUPM). “Isso está ameaçando a própria base da integridade acadêmica.”

Os 200.000 cientistas estudados por Pilia e seu coautor, Peter Mora, também na KFUPM, eram de 22 disciplinas científicas diferentes e 174 subcampos. Os autores também estudaram as taxas de publicação e coautoria entre 462 ganhadores do Nobel das áreas de física, química, medicina e economia.

O que surpreendeu Pilia e Mora é o grande número de autores que parecem estar usando práticas antiéticas, como listagem de coautoria sem contribuição adequada para a pesquisa, para aumentar seus números de publicação. Cerca de 1.000 deles são pesquisadores em início de carreira que trabalharam na academia por 10 anos ou menos.

“Há um sistema que está recompensando um volume superficial de trabalho de qualidade”, diz Pilia. “Quando tais padrões se tornam normais, isso não prejudica apenas os indivíduos, mas desvaloriza completamente o processo acadêmico.”

Para abordar o problema de métricas inflacionadas, Pilia e Mora sugerem ajustar ou corrigir métricas quando os pesquisadores atingem certos limites de artigos publicados e coautores. Fazer isso reduziria o valor da publicação de alto volume, diz Pilia.

Mas Ludo Waltman, um cientista da informação que é vice-diretor do Centro de Estudos de Ciência e Tecnologia da Universidade de Leiden e não estava envolvido no estudo, diz que tem “reservas significativas” sobre o ajuste nas métricas que os autores propõem.

Em vez disso, Waltman diz que as métricas de publicação devem desempenhar um papel modesto na avaliação de pesquisa, e os cientistas devem ser avaliados em uma ampla gama de atividades de pesquisa. “As métricas devem ser incorporadas em um processo em que especialistas, com base no julgamento de especialistas, tomem decisões”, ele diz.

Para Waltman, o estudo é problemático porque assume que as métricas desempenham um papel importante na avaliação de pesquisadores. Ao ajustar ou corrigir métricas existentes, Waltman diz que os autores estão introduzindo complexidade desnecessária.

“Basicamente, acho que eles estão criando caixas-pretas para que um avaliador típico não consiga realmente entender como essas métricas funcionam”, ele diz. “Acho que precisamos de métricas que sejam realmente fáceis de entender, métricas que sejam totalmente transparentes e métricas que os avaliadores possam vincular ao contexto mais amplo que eles levam em consideração quando tomam decisões.”


Fonte: Chemical and Engineering News

O mercado negro de citações: esquemas de venda de referências falsas alarmam cientistas

As maneiras pelas quais os pesquisadores podem inflar artificialmente suas contagens de referências estão crescendo

citationsforcash

Citações por dinheiro: pesquisadores identificaram serviços onde acadêmicos podem comprar citações para seus artigos em massa. Crédito: Vergani_Fotografia/Getty

Por Dalmeet Singh Chawla para a Nature 

Os observadores da integridade da pesquisa estão preocupados com as crescentes maneiras pelas quais os cientistas podem falsificar ou manipular as contagens de citações de seus estudos. Nos últimos meses, práticas cada vez mais ousadas surgiram. Uma abordagem foi revelada por meio de uma operação secreta na qual um grupo de pesquisadores comprou 50 citações para preencher o perfil do Google Acadêmico de um cientista falso que eles criaram.

Os cientistas compraram as citações por US$ 300 de uma empresa que parece vender citações falsas em grandes quantidades. Isso confirma a existência de um mercado negro para referências falsas sobre o qual os detetives de integridade de pesquisa há muito especulam, diz a equipe.

“Começamos a notar vários perfis do Google Acadêmico com tendências de citação questionáveis”, diz Yasir Zaki, um cientista da computação da Universidade de Nova York (NYU) Abu Dhabi, cuja equipe descreveu sua operação de picada em uma pré-impressão de fevereiro 1 . “Quando um manuscrito adquire centenas de citações em poucos dias de publicação, ou quando um cientista tem um aumento abrupto e grande nas citações, você sabe que algo está errado.”

Essas práticas são problemáticas porque muitos aspectos da carreira de um pesquisador dependem de quantas referências seus artigos reúnem. Muitas instituições usam contagens de citações para avaliar cientistas, e os números de citações informam métricas como o h -index, que visa medir a produtividade dos acadêmicos e o impacto de seus estudos.

A manipulação de citações pode ter consequências reais. Em junho, o jornal espanhol El País relatou que o Comitê de Ética em Pesquisa da Espanha instou a Universidade de Salamanca a investigar o trabalho de seu reitor recém-nomeado, Juan Manuel Corchado, um cientista da computação acusado de aumentar artificialmente suas métricas do Google Scholar. (Corchado não respondeu ao pedido de comentário da Nature .)

Referências à venda

Observadores da integridade da pesquisa já suspeitavam que as citações estão à venda em fábricas artigos científicos , serviços que produzem estudos de baixa qualidade e vendem slots de autoria em artigos já aceitos, diz Cyril Labbé, um cientista da computação na Universidade Grenoble Alpes, na França. “As fábricas de papel têm a capacidade de inserir citações em artigos que estão vendendo”, ele diz.

Em novembro de 2023, a empresa de análise Clarivate, na Filadélfia, Pensilvânia, excluiu mais de 1.000 pesquisadores de sua lista anual de pesquisadores altamente citados por medo de jogos de citação e “hiperpublicação”.

Em sua operação secreta, Zaki e seus colegas criaram um perfil no Google Acadêmico para um cientista fictício e enviaram 20 estudos fictícios que foram criados usando inteligência artificial.

A equipe então abordou uma empresa, que eles encontraram ao analisar citações suspeitas vinculadas a um dos autores em seu conjunto de dados, que parecia estar vendendo citações para perfis do Google Acadêmico. Os autores do estudo contataram a empresa por e-mail e depois se comunicaram pelo WhatsApp. A empresa ofereceu 50 citações por US$ 300 ou 100 citações por US$ 500. Os autores optaram pela primeira opção e 40 dias depois, 50 citações de estudos em 22 periódicos — 14 dos quais são indexados pelo banco de dados acadêmico Scopus — foram adicionadas ao perfil do pesquisador fictício no Google Acadêmico.

A equipe não compartilhou o nome da empresa com a Nature , citando preocupações de que revelá-lo poderia chamar a atenção para seu site, ou para o perfil falso do Google Acadêmico que eles criaram, porque isso poderia revelar as identidades dos autores dos estudos que plantaram as citações falsas. Questionado pela Nature se o Google Acadêmico está ciente de que perfis falsos podem ser criados em seu site, Anurag Acharya, engenheiro distinto da empresa, disse: “Embora o mau comportamento acadêmico seja possível, é raro porque todos os aspectos são visíveis — artigos indexados, artigos incluídos por um autor em seu perfil, artigos citando um autor, onde os artigos que citam estão hospedados e assim por diante. Qualquer pessoa no mundo pode chamá-lo para isso.”

Em outra demonstração de manipulação de citações, no mês passado pesquisadores criaram um perfil falso do Google Acadêmico para um gato chamado Larry listando uma dúzia de artigos falsos com Larry como único autor. Os pesquisadores postaram mais uma dúzia de estudos sem sentido no site de rede social acadêmica ResearchGate que citavam os artigos de Larry. Mais ou menos uma semana depois que a identidade de Larry foi revelada, o Google Acadêmico removeu os estudos do gato, aqueles que citavam Larry e as citações acumuladas. O ResearchGate também removeu os estudos falsos que citavam Larry.

Pré-impressões falsas

A operação de Zaki e colegas nasceu de um esforço mais amplo para avaliar a escala do problema de citações falsas. Eles usaram software para examinar cerca de 1,6 milhão de perfis do Google Acadêmico que tinham pelo menos 10 publicações. Eles procuraram perfis com mais de 200 citações e instâncias nas quais as citações dos pesquisadores aumentaram 10 vezes ou mais a cada ano ou quando o aumento representou um salto de pelo menos 25% de sua contagem total de citações. A equipe encontrou 1.016 desses perfis.

Zaki diz que muitas citações dos artigos nesses perfis são de artigos pré-impressos que não foram revisados ​​por pares e que normalmente são listados nas bibliografias dos artigos, mas não são citados no corpo principal dos manuscritos.

“As citações podem ser facilmente manipuladas pela criação de pré-impressões falsas e por meio de serviços pagos”, diz o coautor Talal Rahwan, cientista da computação da NYU Abu Dhabi.

Os autores também entrevistaram 574 pesquisadores trabalhando nas 10 universidades mais bem classificadas do mundo. Eles descobriram que, das universidades que consideram contagens de citações ao avaliar cientistas, mais de 60% obtêm esses dados do Google Scholar.

Padrões de peixes

Labbé não está convencido pela alegação da pesquisa de que o Google Acadêmico é amplamente usado para obter métricas de citação de pesquisadores. Alegações de manipulação de citações no Google Acadêmico surgiram no passado, ele diz, e acadêmicos há muito suspeitam que há fornecedores oferecendo esse tipo de serviço. Mas a operação secreta para revelar um vendedor de citações é a primeira do tipo, ele diz.

Guillaume Cabanac, um cientista da computação da Universidade de Toulouse, na França, que criou uma ferramenta que sinaliza artigos fabricados que contêm frases estranhas adicionadas para driblar softwares de detecção de plágio, diz que muitos estudos estão surgindo com citações de trabalhos que não têm nada a ver com o tópico do estudo.

A equipe de Labbé está criando uma ferramenta que sinaliza automaticamente padrões de citação suspeitos que podem indicar manipulação.

Para ajudar com isso, a equipe de Zaki propõe uma métrica chamada índice de concentração de citações, projetada para detectar casos em que um cientista recebe muitas citações de poucas fontes. Tal atividade é frequentemente um sinal de um “círculo de citações”, no qual cientistas concordam em citar uns aos outros para inflar as métricas uns dos outros. “Os suspeitos tendem a ter citações massivas originadas de apenas algumas fontes”, diz Rahwan.

Um medo entre os detetives de integridade é que os fraudadores concebam práticas mais sutis para evitar serem descobertos. Por exemplo, uma maneira de evitar ser detectado pelo índice de concentração de citações, observa Labbé, é comprar algumas citações por vez e não em massa.

Para Labbé, a maneira de lidar com o jogo de citações é mudar os incentivos na academia para que os cientistas não fiquem sob pressão para acumular o máximo de citações possível para progredir em suas carreiras. “A pressão por publicação e citação é prejudicial ao comportamento dos cientistas”, ele diz.

doi: https://doi.org/10.1038/d41586-024-01672-7

Referência

  1. Ibrahim, H., Liu, F., Zaki, Y. & Rahwan, T. Pré-impressão em arXiv https://doi.org/10.48550/arXiv.2402.04607 (2024).


Fonte: Nature

O caso de Juan Manuel Corchado, reitor da Universidade de Salamanca, deverá provocar uma mudança nos sistemas de medição de mérito científico

corchado

Juan Manuel Corchado, pego em escândalo da fábrica de citações, apresentando um seminário na Universidade de Salamanca

Por Adam Marcus e  Ivan Oransky para o “El País”

De longe, a posse de Juan Manuel Corchado como reitor da Universidade de Salamanca no início deste ano provavelmente pareceu um toque final natural e merecido à carreira deste notável acadêmico. Afinal, Corchado, um cientista da computação muito prolífico, é um dos investigadores mais citados em Espanha, o que demonstra a elevada estima que o seu trabalho goza entre os seus colegas.

Mas, como o EL PAÍS vem noticiando há meses, a impressionante reputação de Corchado como acadêmico pode ser imerecida. Muitas de suas citações vêm de seu próprio trabalho, e ainda por cima de um trabalho doentio: breves apresentações em conferências que Corchado carregou em seu site e depois referenciou, como fomos os primeiros a apontar em 2022. O caso agora chamou a atenção do Comitê Comitê Espanhol de Ética na Investigação, que instou a Universidade de Salamanca a exercer “os seus poderes de fiscalização e sanção” face às “alegadas más práticas” de Corchado.

Porque é que estas más práticas ajudaram Corchado e a sua universidade? Porque muitos dos critérios de classificação – factores que ajudam a determinar o financiamento das agências governamentais, bem como a competir pela matrícula dos estudantes – são baseados em citações, que são especialmente fáceis de manipular. Por outras palavras, quanto melhor os cientistas olham para o papel, melhor impressão se tem das suas instituições.

O caso do Corchado nada mais é do que um exemplo notório do que tem causado a obsessão pelas medições. No Vietnam, os pesquisadores falam constantemente de um sistema de classificação que acaba de ser divulgado, mas a comunicação social considera-o “caótico” e cheio de erros. Na semana passada, o The Economist publicou um artigo bajulador sobre a ciência na China. “A China tornou-se uma superpotência científica”, declarou a revista, e “lidera o índice Nature , criado pela editora com o mesmo nome, que contabiliza contribuições para artigos que aparecem num conjunto de publicações de prestígio”.

O que o The Economist omitiu – mas já tinha apontado antes – é que a China é responsável por bem mais de metade dos mais de 50.000 estudos retratados no mundo, uma distinção duvidosa que pode ser atribuída diretamente à atenção rigorosa que o país presta às métricas. Até estas práticas serem oficialmente proibidas em 2020, os investigadores chineses recebiam grandes bônus em dinheiro pela publicação de artigos em revistas incluídas no índice da Nature, e os docentes clínicos das escolas médicas – cujo trabalho não envolve investigação – eram obrigados a publicar artigos para ganhar o cargo e avançar, apesar de não ter treinamento para isso.

Estes incentivos eram, em essência, convites diretos à prática de fraudes, como demonstrou um inquérito recente a investigadores na China. De que outra forma poderiam os acadêmicos impulsionar as suas carreiras senão aumentando a sua produção, criando círculos de citações ou mesmo recorrendo a fábricas de artigos científicos fraudulentos?

Embora seja fácil culpar o governo chinês pela corrida armamentista das citações, as universidades nada fizeram para impedi-la e, em muitos casos, até incentivaram o sistema a funcionar exatamente como funciona. Na Índia, por exemplo, uma escola de odontologia concebeu o que um crítico chamou de “esquema repugnante” de autocitações para chegar ao topo do ranking na sua especialidade. Na Arábia Saudita, algumas universidades contrataram matemáticos proeminentes como professores honorários para que as suas nomeações contassem nas classificações das suas instituições.

O que nos traz de volta ao caso de Corchado. Não está claro por que ele se citou tanto, porque ele nunca respondeu aos nossos pedidos de comentários há dois anos, exceto para dizer que havia quebrado o braço e demoraria a responder. Mas, naquela época, Alberto Martín Martín, especialista em bibliometria da Universidade de Granada, destacou que a Espanha ainda dá muita atenção ao fator de impacto das publicações para avaliar a produção de seus pesquisadores, ainda mais do que em outros países .

De certa forma, a opinião pública deveria agradecer a Corchado por soar o alarme no EL PAÍS e no Comitê de Ética em Pesquisa espanhol. O fato de continuar ou não reitor da Universidade de Salamanca é menos importante do que o fato de este episódio provocar uma mudança real em Espanha e no resto do mundo. Há movimentos em curso, incluindo a Declaração sobre Avaliação da Investigação (DORA) e o Manifesto de Leiden, para encorajar um afastamento das citações e outras medidas em direcção a estratégias que recompensem o tipo de cultura da investigação que queremos e precisamos.

As universidades e os governos têm a oportunidade de reformar as suas estratégias de avaliação antes que as coisas piorem ainda mais. Eles podem substituí-los pela forma usual de avaliar o trabalho dos pesquisadores: lendo-o.

+++++++++++++++++++++++++++

Adam Marcus e Ivan Oransky são os fundadores da Retraction Watch , uma organização americana especializada em descobrir fraudes científicas.


Fonte: El País