Um esforço ambicioso testou se mais de 100 artigos resistiam a múltiplos tipos de testes de “repetibilidade”

Davide Bonazzi/Salzmanart
Por Jeffrey Brainard para “Science”
Um amplo projeto envolvendo centenas de pesquisadores em dezenas de países mostrou que, em todas as ciências sociais, as conclusões de aproximadamente metade dos artigos não podem ser replicadas de forma independente, e não há maneira confiável de prever quais deles apresentarão problemas. Chamado de Sistematização da Confiança em Pesquisa e Evidências Abertas ( SCORE , na sigla em inglês), o projeto investigou mais de 100 artigos publicados em dezenas de periódicos de referência nas áreas de negócios, economia, educação, ciência política, psicologia e sociologia. A taxa de sucesso na replicação — 49% para os 164 artigos avaliados , relatada hoje na revista Nature — é consistente com as conclusões de estudos anteriores em áreas específicas, como a psicologia, sugerindo que o problema é generalizado nas ciências sociais.
O estudo também sugere que não há solução fácil. A equipe do SCORE esperava identificar indicadores-chave que pudessem ser associados à credibilidade de um artigo e, talvez, utilizados para fornecer aos leitores uma métrica de confiança nos resultados apresentados. Mas o esforço atual para encontrar esse denominador comum — que a equipe do SCORE descreveu no início do projeto como “ambicioso” — ficou, em grande parte, aquém do esperado, conforme descrito em um conjunto de artigos da Nature e pré-publicações separadas. “São necessárias muito mais evidências antes que possamos ter confiança em uma solução válida e escalável”, afirma o psicólogo Brian Nosek, líder do projeto SCORE e diretor do Centro de Ciência Aberta (COS) da Universidade da Virgínia.
No entanto, a dimensão e o alcance multidisciplinar do trabalho são sem precedentes, afirmam cientistas sociais não ligados ao projeto. “O nível de esforço colaborativo empregado nisso é incrível”, diz Kathryn Zeiler, economista e jurista da Universidade de Boston. “É um trabalho árduo. O fato de tantos cientistas terem se interessado por [fazer] isso demonstra o progresso que a metaciência [a ciência da ciência] alcançou de forma geral.”
Os investigadores do projeto testaram artigos científicos com base em três critérios que são frequentemente agrupados, mas que refletem facetas distintas do que a equipe do SCORE denomina repetibilidade da pesquisa: replicabilidade, reprodutibilidade e robustez. Um artigo é replicável se uma nova análise de dados diferentes, relevantes para a mesma questão, produzir o mesmo resultado geral; reprodutível quando os mesmos dados e análises utilizados no artigo original produzirem o mesmo resultado nas mãos de outro pesquisador; e robusto quando um método analítico diferente, aplicado aos mesmos dados, fornecer a mesma resposta.
A taxa de sucesso de replicação de 49% é semelhante à relatada pela equipe para reprodutibilidade precisa: 54% de 182 artigos . (Alguns artigos não puderam ser testados quanto à reprodutibilidade e replicação devido à falta de disponibilidade de dados e outras limitações.) Em um critério ligeiramente menos rigoroso, que os autores denominam reprodutibilidade aproximada, o número subiu para 74%. Nos testes de robustez , nos quais pelo menos cinco analistas examinaram cada um dos 100 artigos, pelo menos um analista apoiou a conclusão do artigo original em 74% dos casos. Mas em apenas 34% deles todos os analistas concordaram que o resultado estava correto. (Todos os artigos incluídos no projeto foram publicados até 2018; as taxas atuais poderiam ser maiores, considerando as práticas acadêmicas em evolução e os requisitos das revistas científicas voltados para o aprimoramento do rigor analítico e da transparência.)
“Eles apresentaram diferentes maneiras de considerar a reprodutibilidade, o que eu acho realmente importante”, diz Kelly Cobey, uma metacientista do Instituto do Coração da Universidade de Ottawa que não participou do estudo. “Há uma necessidade constante de os pesquisadores estabelecerem confiança na pesquisa que produzimos, e analisar os métodos que utilizamos para conduzir e analisar nossa pesquisa é um componente fundamental para manter essa confiança.”
Os pesquisadores também coletaram mais de uma dúzia de outras medidas que, em sua opinião, poderiam indicar a credibilidade e o rigor de um estudo — e se as descobertas poderiam ser replicadas. Os potenciais indicadores incluíam se o artigo relatava ressalvas, se seguia os padrões de compartilhamento de dados e o número de vezes que foi citado. Eles tinham motivos para acreditar que a busca por tal indicador poderia dar frutos: anteriormente, pesquisadores relataram algum sucesso usando ferramentas de inteligência artificial (IA) e “mercados de previsão”, nos quais cientistas basicamente apostam em artigos individuais sobre quais poderiam ser replicados — sugerindo que havia algumas semelhanças subjacentes.
No entanto, a investigação não encontrou nenhum marcador que se destacasse como confiável . Apenas um fator apresentou alta correlação com a reprodutibilidade: a disponibilidade de dados. Apenas um terço dos artigos na amostra de reprodutibilidade do SCORE disponibilizaram prontamente os dados e o código computacional que sustentavam as descobertas — e esses artigos apresentaram uma taxa de reprodução muito maior.
Os modelos de IA também falharam em identificar com precisão quais estudos poderiam ser replicados , mesmo quando os algoritmos foram treinados para imitar previsões humanas precisas. Um projeto subsequente do COS está usando uma competição com prêmios em dinheiro para testar novas formas de IA, e algumas apresentaram melhor desempenho . Se aprimoradas, as previsões de replicabilidade poderiam eventualmente ser usadas para avaliar quais estudos justificam revisões completas por avaliadores independentes, afirmam os autores do SCORE — talvez aqueles com baixos índices de confiança, mas que sejam particularmente importantes para políticas públicas e bem-estar humano. (O SCORE foi financiado inicialmente pela Agência de Projetos de Pesquisa Avançada de Defesa dos EUA (DARPA) para estudar técnicas automatizadas que auxiliassem as forças armadas americanas no uso de pesquisas em ciências sociais, que são extensas.)
Segundo Cobey, melhorar a replicabilidade exige reformas nas avaliações profissionais e nas práticas de financiamento para incentivar os pesquisadores a priorizar o rigor e a qualidade em vez da quantidade de artigos publicados. “Responder às questões persistentes sobre a credibilidade da pesquisa exige uma mudança cultural na forma como conduzimos pesquisas.”
Alguns críticos da ciência contemporânea — incluindo funcionários do governo do presidente Donald Trump — afirmam que a dificuldade em replicar alguns estudos indica falhas sistêmicas generalizadas, negligência e fraude por parte dos pesquisadores. Nosek discorda e diz que as razões para essas falhas são complexas; ele espera que o novo estudo incentive mais pesquisas para entender por que elas ocorrem e encontrar novas maneiras de aprimorar o rigor científico. “Uma única falha na replicação não invalida o resultado original”, afirma Nosek. “Trata-se de uma nova evidência, que, por sua vez, suscita novas perguntas, novas investigações e, eventualmente, chegamos a respostas nas quais podemos confiar.”
Fonte: Science











