Metade das pesquisas em Ciências Sociais não é replicável, mostra estudo

Um esforço ambicioso testou se mais de 100 artigos resistiam a múltiplos tipos de testes de “repetibilidade”

Ilustrações de papéis representando prédios, com uma pessoa abrindo um deles como se tivesse uma porta.

Davide Bonazzi/Salzmanart

Por Jeffrey Brainard para “Science”

Um amplo projeto envolvendo centenas de pesquisadores em dezenas de países mostrou que, em todas as ciências sociais, as conclusões de aproximadamente metade dos artigos não podem ser replicadas de forma independente, e não há maneira confiável de prever quais deles apresentarão problemas. Chamado de Sistematização da Confiança em Pesquisa e Evidências Abertas ( SCORE , na sigla em inglês), o projeto investigou mais de 100 artigos publicados em dezenas de periódicos de referência nas áreas de negócios, economia, educação, ciência política, psicologia e sociologia. A taxa de sucesso na replicação — 49% para os 164 artigos avaliados , relatada hoje na revista Nature — é consistente com as conclusões de estudos anteriores em áreas específicas, como a psicologia, sugerindo que o problema é generalizado nas ciências sociais.

O estudo também sugere que não há solução fácil. A equipe do SCORE esperava identificar indicadores-chave que pudessem ser associados à credibilidade de um artigo e, talvez, utilizados para fornecer aos leitores uma métrica de confiança nos resultados apresentados. Mas o esforço atual para encontrar esse denominador comum — que a equipe do SCORE descreveu no início do projeto como “ambicioso” — ficou, em grande parte, aquém do esperado, conforme descrito em um conjunto de artigos da Nature e pré-publicações separadas. “São necessárias muito mais evidências antes que possamos ter confiança em uma solução válida e escalável”, afirma o psicólogo Brian Nosek, líder do projeto SCORE e diretor do Centro de Ciência Aberta (COS) da Universidade da Virgínia.

No entanto, a dimensão e o alcance multidisciplinar do trabalho são sem precedentes, afirmam cientistas sociais não ligados ao projeto. “O nível de esforço colaborativo empregado nisso é incrível”, diz Kathryn Zeiler, economista e jurista da Universidade de Boston. “É um trabalho árduo. O fato de tantos cientistas terem se interessado por [fazer] isso demonstra o progresso que a metaciência [a ciência da ciência] alcançou de forma geral.”

Os investigadores do projeto testaram artigos científicos com base em três critérios que são frequentemente agrupados, mas que refletem facetas distintas do que a equipe do SCORE denomina repetibilidade da pesquisa: replicabilidade, reprodutibilidade e robustez. Um artigo é replicável se uma nova análise de dados diferentes, relevantes para a mesma questão, produzir o mesmo resultado geral; reprodutível quando os mesmos dados e análises utilizados no artigo original produzirem o mesmo resultado nas mãos de outro pesquisador; e robusto quando um método analítico diferente, aplicado aos mesmos dados, fornecer a mesma resposta.

A taxa de sucesso de replicação de 49% é semelhante à relatada pela equipe para reprodutibilidade precisa: 54% de 182 artigos . (Alguns artigos não puderam ser testados quanto à reprodutibilidade e replicação devido à falta de disponibilidade de dados e outras limitações.) Em um critério ligeiramente menos rigoroso, que os autores denominam reprodutibilidade aproximada, o número subiu para 74%. Nos testes de robustez , nos quais pelo menos cinco analistas examinaram cada um dos 100 artigos, pelo menos um analista apoiou a conclusão do artigo original em 74% dos casos. Mas em apenas 34% deles todos os analistas concordaram que o resultado estava correto. (Todos os artigos incluídos no projeto foram publicados até 2018; as taxas atuais poderiam ser maiores, considerando as práticas acadêmicas em evolução e os requisitos das revistas científicas voltados para o aprimoramento do rigor analítico e da transparência.)

“Eles apresentaram diferentes maneiras de considerar a reprodutibilidade, o que eu acho realmente importante”, diz Kelly Cobey, uma metacientista do Instituto do Coração da Universidade de Ottawa que não participou do estudo. “Há uma necessidade constante de os pesquisadores estabelecerem confiança na pesquisa que produzimos, e analisar os métodos que utilizamos para conduzir e analisar nossa pesquisa é um componente fundamental para manter essa confiança.”

Os pesquisadores também coletaram mais de uma dúzia de outras medidas que, em sua opinião, poderiam indicar a credibilidade e o rigor de um estudo — e se as descobertas poderiam ser replicadas. Os potenciais indicadores incluíam se o artigo relatava ressalvas, se seguia os padrões de compartilhamento de dados e o número de vezes que foi citado. Eles tinham motivos para acreditar que a busca por tal indicador poderia dar frutos: anteriormente, pesquisadores relataram algum sucesso usando ferramentas de inteligência artificial (IA) e “mercados de previsão”, nos quais cientistas basicamente apostam em artigos individuais sobre quais poderiam ser replicados — sugerindo que havia algumas semelhanças subjacentes.

No entanto, a investigação não encontrou nenhum marcador que se destacasse como confiável . Apenas um fator apresentou alta correlação com a reprodutibilidade: a disponibilidade de dados. Apenas um terço dos artigos na amostra de reprodutibilidade do SCORE disponibilizaram prontamente os dados e o código computacional que sustentavam as descobertas — e esses artigos apresentaram uma taxa de reprodução muito maior. 

Os modelos de IA também falharam em identificar com precisão quais estudos poderiam ser replicados , mesmo quando os algoritmos foram treinados para imitar previsões humanas precisas. Um projeto subsequente do COS está usando uma competição com prêmios em dinheiro para testar novas formas de IA, e algumas apresentaram melhor desempenho . Se aprimoradas, as previsões de replicabilidade poderiam eventualmente ser usadas para avaliar quais estudos justificam revisões completas por avaliadores independentes, afirmam os autores do SCORE — talvez aqueles com baixos índices de confiança, mas que sejam particularmente importantes para políticas públicas e bem-estar humano. (O SCORE foi financiado inicialmente pela Agência de Projetos de Pesquisa Avançada de Defesa dos EUA (DARPA) para estudar técnicas automatizadas que auxiliassem as forças armadas americanas no uso de pesquisas em ciências sociais, que são extensas.)

Segundo Cobey, melhorar a replicabilidade exige reformas nas avaliações profissionais e nas práticas de financiamento para incentivar os pesquisadores a priorizar o rigor e a qualidade em vez da quantidade de artigos publicados. “Responder às questões persistentes sobre a credibilidade da pesquisa exige uma mudança cultural na forma como conduzimos pesquisas.”

Alguns críticos da ciência contemporânea — incluindo funcionários do governo do presidente Donald Trump — afirmam que a dificuldade em replicar alguns estudos indica falhas sistêmicas generalizadas, negligência e fraude por parte dos pesquisadores. Nosek discorda e diz que as razões para essas falhas são complexas; ele espera que o novo estudo incentive mais pesquisas para entender por que elas ocorrem e encontrar novas maneiras de aprimorar o rigor científico. “Uma única falha na replicação não invalida o resultado original”, afirma Nosek. “Trata-se de uma nova evidência, que, por sua vez, suscita novas perguntas, novas investigações e, eventualmente, chegamos a respostas nas quais podemos confiar.”


Fonte: Science

Problemas no paraíso da ciência: estudo encontra baixa reprodutibilidade em estudos sobre psicologia humana

REPRODUTIBILIDADE

O artigo abaixo de autoria do jornalista Gabriel Alves foi publicado na Folha de São Paulo e trata de um problema que assombra todo bom pesquisador, qual seja, a possibilidade de replicação de seus experimentos. E o “mutirão” científico liderado pelo professor Brian Nosek, da Universidade da Vírgínia, mostra que no caso da Psicologia os resultados relativos à reprodutibilidade são baixos. Dado que a reprodutibilidade é uma das formas de se medir rigor científico, o problema enfrentado pela comunidade científica não é insignificante.

Como os trabalhos analisados não foram estudos publicados em revistas especializadas em “trash science” (aliás justamente o contrário!), o que parece ficar demonstrado é que os problemas enfrentados na ciência contemporânea são mais agudos do que se pode imaginar inicialmente. É a pressão para se produzir “novidades” impactando negativamente a robustez dos estudos que são realizados.

No caso do Brasil, eu fico imaginando qual porcentagem dos estudos publicados em revistas brasileiras passariam num teste semelhante. Como professor de Metodologia da Pesquisa por quase duas décadas, a minha suspeita é de que os resultados não sejam muito melhores dos que foram encontrados por Brian Nosek e seus colaboradores.

Aos interessados em ler o artigo publicado publicado na revista Science, basta clicar (Aqui!)

Na área da psicologia, 61% dos estudos científicos são frágeis

GABRIEL ALVES, DE SÃO PAULO

Um grupo formado por 270 cientistas da área de psicologia se dedicou à tarefa hercúlea de refazer cem experimentos que já haviam sido anteriormente publicados nas melhores revistas da área.

A surpresa: menos da metade dos estudos replicadores chegou aos mesmos resultados dos originais, segundo um artigo publicado na última edição da “Science”.

Uma possível explicação para tão desanimadora descoberta é que, em biologia, psicologia e medicina, o número de variáveis a serem controladas é muito grande.

No caso de uma pesquisa com camundongos, pelo menos dá para ter a certeza de que eles tem o mesmo background genético e que viveram toda a vida em um ambiente parecido.

Quando humanos são estudados, porém, o número de possíveis variáveis candidatas a trazerem ruído para as medidas é enorme. Em psicologia, não há como fugir disso.

De todo modo, com a cifra de só 39% de “acertos” das replicações, não é exagero para os cientistas envolvidos de que se deve ligar o sinal amarelo na área.

O “mutirão científico” foi encabeçado por Brian Nosek, psicólogo e professor da Universidade da Virgínia.

O “argumento de autoridade”, defende Nosek, não vale: a credibilidade de um estudo depende, ao menos em parte, da reprodutibilidade da evidência em que se baseia.

Infográfico: Clique no infográfico: Pesquisas não comprovadas

Enquanto 97% dos estudos originais selecionados conseguiam obter resultados significantes (que não poderiam ser atribuídos ao acaso a não ser com uma pequena probabilidade, em geral 5%), apenas 36% dos estudos de replicação conseguiram resultados que apontassem na mesma direção.

Além disso, 83% das replicações que deram certo eram “menos intensas” do que os estudos originais.

Entre os resultados estudados estão achados que foram bastante comentados na época em que saíram, como o que a descrença no livre arbítrio aumenta a chance de traição e o que mulheres comprometidas se sentem mais atraídas por homens solteiros quando estão no período fértil.

EXPLICAÇÕES

O valor reduzido de “acertos” não necessariamente significa picaretagem.

Existem três explicações possíveis para as discordâncias: a primeira é a de que o resultado original tenha sido um falso positivo –quando o erro é detectar uma diferença ou identificar um fenômeno que na verdade não existe.

A segunda é a de que os estudos que tentaram replicar sejam falsos negativos –o erro seria de não detectar o fenômeno mostrado no estudo original, que existiria, de fato.

A terceira, por fim –bastante comum também em outras áreas das ciências da saúde–, poderia ser atribuída a pequenas diferenças metodológicas em relação ao estudo original, como participantes de diferentes etnias ou idades, condições diferentes de avaliação, ou sazonalidade de um fenômeno.

Incorrer nessa última armadilha foi uma preocupação do “mutirão”. Os autores dos estudos originais foram contatados e convidados a auxiliar na adaptação da metodologia do estudo-réplica.

Tanto que Alan Kraut, diretor-executivo da Associação Americana de Psicologia, que publica a revista “Psychological Science”, disse que a questão da replicabilidade é um dos desafios a serem superados pela publicação.

Os cientistas dizem que a cultura de uma competição agressiva na ciência favorece a publicação de resultados que se mostrem mais novos e, de certa forma, mais “sensuais” que os demais, em detrimento de atividades importantes porém menos reconhecidas como as de replicar outros estudos já publicados.

A psicóloga e professora do Instituto de Psicologia da USP, Paula Debert, crê que mais estudos de revisão são úteis à ciência. “Com a publicação das réplicas em boas revistas é que é possível ter certeza da qualidade dos estudos”.

No caso do mutirão, os 270 cientistas estabeleceram critérios de transparência e de revisão a fim de garantir a qualidade dos novos resultados.

Nem sempre uma divergência de resultados quer dizer algo ruim, defende Paula: “Às vezes o mais interessante é pesquisar a razão das diferenças. Pode ser um detalhe que passou batido”.

Um exemplo disso, exemplifica, poderia ser uma sala com nível de ruído diferente daquela usada no estudo original, ou mesmo algum detalhe a respeito dos participantes da pesquisa.

Márcia McNutt, editora da “Science”, disse que esse tipo de estudo realizado pelo “mutirão” trouxe informações importantes e que ele ajudará a estabelecer um tipo de controle melhor sobre a reprodutibilidade de estudos no futuro.

FONTE: http://app.folha.uol.com.br/#noticia/587880