A Ciência está quebrada

ciencia quebrada

Incentivos perversos e o mau uso de métricas quantitativas prejudicaram a integridade da pesquisa científica

Por Siddartha Rhoy e Marc A. Edwards*

O surgimento da universidade de pesquisa do século 20 nos Estados Unidos da América (EUA) é uma das grandes realizações da civilização humana, pois ajudou a estabelecer a ciência como um bem público e avançou a condição humana através de treinamento, descoberta e inovação. Mas se a prática da ciência viesse a prejudicar a confiança e o relacionamento simbiótico com a sociedade que permitiu que ambos florescessem, a nossa capacidade de resolver os problemas críticos enfrentados pela humanidade e pela própria civilização estará em risco. Recentemente, exploramos como os incentivos cada vez mais perversos e o modelo vigente de negócios acadêmicos podem afetar adversamente as práticas científicas e, por extensão, se uma perda de apoio à ciência em alguns segmentos da sociedade pode ser atribuída ao que a ciência está fazendo a si mesma, ao contrário do que outros estão fazendo a ela.

Nós argumentamos que ao longo do último meio século, os incentivos e a estrutura de recompensa da ciência mudaram, criando uma hiper competição entre os pesquisadores acadêmicos. O corpo docente a tempo parcial e adjunto agora compõe 76% da mão-de-obra acadêmica, permitindo que as universidades operem mais como empresas, tornando as posições com estabilidade muito mais raras e desejáveis. O aumento da confiança nas emergentes métricas quantitativas de desempenho que valorizam o número de artigos, citações e dólares de pesquisa levantados diminuiu a ênfase em resultados e qualidade socialmente relevantes. Também há preocupação de que essas pressões possam encorajar a conduta antiética dos cientistas e da próxima geração de pesquisadores de STEM (ciência, tecnologia, engenharia e matemática) que persistam neste ambiente hiper competitivo. Acreditamos que é necessária uma reforma para trazer o equilíbrio para a academia e para o contrato social entre ciência e sociedade, para assegurar o futuro papel da ciência como bem público.

A busca da estabilidade tradicionalmente influencia quase todas as decisões, prioridades e atividades dos jovens docentes nas universidades de pesquisa estadunidenses. As mudanças recentes no meio acadêmico, no entanto, incluindo maior ênfase nas métricas de desempenho quantitativas, competição severa por financiamento federal estático ou reduzido e implementação de modelos de negócios privados em universidades públicas e privadas estão produzindo resultados indesejáveis e consequências não desejadas (veja a Tabela 1 abaixo).

As métricas quantitativas estão cada vez mais dominando a tomada de decisões na contratação, promoção e estabilidade de professores, prêmios e financiamentos, e criando um foco intenso na contagem de publicações, citações, contagens combinadas de publicação de citações (o Índice h é o mais popular), fatores de impacto de periódicos, total de dólares de pesquisa e totais de patentes obtidas. Todas essas medidas estão sujeitas à manipulação de acordo com a Lei de Goodhart, que afirma: quando uma medida se torna um alvo, ela deixa de ser uma boa medida. As métricas quantitativas podem, portanto, ser enganosas e, em última instância, contraproducentes para avaliar a pesquisa científica.

sized-Table-Roy-&-Edwards-revised

A crescente dependência de métricas quantitativas pode criar desigualdades e resultados pior do que os sistemas que elas substituíram. Especificamente, se as recompensas são desproporcionalmente dadas aos indivíduos que manipulam as métricas, os problemas bem conhecidos dos antigos paradigmas subjetivos (por exemplo, as redes de compadrios) parecem simples e solúveis. A maioria dos cientistas pensa que o dano devido a métricas já é evidente. Na verdade, 71 % dos pesquisadores acreditam que é possível “jogar” ou “enganar” seu caminho para melhores avaliações em suas instituições.

Esta manipulação das métricas avaliadoras foi documentada. Exposições recentes revelaram esquemas de revistas para manipular fatores de impacto, uso de p-hacking por pesquisadores para extrair resultados estatisticamente significativos e publicáveis, manipulação do próprio processo de avaliação por pares e práticas de super citação. O cientista da computação Cyril Labbé, da Universidade Joseph Fourier de Grenoble, ainda criou Ike Antkare, um personagem de ficção que, em virtude da publicação de 102 documentos falsos gerados por computador, alcançou um h-index estelar de 94 no Google Scholar, superando o de Albert Einstein. Os blogs que descrevem como inflar o Índice h sem comprometer fraude direta estão distantes, de fato, apenas de uma pesquisa no Google.

Desde a Segunda Guerra Mundial, a produção científica medida pelo trabalho citado duplicou a cada nove anos. Quanto do crescimento nesta indústria do conhecimento é, em essência, ilusório e uma consequência natural da lei de Goodhart? Essa é uma questão real.

Consideremos o papel da qualidade versus quantidade maximizando o verdadeiro progresso científico. Se um processo for ultrapassado a qualidade em relação à quantidade, as práticas aceitas podem exigir estudos com dupla ou dupla quadrícula, replicação obrigatória de resultados por partes independentes e revisão por pares de todos e estatísticas antes da publicação. Tal sistema produziria poucos resultados devido ao excesso de cautela e desperdiçaria o escasso financiamento da pesquisa. Em outro extremo, uma ênfase excessiva na quantidade produziria inúmeros artigos de qualidade inferior com um projeto experimental laxista, pouca ou nenhuma replicação, controle de qualidade escasso e revisão de pares deficiente (ver Figura 1 abaixo).  Se medido pelas métricas quantitativas, o progresso científico aparente explodiria, mas muitos resultados seriam errôneos e os consumidores de pesquisa ficariam envolvidos em saber o que seria válido ou inválido. Esse sistema apenas cria uma ilusão de progresso científico. Obviamente, é desejável um equilíbrio entre quantidade e qualidade.

É hipoteticamente possível que, em um ambiente sem métricas quantitativas e menos incentivos perversos, enfatizando a quantidade em relação à qualidade, as práticas de avaliação acadêmica (aplicadas pela avaliação por pares) evoluiriam para estar perto de um ótimo nível de produtividade. Mas suspeitamos que o ambiente de incentivo perverso existente está empurrando os pesquisadores a enfatizar a quantidade de forma a competir, deixando a verdadeira produtividade científica em níveis inferiores ao ótimo. Se o ambiente hiper competitivo também aumentasse a probabilidade e a frequência do comportamento antiético, toda a empreitada científica seria eventualmente lançada em dúvida. Embora praticamente não existam pesquisas que explorem o impacto preciso de incentivos perversos sobre a produtividade científica, a maioria do mundo acadêmico reconhece que houve uma mudança em prol da quantidade na pesquisa.

sized-Figure-1-Roy-&-Edwards

Favorecer a saída de artigos sobre os resultados, ou a quantidade sobre a qualidade, também pode criar uma “perversão da seleção natural”. Esse sistema é mais provável de erradicar pesquisadores éticos e altruístas, ao selecionar aqueles que melhor respondem a incentivos perversos. O estudante médio pode ser pressionado a se engajar em práticas antiéticas para ter ou manter uma carreira. Então, de acordo com os “Modelos Limitadores do Comportamento Coletivo” de Mark Granovetter (1978), as ações antiéticas se tornam “incorporadas nas estruturas e processos” de uma cultura profissional. Neste ponto, o condicionamento para “ver a corrupção como permitida”, ou mesmo necessária, se tornará muito forte.  Testemunhos convincentes já vêm surgindo, por parte de professores de sucesso e preocupados com a coisa pública de por que eles estão deixando uma carreira que já amaram. A revista “Chronicle of Higher Education” até inventou um nome para este gênero: Quit Lit. No Quit Lit, mesmo pesquisadores seniores fornecem explicações perfeitamente racionais para deixar suas posições privilegiadas e premiadas, ao invés de comprometer seus princípios em um ambiente de incentivo perverso e hiper competitivo. É preciso perguntar-se se os estudantes pertencentes a minorias ou as mulheres decidem racional e desproporcionalmente optam mais por abandonar o sistema científico do que os grupos que tendem a persistir.

Em resumo, embora as métricas quantitativas ofereçam uma abordagem superficialmente atraente para avaliar a produtividade da pesquisa em comparação com medidas subjetivas, uma vez que elas são alvo, deixam de ser úteis e podem até ser contraproducentes. A continuação da ênfase excessiva nas métricas quantitativas pode obrigar a que todos os cientistas, com exceção dos mais éticos, produzam mais trabalhos de menor qualidade, a “reduzir os cantos sempre que possível”, a diminuir a produtividade real, e selecionar os cientistas que persistem e prosperam em um ambiente de incentivo perverso. É hipoteticamente possível que as realidades da academia moderna afetem a persistência de mulheres e minorias étnicas em todas as fases da linha de produção acadêmica.

Muitas sociedades científicas, instituições de pesquisa, revistas acadêmicas e indivíduos têm argumentos avançados tentando corrigir alguns excessos de métricas quantitativas. Alguns assinaram a Declaração de São Francisco sobre Avaliação de Pesquisa (DORA). A DORA reconhece a necessidade de melhorar as “maneiras de avaliar a pesquisa científica” e exige desafiar as práticas de avaliação de pesquisa, especialmente os parâmetros atuais do fator de impacto periódico. A partir de 1 de agosto de 2017, 871 organizações e 12.788 indivíduos assinaram a DORA, incluindo a Sociedade Americana de Biologia Celular, a Associação Americana para o Avanço da Ciência, o Instituto Médico Howard Hughes e os Procedimentos da Academia Nacional de Ciências. As editoras da Nature, Science e outras revistas pediram que seja minimizada a medida do fator de impacto. A  Sociedade Americana de Microbiologia recentemente tomou uma posição de princípio e eliminou a informação do fator de impacto de todos os seus periódicos para evitar contribuir para o foco inadequado nos fatores de impactos dos mesmos. O objetivo é retardar a “avalanche” de métricas de desempenho não confiáveis que dominam a avaliação da pesquisa. Como outros, não estamos defendendo o abandono de métricas, mas reduzindo sua importância na tomada de decisões pelas instituições e agências de financiamento, até possivelmente ter medidas objetivas que representem melhor o verdadeiro valor da pesquisa científica.

No ambiente de financiamento hiper competitivo da ciência moderna, o governo federal foi a fonte indispensável de recursos, sendo primordial no financiamento de pesquisa e desenvolvimento (P & D), criando novos conhecimentos, cumprindo missões públicas, incluindo segurança nacional, agricultura, infraestrutura e saúde ambiental. A partir da Segunda Guerra Mundial, o governo federal dos EUA suportou em grande parte a maioria dos custos da pesquisa científica de alto risco e de longo prazo. Essa pesquisa científica traz perspectivas incertas ou, por vezes, não possui impactos obsoletos da sociedade em curto prazo, e segue uma agenda comumente estabelecida por cientistas e agências de financiamento. Esta base de financiamento federal criou um ecossistema de pesquisa e conhecimento complementado por universidades e indústrias. Juntos, fez contribuições históricas para o progresso coletivo da humanidade.

Por pelo menos na última década, no entanto, os gastos federais dos EUA em P & D declinaram. A sua “intensidade de pesquisa” (ou o orçamento federal de P & D como parte do produto interno bruto do país) caiu para 0,78% (2014) de cerca de 2% na década de 1960. Na contramão disso, até 2020 a China deverá gastar mais do que os EUA em P&D.

As faculdades e universidades dos EUA também têm historicamente servido para moldar a próxima geração de pesquisadores, que fornecerão educação e conhecimento para o público e para o público. Mas, à medida que as universidades se transformam em “centros de lucro”, focados na geração de novos produtos e patentes, elas estão deixando de enfatizar a ciência como um bem público.

A competição entre os pesquisadores pelo financiamento nunca foi tão intensa, entrando em uma era com o pior cenário de financiamento em meio século. Entre 1997 e 2014, a taxa de financiamento para os subsídios dos Institutos Nacionais dos Estados Unidos (NIH) caiu de 30,5% para 18%. As taxas de financiamento da Fundação Nacional de Ciência dos EUA (NSF) permaneceram estagnadas em 23-25% na última década. Agradecidas por pequenos favores, essas taxas de financiamento ainda estão bem acima de 6%, o que é um ponto de equilíbrio aproximado quando o custo líquido da proposta de escrita equivale ao valor líquido obtido de uma concessão pelo vencedor da subvenção. No entanto, o ambiente de concessão é hiper competitivo, sendo suscetível ao viés do revisor, distorcido para agendas de pesquisa de agências de financiamento e fortemente dependente do sucesso anterior, que é medido por métricas quantitativas. Mesmo antes da crise financeira, o premiado com o Prêmio do Nobel, Roger Kornberg, observou que: “Se o trabalho que você propõe fazer não é virtualmente certo de sucesso, então não será financiado”. Essas amplas mudanças levam valioso tempo e recursos para longe da ciência descoberta e tradução, atraindo pesquisadores para gastar quantidades excessivas de tempo constantemente perseguindo propostas de concessão e preenchendo cada vez mais documentos para estar em conformidade com o processo de concessão das verbas.

O crescimento constante dos incentivos perversos e seu papel instrumental nas práticas de pesquisa, contratação e promoção da faculdade, equivale a uma disfunção sistêmica que põe em perigo a integridade científica. Há evidências crescentes de que as publicações cientificas atuais frequentemente sofrem de falta de replicabilidade, dependem de conjuntos de dados tendenciosos, aplicam métodos estatísticos mínimos ou de baixa qualidade, não conseguem se proteger contra vícios dos pesquisadores, e exageram suas descobertas. Em outras palavras, uma ênfase excessiva na quantidade versus qualidade. Portanto, não é surpreendente que o escrutínio tenha revelado um nível preocupante de atividade antiética, falsificação definitiva da revisão pelos pares e retrações. A revista “The Economist” recentemente destacou a prevalência de pesquisas científicas modernas de baixa qualidade e não reprodutíveis e seu alto custo financeiro para a sociedade.  Os editores da “The Economist” sugeriram fortemente que a ciência moderna não é confiável e precisa de uma reforma. Dado o alto custo de expor, divulgar ou reconhecer a má conduta científica, podemos estar bastante seguros de que há muito mais do que foi revelado. Os avisos de problemas sistêmicos remontam a pelo menos 1991, quando o então diretor da NSF, Walter E Massey, observou que o tamanho, a complexidade e o aumento da natureza interdisciplinar da pesquisa diante da crescente concorrência tornavam a ciência e a engenharia mais vulneráveis à falsificações.

“A NSF define a falta de conduta de pesquisa como “fabricação, falsificação ou plágio” intencional na proposição, realização ou revisão de pesquisa, ou no relatório de resultados de pesquisa”. Entre os casos de falhas na pesquisa investigados pelo Departamento de Saúde e Serviços Humanos dos EUA (inclui o NIH) e a NSF, 20 a 33 % são considerados culpados. Os custos anuais, a nível institucional, de US$ 110 milhões são incorridos para todas essas investigações de investigação e de falta de conduta nos EUA. De 1992 a 2012, 291 artigos científicos publicados com financiamentos do NIH foram retraídos por má conduta, representando US $ 58 milhões em financiamento direto da agência. Obviamente, a incidência de má conduta não detectada é maior, e são múltiplos dos casos julgados como tal anualmente.

A verdadeira incidência é difícil de prever. Uma meta-análise abrangente de pesquisa-indícios de conduta inadequada durante 1987-2008 indicou que um em cada 50 cientistas admitiu ter cometido má conduta (fabricação, falsificação e / ou modificação de dados) pelo menos uma vez, e 14% dos cientistas conheciam colegas que tinham feito isso. Muito provavelmente, dada a sensibilidade das perguntas feitas e as baixas taxas de resposta, esses números são uma subestimativa da verdadeira incidência de condutas inadequadas. Desde 1975, na ciência da vida e pesquisa biomédica, a porcentagem de artigos científicos retraídos aumentou dez vezes; e 67% das retrações foram devidas à má conduta. Hipóteses para este aumento incluem a “atração do jornal de luxo”, “publicação patológica”, políticas de má conduta insuficientes, cultura acadêmica, estágio profissional e incentivos perversos. Da Ciência do Clima à Corrosão Galvânica, vimos pesquisas publicadas que mancharam o ethos científico e prejudicam a credibilidade da comunidade científica e de todos.

O princípio do autogoverno na academia é forte, e esta é uma característica distintiva da universidade de pesquisa moderna. Espera-se que a ciência seja auto policiada e auto corretiva. Acreditamos, no entanto, que os incentivos em todo o sistema induzem todas as partes interessadas a “fingir que má conduta não acontece”. É notável o fato de que a ciência nunca desenvolveu um sistema claro para relatar e investigar alegações de condutas inapropriadas por parte de pesquisadores. Indivíduos que alegam que denunciar a má conduta não têm um caminho fácil e evidente para fazê-lo e correm o risco de sofrer graves e negativas repercussões profissionais. Em relação ao que é considerado justo em apresentar pesquisas, práticas de redação de projetos de pesquisa, e promoção de ideias de pesquisa, os pesquisadores operam, em grande medida, em um sistema de honra inaplicável e não escrito. Hoje, existem razões convincentes para duvidar de que a ciência como um todo é auto corretiva. Não somos os primeiros a reconhecer esse problema. Os cientistas propuseram estudos abertos, acesso aberto, revisão por pares pós-publicação, meta-estudos e esforços para reproduzir estudos de marco como práticas para ajudar a compensar as altas taxas de erro na ciência moderna. Por mais benéficas que essas medidas corretivas possam ser, incentivos perversos para indivíduos e instituições continuam sendo o principal problema.

Existem casos excepcionais em que os indivíduos forneceram uma verificação de realidade em comunicados de imprensa de pesquisa, especialmente em áreas consideradas potencialmente transformadoras (por exemplo, o comentário em tempo real de Jonathan Eisen sobre alguma mania em torno do micro bioma). Geralmente, no entanto, as limitações dos setores de pesquisas quentes são minimizadas ou ignoradas. Porque cada mania científica moderna cria uma ganância inesperada por métrica quantitativa para os participantes, e porque poucas consequências são impostas sobre os responsáveis quando uma bolha de ciência explode. O único controle efetivo sobre as patologias da ciência e a má alocação de recursos continua sendo o sistema de honra não escrito.

A falta de conduta não se limita aos pesquisadores acadêmicos. Os incentivos perversos e a hiper competição também são úteis para as agências federais, dando origem a um novo fenômeno da falta de conduta institucional na pesquisa científica. Os Centros para o Controle e Prevenção de Doenças (CDC) dos Estados Unidos, por exemplo, produziram um relatório errado sobre a crise da água potável em Washington, DC, afirmando que os níveis extremamente elevados de chumbo na água não causaram uma elevação níveis deste elemento químico no sangue nas crianças que a consumiam. Depois de se recusarem a corrigir ou defender suas pesquisas, os investigadores do Congresso estadunidense tiveram que intervir e concluíram que o relatório do CDC era “cientificamente indefensável”. Poucos meses depois de serem castigados no Congresso, o mesmo ramo do CDC escreveu aquilo que uma investigação de jornalistas da Reuters chamou de outro relatório “falho” sobre a contaminação por chumbo do solo, água potável e ar na região leste da cidade de Chicago, em Indiana, que deixou as crianças e minorias vulneráveis em perigo durante pelo menos cinco anos mais do que era necessário.

A Agência de Proteção Ambiental dos EUA (EPA) também publicou relatórios científicos de consultores com base em dados inexistentes em revistas das indústrias. Mais recentemente, a EPA silenciou seus próprios denunciantes durante a crise da água na cidade de Flint, em Michigan. À medida que as agências competem cada vez mais por uma redução do financiamento discricionário e pela manutenção dos fluxos de caixa existentes (o desejo dos pesquisadores do CDC de se concentrarem mais na pintura de chumbo, em vez de levar na água, por exemplo), eles parecem estar mais inclinados a publicar “boas notícias” em vez disso da Ciência. Em uma era de declínio do financiamento discricionário, as agências federais têm conflitos de interesse financeiros e medos de sobrevivência, semelhantes aos da indústria privada. Dado o equívoco comum de que as agências de financiamento federais estão livres de tais conflitos, os perigos da falta de conduta na pesquisa institucional podem rivalizar ou mesmo superar os da pesquisa patrocinada pela indústria, uma vez que não existe um sistema de cheques e contrapesos, e os consumidores desse trabalho podem ser confiante demais.

Se não reformarmos a empreitada da pesquisa científica acadêmica, arriscamos à desconsideração significativa e à desconfiança pública da ciência. A moderna empresa de pesquisa acadêmica, que The Economist ridiculizou como um “esquema de Ponzi”, opera em um sistema de incentivos perversos que teria sido quase inconcebível para pesquisadores há 50 anos. Acreditamos que este sistema representa uma ameaça real para o futuro da ciência. Se a ação imediata não for tomada, arriscar-se a criar uma cultura profissional corrupta semelhante à revelada no ciclismo profissional (ou seja, 20 dos 21 pódio de finalistas do Tour de France durante 1999-2005 foram vinculados de forma conclusiva ao doping), onde um incentivo perverso descontrolado O sistema criou um ambiente em que os atletas sentiram que tinham que trapacear para competir. Enquanto o pro-ciclismo sofreu um grave descrédito devido a prolíficos escândalos de doping instigados por um desejo ardente de ganhar a qualquer custo, as apostas na ciência são muito maiores. A perda de atores altruístas e a confiança na ciência trazem danos ainda maiores ao público e ao planeta.

Nos últimos anos, a academia tem testemunhado um êxito incondicional ao reconhecer inúmeras questões importantes, incluindo as de diversidade demográfica, equilíbrio entre trabalho e vida pessoal, financiamento, melhor ensino, divulgação pública e envolvimento – tentativas estão sendo feitas para enfrentar muitos desses problemas.

Todos os cientistas devem aspirar a deixar o campo em um estado melhor do que quando entramos pela primeira vez. Os assuntos muito importantes de financiamento estadual e federal estão além do nosso controle direto. No entanto, quando se trata da saúde, integridade e percepção pública da ciência e seu valor, somos os principais atores. Podemos reconhecer e resolver abertamente problemas com incentivos perversos e hiper competição que estão distorcendo a ciência e enfraquecendo a pesquisa científica como um bem público. Algumas etapas relativamente simples incluem chegar a uma melhor compreensão do problema, minerando sistematicamente as experiências e percepções de acadêmicos em campos STEM, através de uma pesquisa abrangente de estudantes de pós-graduação de alto nível e pesquisadores.

Em segundo lugar, a NSF deve encomendar um painel de economistas e cientistas sociais com experiência em incentivos perversos para coletar e revisar a contribuição de todos os níveis da academia, incluindo membros aposentados da Academia Nacional e especialistas distinguidos de STEM. Com uma visão de longo prazo para promover a ciência como um bem público, o painel também poderia desenvolver uma lista de “melhores práticas” para orientar a avaliação de candidatos para contratação e promoção.

Em terceiro lugar, não podemos mais dar ao luxo de fingir que o problema da má conduta de pesquisa não existe. Nos níveis de graduação e pós-graduação, os estudantes de ciências e engenharia devem receber instrução realista sobre esses assuntos, de modo que eles estejam preparados para agir quando, e não se, eles o encontrem. O currículo deve incluir a revisão das pressões, incentivos e tensões do mundo real que podem aumentar a probabilidade de má conduta da pesquisa.

Em quarto lugar, as universidades podem tomar medidas imediatamente para proteger a integridade da pesquisa científica e anunciar medidas para reduzir os incentivos perversos e defender políticas de conduta de pesquisa que desencorajem comportamentos antiéticos. Finalmente, e talvez de forma mais simples, além de ensinar habilidades técnicas, os próprios programas de doutoramento devem aceitar que devem reconhecer a realidade atual de incentivos perversos, ao mesmo tempo em que promovem o desenvolvimento do caráter e o respeito pela ciência como bem público e o papel crítico de ciência de qualidade para o futuro da Humanidade.

Siddartha Roy  é candidato a PhD em Engenharia Ambiental pela Virginia Polytechnic Institute and State University (Virginia Tech) e Marc A. Edwards é  Professor Emérito também da Virginia Tech.

Esta é uma tradução livre feita por mim de um artigo publicado em inglês pelo site AEON.co [Aqui!] , o qual vem a ser  uma versão condensada do artigo científico ” Academic Research in the 21st Century: Maintaining Scientific Integrity in a Climate of Perverse Incentives and Hypercompetition’, que foi publicado na Environmental Engineering Science,  e  quefoi escrito para alcançar uma audiência mais ampla [Aqui!].  Artigo original © Marc A Edwards and Siddhartha Roy, 2016.