Estatística esquenta debate sobre resultados exagerados de estudo

Matemáticos explicam os problemas do estudo de percepção extrassensorial de Daryl Bem

The New York Times |

Eles deveriam ter imaginado que seria assim.

Nas últimas semanas, os editores de uma respeitada publicação de psicologia têm sido criticados por colegas cientistas, devido à decisão de aceitar um relato de pesquisa que alega mostrar a existência da percepção extrassensorial.

O artigo, a ser publicado neste ano em “The Journal of Personality and Social Psychology”, não tem grandes chances de mudar opiniões. As críticas científicas dos métodos de pesquisa e das análise de dados do autor, Daryl J. Bem (e dos revisores que incitaram a aceitação do artigo), não estão conquistando muitos corações.

Mesmo assim, o episódio esquentou um dos mais antigos debates da ciência. Durante décadas, alguns estatísticos defenderam que a técnica padrão usada para analisar dados em grande parte da ciência social e da medicina exagera as descobertas de muitos estudos – frequentemente com grande margem.

Como resultado, segundo esses especialistas, a literatura está recheada de descobertas positivas que não procedem: tratamentos “eficazes” que funcionam tanto quanto um placebo; leves predisposições que não afetam o comportamento; correlações de imagens cerebrais que não significam nada.

Ao incorporar técnicas estatísticas, hoje amplamente utilizadas em outras ciências – genética, economia, criação de modelos, até mesmo monitoramento da vida selvagem --, os cientistas sociais podem corrigir tais problemas, economizando a eles mesmos (e aos repórteres científicos) tempo, esforço e constrangimentos.

“Fiquei satisfeito por esse artigo sobre percepção extrassensorial ter sido aceito numa revista científica importante, pois trouxe de volta toda essa questão”, disse James Berger, estatístico da Universidade Duke. “Há 20 anos, eu estava numa mini-cruzada sobre isso, e percebi que poderia dedicar toda a minha vida ao assunto e nunca descobrir nada sobre o problema”.

A abordagem estatística que dominou as ciências sociais por quase um século é chamada de significância estatística. A ideia é bem direta. A descoberta de qualquer estudo bem desenvolvido – digamos, uma correlação entre um traço de personalidade e o risco de depressão – é considerada “significativa” se sua probabilidade de ocorrer ao acaso é menor que 5 por cento.

Esse atalho arbitrário faz sentido quando o efeito sendo estudado é um dos grandes – por exemplo, a medição do efeito “Stroop”. Esse efeito prevê que dizer a cor de uma palavra é mais rápido e preciso quando palavra e cor são compatíveis (“vermelho” em letras vermelhas) do que incompatíveis (“vermelho” em letras azuis), e é muito forte em quase todas as pessoas.

“Mas, se o verdadeiro efeito do que você está medindo é pequeno”, disse Andrew Gelman, professor de estatística e ciência política na Universidade Columbia, “então, por necessidade, qualquer coisa que você descobrir será um cálculo exagerado” daquele efeito.

Pense no seguinte experimento: suponha que há razões para acreditar que uma moeda está levemente adulterada para indicar “cara”. Num teste, a moeda mostra “cara” 527 vezes para mil tentativas.

Essa é uma evidência significativa de que a moeda está adulterada? A análise clássica diz que sim. Com uma moeda honesta, as chances de se obter 527 ou mais “caras” em mil tentativas é menor do que uma em 20, ou 5 por cento, o atalho convencional. Para colocar de outra forma: o experimento encontra evidências de uma moeda adulterada “com 95 por cento de segurança”.

Mesmo assim, muitos estatísticos não compram essa ideia. Uma em 20 é a probabilidade de se obter qualquer número de “caras” acima de 526 em mil tentativas. Ou seja, essa é a soma da probabilidade de obter 528, 529 e assim por diante.

Mas o experimento não encontrou todos os números nesse intervalo; ele encontrou apenas um – 527. Por isso, é mais preciso, segundo esses especialistas, calcular a probabilidade de se obter especificamente aquele número – 527 – se a moeda for adulterada, e comparar isso à probabilidade de se obter o mesmo número se a moeda for honesta.

Estatísticos podem mostrar que essa proporção não pode ser maior que cerca de quatro para um, segundo Paul Speckman, um estatístico que, com Jeff Rouder, psicólogo, desenvolveu o exemplo. Ambos são da Universidade do Missouri, e afirmaram que esse simples experimento representa uma demonstração bruta de como a análise clássica difere de uma abordagem alternativa, que enfatiza a importância de comparar as chances de cada descoberta a algo que é notório.

O importante aqui, segundo Rouder, é que a probabilidade de 4-1 “simplesmente não é tão convincente; ela não forma uma evidência sólida”.

E, mesmo assim, o teste clássico de significância “vem dizendo por ao menos 80 anos que isso é uma evidência sólida”, explicou Speckman por e-mail.

Os críticos vêm se lamentando por metade desse tempo. Na década de 1960, uma equipe de estatísticos liderada por Leonard Savage, da Universidade de Michigan, mostrou que a abordagem clássica podia exagerar a significância da descoberta num fator de 10 vezes ou mais. Naquela época, um crescente número de estatísticos estava desenvolvendo métodos baseados nas ideias do matemático britânico Thomas Bayes, do século XVIII.

Bayes criou uma forma de atualizar as probabilidades de uma hipótese conforme chegassem novas evidências.

Assim, ao avaliar a força de uma dada descoberta, a análise bayesiana incorpora probabilidades conhecidas, se disponíveis, de fora do estudo.

Isso poderia ser chamado de efeito “até parece”. Se um estudo descobre que maçãs reduzem o risco de doenças cardíacas em 90 por cento, que um tratamento cura o vício em álcool numa semana, que grávidas sensíveis têm o dobro de chances de parir meninas do que meninos, a reação bayesiana equivale àquela do verdadeiro cético: até parece. As descobertas do estudo são comparadas com o que pode ser observado no mundo exterior.

Em ao menos uma área da medicina – exames de rastreamento diagnóstico -- os pesquisadores já utilizam probabilidades conhecidas para avaliar novas descobertas. Por exemplo, um novo teste de detecção de mentiras pode ter uma precisão de 90 por cento, apontando corretamente nove em cada 10 mentirosos. Porém, se ele for aplicado a uma população de 100 indivíduos, onde é notório existir 10 mentirosos, o teste fica bem menos impressionante.

Ele identifica corretamente nove entre 10 mentirosos e deixa passar um; mas identifica incorretamente nove dos outros 90 como mentirosos. Dividindo os supostos falso-negativos (nove) pelo número total de pessoas apontadas pelo teste (18), a taxa de precisão fica em 50%. Os “falso-positivos” e “falso-negativos” dependem das taxas conhecidas nessa população.

Da mesma forma, segundo especialistas, a análise estatística precisa encontrar maneiras de expor e contrabalançar todos os fatores que podem levar a resultados falso-positivos – entre eles a natureza humana, em sua ambiciosa esperança de descobrir algo novo, e os efeitos do dinheiro industrial, que influenciam pesquisadores a relatar descobertas positivas sobre produtos.

E, é claro, a regra tácita de que estudos fracassados – os que não encontram efeitos – têm probabilidades bem menores de publicação do que os positivos. Quais seriam as chances, por exemplo, de a revista ter publicado o estudo de Bem caso sua conclusão fosse de que a percepção extrassensorial realmente não existe?

    Notícias Relacionadas


      Mais destaques

      Destaques da home iG