Il mondo moderno ci pone davanti innumerevoli scelte e prendere delle decisioni è sempre più difficile. Le scelte possono coinvolgere poche persone, come quelle fatte quotidianamente, oppure possono interessare tutti noi, come per esempio le decisioni sulla politica economica di un Paese. In particolare le decisioni più importanti per la vita delle persone (trattamenti medici, costruzione di grandi opere, provvedimenti legislativi) non possono essere prese senza prima valutarne le conseguenze facendo simulazioni. È la ricerca scientifica che si occupa di fare modelli e di studiare i diversi scenari per tentare di prevedere gli effetti di una scelta. Non abbiamo strumenti migliori, dobbiamo quindi fidarci dei ricercatori e degli strumenti matematici alla base dei modelli.

Ed è proprio questo il grosso rischio a cui siamo sottoposti direttamente o indirettamente nella nostra vita: dobbiamo fidarci della ricerca e dei suoi metodi. E se la ricerca sbagliasse, se proprio il metodo di analisi dei dati avesse delle falle? Ebbene si potrebbe provare che il cioccolato aiuta a perdere peso! E questo è proprio quello che ha fatto Johannes Bohannon assieme ai suoi collaboratori come descritto nell’articolo dal titolo Chocolate with high cocoa content as a weight-loss accelerator.

Vediamo dove sta il problema.

Quando si analizzano i dati per indagare se esiste una relazione tra due grandezze si usa lo strumento dei test statistici. In termini più tecnici si verifica se è valida l’ipotesi nulla, cioè l’assenza di relazione. Dai dati a disposizione si ricava la misurazione x corrispondente alla quantità desiderata X e si stima quanto l’aver osservato x sia coerente con l’ipotesi nulla. Per fare questo calcolo è spesso necessario fare determinate ipotesi sulla distribuzione dei dati nel caso in cui sia valida l’ipotesi nulla; spesso si suppone che i valori si distribuiscano in modo gaussiano con la varianza stimata usando gli stessi dati. Questa ipotesi permette di calcolare la probabilità che in assenza di relazione venga effettivamente osservato il valore x o valori ancora più improbabili nell’ipotesi nulla per la quantità X: il numero ottenuto è chiamato valore p (o p-value) ed è chiaramente compreso tra 0 e 1. La comunità scientifica ha deciso di considerare che una relazione ha rilevanza statistica se il valore p misurato è inferiore a 0.05, in questo caso infatti la probabilità che si ottenga x in assenza di relazione è così bassa (inferiore al 5%) che è ragionevole credere che un qualche rapporto tra le grandezze esista.

In figura, una stima della proporzione di falsi positivi presenti nelle pubblicazioni scientifiche.

Si potrebbe pensare quindi che il numero di pubblicazioni falsate da misurazioni molto improbabili sia solo il 5%, ma il problema è molto più complesso e questa percentuale è certamente molto maggiore. Innanzitutto fissare la soglia del valore p a 0.05 per evitare di avere molti falsi positivi fa in modo che ci siano tanti falsi negativi. Se gli esperimenti sono eseguiti in modo corretto, cioè con un campione di dati sufficiente grande e preciso, si può assumere che ci sia il 20% di falsi negativi: in pratica su 100 ricerche che tentano di verificare relazioni realmente esistenti, 20 di queste non otterranno i risultati sperati e ai ricercatori apparirà che le relazioni studiate non siano statisticamente rilevanti.

In conclusione se ipotizziamo che un gruppo di ricercatori faccia 1000 ricerche e tra queste 100 delle ipotesi fatte siano vere, avremo 50 pubblicazioni corrispondenti ai falsi positivi generati dalla scelta del valore p, 80 pubblicazioni vere che confermano l’esistenza del rapporto ipotizzato (eliminando i 20 falsi negativi non pubblicati) e in base al campo di studi ci saranno 20-30 pubblicazioni che evidenziano correttamente l’inesistenza delle relazioni testate.

Quindi circa un terzo delle pubblicazioni evidenzia risultati falsi.

Nella pratica è molto probabile che ci siano esperimenti con un campione di dati molto ridotto o studiati in modo tale da avere un gran numero di falsi positivi; per esempio si può decidere di continuare a raccogliere dati finché non si ottiene un valore p minore di 0.05. Queste e altre strategie vanno sotto al nome di p-hacking e tutte assieme possono incrementare sensibilmente il numero di falsi positivi.

valore_p

La linea nera mostra la distribuzione dei valori p per ricerche che verificano un’ipotesi falsa (A) o un’ipotesi vera (B), mentre la linea rossa mostra l’influenza del p-hacking sulla distribuzione.

Non bisogna pensare che i ricercatori procedano volutamente e consciamente in questa direzione per ottenere bassi valori p, ma sicuramente sono influenzati dal voler pubblicare e ottenere risultati pubblicabili. Il motivo è facilmente intuibile, i ricercatori vengono selezionati per il numero di pubblicazioni e per l’impatto che queste hanno avuto sulla successive ricerche e spesso questi indicatori non sono sufficientemente efficaci per stimare la qualità di una pubblicazione. Inoltre ai ricercatori non costa nulla pubblicare ricerche con risultati erronei, costa molto di più non pubblicare nulla. Per giunta la richiesta di ricerche innovative e dai risultati inaspettati aumenta ancora di più il numero di falsi positivi pubblicati, in quanto il numero di ipotesi false analizzate sovrasta quello delle ipotesi rivelatesi giuste.

Per arginare questo fenomeno la scienza si affida alla pratica della revisione paritaria (peer-review): i ricercatori valutano gli articoli dei propri colleghi e controllano che non ci siano errori. Chiaramente questo non è sufficiente per arginare il problema se non si mettono in dubbio i dati di partenza usati nell’articolo. Però ogni esperimento deve essere riproducibile, quindi sono sorti vari progetti con l’obiettivo di validare gli esperimenti scientifici raccogliendo nuovi dati. In particolare il Center for Open Science (COS) finanzia dal 2011 due progetti sulla riproduzione di esperimenti fondamentali nelle branche della psicologia e dell’oncologia. I team di scienziati incaricati della validazione lavorano a stretto contatto con gli autori degli articoli per assicurare una riproduzione quanto più fedele degli esperimenti. I risultati non sono molto rassicuranti: per quanto riguarda il Reproducibility Project: Psychology 35 esperimenti su 97 sono stati riprodotti con successo, mentre il Reproducibility Project: Cancer Biology, tuttora in corso, ha valicato solo 6 articoli su 53.

Questi progetti però sono solo casi isolati, e nonostante la comunità scientifica negli ultimi anni stia prendendo coscienza del problema, purtroppo la maggior parte delle riviste scientifiche non è interessata a pubblicare articoli sulla riproduzione degli esperimenti, quindi risulta molto difficile emendare gli errori degli articoli precedentemente pubblicati. Inoltre visto che la carriera di un ricercatore è valutata in base alle pubblicazioni, non vi è alcun incentivo a impiegare il proprio tempo per validare esperimenti altrui.

Questi dati mostrano come sia rischioso affidarsi totalmente alle ultime scoperte scientifiche pubblicate, in particolare se dimostrano relazioni stupefacenti e inaspettate. La scienza vive un processo di auto-miglioramento continuo e si può solo sperare che gli errori emergano naturalmente negli studi successivi. Certamente, nonostante la quantità di pubblicazioni errate, il metodo scientifico rimane il miglior modo che abbiamo per indagare il mondo e per scoprirne il suo funzionamento. Il percorso della scienza, come quello di ogni grande sfida, comporta dei rischi.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...