Conoscete il gioco da tavolo “Indovina Chi?”, che andava di moda qualche decina di anni fa? Lo scopo del gioco è determinare nel minor numero di turni possibili l’identità di un personaggio fra ventiquattro facendo delle domande sul suo aspetto fisico. Queste dovrebbero servire ad eliminare dal gruppo degli “indiziati” una grande parte dei personaggi nel tabellone di gioco finché, andando per esclusione, si arriva alla soluzione.

Da un punto di vista probabilistico, supponendo che non esistano motivi per preferire un personaggio agli altri, la probabilità iniziale che ad esempio Joe sia il personaggio da indovinare è 0,04 (1 su 24), valore uguale per tutti i personaggi. Quando si scopre ad esempio che il personaggio è un uomo, le probabilità devono essere aggiornate: mentre ai personaggi femminili va assegnata una probabilità nulla, la probabilità che Joe sia l’obiettivo deve necessariamente aumentare (perché la somma delle probabilità per tutti i personaggi deve rimanere uguale a 1). Il problema sta nel determinare le modalità con cui trattare matematicamente questo aumento. Se infatti in questo caso la scelta migliore sembra essere quella di ridistribuire equamente l’aumento, cosa si fa quando le probabilità iniziali non sono uniformi tra i personaggi?

Un simpatico religioso britannico di nome Thomas Bayes fornì una risposta a questo problema già a metà del Settecento, quando tanto il gioco da tavolo quanto i suoi creatori erano ancora di là da venire (in realtà lui voleva determinare nientemeno che la probabilità dell’esistenza di Dio). Con il teorema che porta il suo nome individuò la formula matematica per aggiornare delle stime di probabilità alla luce di nuovi dati. Sprezzanti della paura per la matematica proviamo a riportarla:

Bayes1

dove P indica la probabilità e P(X|Y) indica una probabilità condizionata, cioè la probabilità che l’evento X si verifichi dato che sappiamo che l’evento Y si è verificato. Per comprendere meglio questa formula (e soprattutto per dimostrare che in probabilità non si ha a che fare solo con monete, dadi e altri giochetti), si può utilizzare un esempio tratto dalla medicina.

Supponiamo di voler individuare la probabilità che Johnny, un fumatore abituale (che fuma almeno una sigaretta al giorno), presentandosi presso una clinica, riceva una diagnosi di cancro ai polmoni. Questa è la cosiddetta probabilità a posteriori, cioè la probabilità che l’evento E=“Johnny ha il cancro” si verifichi dato che conosciamo l’informazione I=“Johnny è un fumatore”. Per determinarla bisogna conoscere tre valori:

  • la probabilità che un qualsiasi paziente abbia il cancro (nella formula P(E)), prima di sapere l’informazione aggiuntiva (la condizione di fumatore). Questa prende il nome di probabilità a priori. Nel caso di Johnny, possiamo stimarla considerando i dati della clinica: sapendo che tra tutti i pazienti di sesso maschile (senza conoscere altre informazioni) il 15% ha ricevuto una diagnosi di cancro, la probabilità a priori per Johnny sarà P(E)=0,15;
  • la probabilità che un qualsiasi paziente di sesso maschile sia fumatore (cioè P(I)). I dati della clinica indicano che il 60% dei pazienti di sesso maschile registrati è un fumatore, dunque per Johnny sarà P(I)=0,60;
  • la probabilità che Johnny sia un fumatore dato che ha il cancro (indicata con P(I|E)) . Questa è la verosimiglianza, cioè la probabilità di osservare i dati quando noi sappiamo che l’evento si è verificato. Nel caso di Johnny, supponendo ad esempio che su 10 pazienti di sesso maschile con il cancro, 8 siano fumatori, la verosimiglianza è P(I|E)=0,80.

Ora ci sono tutti gli ingredienti necessari per calcolare la probabilità a posteriori:

Bayes2bis

La lettura di questo risultato è semplice: il solo fatto di sapere che Johnny è un fumatore induce ad aumentare la probabilità che abbia il cancro da 0,15 a 0,20. E tutto ciò senza utilizzare test diagnostici, i risultati dei quali possono essere utilizzati come nuove informazioni e quindi inseriti nella formula descritta da Bayes. Il teorema fornisce dunque un modo per aggiornare una stima di probabilità o una credenza sulla base dei dati che osserviamo, ottenendo una sorta di apprendimento dall’esperienza.

Uno dei punti di forza di questo teorema è che la sua applicazione non è ristretta solo a valori puntuali (cioè quando le probabilità in gioco sono “numeri” come 0,15, 0,60 ecc…) ma si estende anche all’uso di distribuzioni di probabilità. In poche parole, la probabilità a priori può essere definita come distribuzione a priori (ad esempio uniforme, normale ecc…) e lo stesso vale per la verosimiglianza. Mediante il teorema di Bayes, il prodotto tra distribuzione di verosimiglianza e distribuzione a priori restituisce una distribuzione a posteriori, con forma e parametri “aggiornati” . Da qui si apre tutta un campo, o meglio un approccio alla statistica, che viene definito “bayesiano”.

Ammettiamo che il nostro Johnny, di ritorno dalla clinica, debba recarsi alla fermata dell’autobus più vicina, pensando che, a occhio, la distanza sia circa 3 chilometri. Decide allora di misurarla meglio contando il numero dei suoi passi e da lì derivare una stima più accurata: il risultato è 2,1 chilometri. Il problema può essere ripresentato in termini di distribuzioni di probabilità: a priori, la distribuzione è una normale centrata sui 3 chilometri, mentre la verosimiglianza (quello che risulta dai dati) è una normale con media 2,1 chilometri. Dal teorema di Bayes ricaviamo che la distribuzione a posteriori, dopo una sola misurazione, ha già una media più vicina al valore misurato (in questo caso 2,4 circa); se poi consideriamo ad esempio 5 diverse misurazioni, la cui media è 2,1, la distribuzione a priori avrà una media molto simile e una varianza minore (cioè la curva è infatti più stretta e più alta). All’aumentare del numero di misurazioni n l’informazione a priori sarà sempre meno rilevante e i parametri da stimare saranno più vicini a quelli suggeriti dai dati.

StatisticaBayesiana

Già da questo esempio si deducono aspetti interessanti dell’analisi bayesiana: in primo luogo la specificazione di una distribuzione a priori, che rappresenta l’aspetto più “soggettivo” del procedimento (un’altra persona avrebbe stimato la distanza a occhio in maniera diversa), ancorché non accurata come quella di Johnny, non provoca grosse distorsioni perché la “forza” dei dati è molto più rilevante. Inoltre, la distribuzione a priori può essere formulata integrando qualsiasi tipo di informazione sul problema: può essere basata su esperimenti precedenti, dati storici o giudizi di esperti.

La proliferazione di metodi bayesiani nell’ambito scientifico è stata così imponente che alcuni hanno pensato di applicare questo tipo di paradigma per capire come il nostro cervello integri le informazioni che arrivano dall’esterno con le conoscenze che sono già possedute. Così negli ultimi decenni si è diffusa l’ipotesi del “cervello bayesiano”, un modello in cui il cervello, operando in maniera probabilistica, fa previsioni sulla base di ciò che conosce e le corregge gradualmente integrando le informazioni provenienti da stimoli esterni [1]. Alcuni neuroscienziati si chiedono anche se siamo “bayesiani” per natura, o meglio se processiamo informazioni nella maniera ottimale prevista dal teorema di Bayes [2]. Ancora più stupefacente è che questo modello non si applica solo a questioni di stime di probabilità, ma anche all’integrazione di diversi segnali sensoriali provenienti dalla stessa fonte (problema che si ha ad esempio quando vediamo un’automobile arrivare e ne sentiamo il rombo): considerando il problema della percezione come un processo inconsciamente influenzato dall’incertezza delle informazioni esterne, è stato dimostrato ad esempio che, in caso di segnali visivi e uditivi provenienti dalla stessa fonte ma in conflitto tra loro, il cervello tende a dare peso maggiore (ovvero a spostare la media della distribuzione a posteriori) all’informazione proveniente dal senso più “affidabile” [3].

Il bello è che il cervello fa tutto ciò senza che noi abbiamo studiato il teorema di Bayes. In fondo forse siamo tutti statistici senza saperlo.


[1] Una introduzione all’ipotesi è stata data in Friston, Karl. “The free-energy principle: a unified brain theory?.” Nature Reviews Neuroscience 11.2 (2010): 127-138.

[2] Infatti a volte, pur ragionando secondo il teorema di Bayes, non teniamo nella giusta considerazione la probabilità a priori: questa e altre fallacie sono descritte in “L’intelligenza del rischio” di Dylan Evans, edito in Italia da Garzanti.

[3] Knill, David C., and Alexandre Pouget. “The Bayesian brain: the role of uncertainty in neural coding and computation.” TRENDS in Neurosciences 27.12 (2004): 712-719.


L’immagine in evidenza raffigura Sheldon Cooper, protagonista della serie tv “The Big Bang Theory”, impegnato nel calcolo della sua speranza di vita usando il teorema di Bayes.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...