La cronaca politica degli ultimi tempi ha riproposto, non senza animosità, l’annosa questione filosofica sul rapporto tra le scelte dei padri e le loro conseguenze sui figli. Molto ancora si potrebbe dire della responsabilità individuale, anche se, dalla Bibbia alla Costituzione, sono molti i testi in cui posizioni precise sono state già presentate. Forse è più divertente parlare invece di quelle caratteristiche che i genitori tramandano ai propri figli, come la statura. Il racconto di oggi avrà però poco a che fare con la genetica e molto con, strano a dirsi, la statistica.

Tutto ha inizio nell’Ottocento, secolo che ha visto affermarsi la teoria dell’evoluzione delle specie come spiegazione scientifica del trasformismo biologico. Charles Darwin, il suo fondatore, è il rappresentante più celebre di una stirpe di notevoli personalità: suo nonno Erasmus fu filosofo, poeta e naturalista. Ma di questo racconto è protagonista un altro nipote di Erasmus: Francis Galton.

Francis Galton a 73 anni (immagine tratta da www.galton.org)
Francis Galton a 73 anni (immagine tratta da http://www.galton.org)

Sconosciuto ai più, Galton è l’epigono di una progenie di uomini dai talenti multiformi. Fu infatti uno studioso estremamente prolifico e dagli interessi vastissimi: fu esploratore e geografo, introdusse la nozione di anticiclone e l’uso delle mappe nella meteorologia; inoltre si dedicò allo studio del “genio” e fondò l’eugenetica, il complesso dei metodi che nelle intenzioni di molti suoi coevi potevano condurre ad un miglioramento selettivo della specie umana. Tra le sue contribuzioni più importanti però spiccano gli studi statistici e antropologici: con lui si approfondì l’approccio biometrico, volto alla misurazione delle caratteristiche fisiche degli esseri viventi, e tra queste la statura umana. A lui si deve l’introduzione di alcuni concetti fondamentali in statistica come regressione e correlazione.

Di regressione Galton iniziò ad occuparsi già nel 1875, quando condusse esperimenti sui piselli (che andavano forte in quei tempi – vedasi alla voce Gregor Mendel) al fine di determinare la relazione tra i pesi di generazioni successive di semi. Tuttavia la teoria maturò solo negli anni 1886-1889, proprio con l’applicazione sui dati antropometrici: l’obiettivo era quello di definire l’ereditarietà della statura trovando la relazione tra l’altezza dei genitori e quella dei rispettivi figli. Il campione a disposizione di Galton consisteva nelle altezze in pollici misurate su 928 figli adulti e sui rispettivi genitori. Il primo problema che dovette affrontare riguardava il trattamento di due serie di dati (altezze dei padri e delle madri) distribuite diversamente, essendo la media dell’altezza degli uomini maggiore rispetto a quella delle donne. Galton lo superò moltiplicando l’altezza delle madri per 1.08, rendendo i dati paragonabili, e quindi ne fece la media con l’altezza dei padri. In questo modo ottenne sostanzialmente 928 coppie di dati, ognuna composta dal valore numerico dell’altezza di un figlio e dell’altezza del suo “genitore medio”. Il grafico originale, presentato nel testo Natural Inheritance del 1889, è riportato nella figura seguente.

gal1

Galton rappresentò in ordinata i valori corrispondenti alla statura del genitore medio e in ascissa i valori mediani delle stature dei figli. Dopodiché prese in considerazione la retta costituita da tutti i punti per cui l’altezza del genitore medio risulta uguale all’altezza del figlio (in termini matematici, la bisettrice del primo quadrante) e la retta disegnata interpolando i punti corrispondenti ai valori mediani delle stature dei figli (la mediana è quel valore di cui la metà delle osservazioni è minore: ad esempio, il punto di ordinata 66,5 indica che, di tutti i figli di genitori medi alti 66,5 pollici, la metà era più bassa di 67,2 pollici). Nella figura sopra, la bisettrice è indicata con il segmento AB e la retta interpolante con il segmento CD. La differenza di inclinazione dei due segmenti mostra in maniera palese il fenomeno della regressione verso la media: figli più alti della media discendevano da genitori tendenzialmente più alti di loro e figli più bassi della media discendevano da genitori tendenzialmente più bassi di loro. Per di più, la relazione risultava essere semplicemente lineare. La conclusione più generale che si trae da questo concetto è che naturalmente questo carattere si tramanda di generazione in generazione in modo che valori estremamente lontani dalla media siano poco frequenti e che la normalità distributiva sia preservata.

Dal punto di vista biologico, Galton utilizzò le sue conclusioni per formulare la “legge dell’eredità ancestrale”, secondo cui i genitori contribuiscono alla determinazione di un certo carattere nel figlio in misura del 50% circa, i quattro nonni del 25% e così via. Tutto ciò acquista ancora più importanza se si considera che lui era digiuno di geni e degli altri concetti che sono alla base della teoria moderna. Le ricerche di Mendel (nato nello stesso anno di Galton) rimasero infatti sconosciute per lungo tempo e solo nel Novecento furono giustamente apprezzate. Al contrario gli studi biometrici riscossero un certo successo tra i contemporanei: sembra anche che molti si rifiutarono di riconoscere le teorie di Mendel perché apparentemente in contrasto con quelle di Galton. La disputa fu risolta nella prima parte del XX secolo quando la legge dell’eredità ancestrale, erroneamente utilizzata per spiegare anche l’ereditarietà dei caratteri continui come l’altezza (oggi si sostiene che tali caratteri siano dipendenti in parte solo dalla generazione precedente), man mano cadde in oblio.

Il lavoro sulla regressione rappresentò invece una tappa fondamentale nella storia della statistica, ma non solo per merito di Galton. Se lui fu infatti l’uomo dalle idee originali ma dalle capacità matematiche modeste, Francis Edgeworth fu colui che invece per primo tentò di dare loro formalizzazione matematica, sebbene carente nella chiarezza, e Karl Pearson l’estensore della metodologia e il suo presentatore alla comunità scientifica. Dice Stephen Stigler nel suo più famoso testo sulla storia delle statistica che senza l’apporto di anche solo uno dei tre, forse oggi l’analisi della regressione avrebbe un decimo della sua fama [1].

Edgeworth, partendo da una formazione in lettere classiche, divenne esperto di economia politica e matematica applicata alle scienze morali e individuò le formule più importanti nell’ambito della regressione lineare. A Pearson, statistico e filosofo della scienza, si deve tra le altre cose la formalizzazione del concetto di correlazione, di cui già Galton aveva introdotto nome e prima bozza. Nell’immensa biografia di Galton, Pearson gli riconosceva una rivoluzione scientifica, con l’ammirazione di un discepolo che parla del maestro. Galton aveva infatti capito che nei fenomeni naturali “A non è la sola causa di B, ma contribuisce alla produzione di B” [2] e, immerso nell’ondata positivista imperante a quel tempo, metteva in pratica le parole del filosofo Comte, secondo cui si doveva sostituire “all’inaccessibile determinazione delle cause propriamente dette, la ricerca delle leggi”. Dunque, laddove era difficile definire le cause, bisognava valutare le relazioni statistiche. Più specificamente, per correlazione si intende una ben definita espressione matematica di relazione tra caratteri: la più usata è il coefficiente r di correlazione lineare di Bravais-Pearson, che varia da -1 a +1, dove +1 indica massima correlazione positiva, -1 massima correlazione negativa e 0 assenza di correlazione lineare. Ad esempio, altezza e peso sono correlati positivamente (0 < r < 1), in quanto è probabile che persone alte abbiano peso alto.

Edgeworth e Pearson riconobbero matematicamente la relazione tra regressione e coefficiente di correlazione: considerata una retta di intercetta e coefficiente angolare ignoti, riuscirono a stimare tali coefficienti minimizzando opportunamente gli errori (mediante semplici derivate) superando l’approccio geometrico di Galton e notarono che il coefficiente angolare dipendeva proprio da r. L’immediatezza delle formule usate rese tale analisi un’idea cardine nella statistica, tanto che, solo per darne prova, la categoria “Regression analysis” di Wikipedia contiene 10 sottocategorie e 152 voci. La regressione è stata estesa a moltissimi campi: ad esempio in finanza la volatilità delle azioni, un parametro di rischio legato al mercato (quanto attuale è questo concetto…), è uguale al coefficiente angolare di una particolare retta di regressione.

Una curiosità: Galton e Edgeworth erano imparentati e il figlio di Karl Pearson, Egon, fu un altro affermato statistico. Pare che la statistica, come la statura, a quel tempo fosse una questione di famiglia!


[1] Stigler, S.M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900, Harvard University Press, Cambridge, Massachusetts.

[2] Pearson, K. (1914-30). The Life, Letters and Labours of Francis Galton, Three Volumes, Cambridge University Press, Cambridge. Il capitolo XIV del terzo volume è disponibile all’indirizzo http://www.galton.org/pearson/vol3/new/pearson-vol3a-ch14.pdf


L’immagine di copertina, tratta dalla pagina web del Daily Mail, raffigura alcuni esponenti della famiglia reale più famosa al mondo: sono tra i pochi che ereditano non solo l’altezza, ma anche il titolo di “Sua Altezza”.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...