Nella prima parte di quest’articolo sono state presentate varie definizioni di distanza, ognuna con le sue peculiarità. Le distanze però assumono un ruolo fondamentale anche in numerose tecniche statistiche, ad esempio la cosiddetta “analisi dei gruppi” (cluster analysis). L’analisi dei gruppi ha per obiettivo il raggruppamento dei soggetti considerati in base alla “somiglianza” dei dati osservati relativamente ad alcune variabili di interesse. I gruppi che verranno a formarsi tenderanno ad essere omogenei al loro interno e molto differenti tra di loro.

Il primo passo per la costruzione di questi gruppi passa per la definizione di omogeneità tra due soggetti, che si ottiene richiamando la nostra cara distanza. Anche in questo caso, però, la distanza sarà considerata in termini di dissimilarità rispetto alle variabili osservate. Come esempio illustrativo prendiamo le nostre due cantanti preferite e con una veloce ricerca sul web consideriamo i loro dati relativi ad altezza in centimetri, anno di nascita e numero di album pubblicati al 2015.

Altezza (cm) Anno di nascita Album pubblicati
Giusy Ferreri 155 1979 5
Baby K 162 1983 2

­

La distanza di Manhattan tra le due cantanti, uguale a |162-155|+|1983-1979|+|2-5|=14, non dice di certo quanto le due cantanti siano lontane geograficamente, ma dà un’indicazione della loro dissimilarità rispetto alle variabili considerate. In generale, supponendo di avere un certo numero di soggetti, si deve calcolare la distanza (che sia quella di Manhattan o un’altra, a scelta dello statistico) tra tutte le possibili coppie. Una volta costruita la tabella contenente tutte le distanze calcolate, bisogna scegliere una regola per poter raggruppare i soggetti. Una famiglia di tecniche di clustering molto utilizzate è quella dei metodi gerarchici, dove la formazione dei gruppi procede con una sequenza di passi che possono essere riassunti in una struttura ad albero. All’interno di tale famiglia si distinguono metodi agglomerativi e metodi divisivi: per comprenderne la differenza un esempio “sportivo” sarà d’aiuto.

Tutti siamo passati per quella fase (a scuola e fuori) in cui si dovevano formare le squadre per giocare a pallavolo o a calcio: ci sono sostanzialmente due modi per farlo. Il primo prevede che, disposti in fila tutti i giocatori, il gruppone si divida a metà: questo è il concetto alla base del metodo divisivo. Al contrario, nella seconda modalità i due capitani della squadra selezionano un giocatore per volta fino a formare le due squadre: questo è un esempio di metodo agglomerativo. Concentrandosi sul caso agglomerativo, il criterio alla base della formazione dei gruppi nell’analisi dei cluster non è la bravura sul campo ma la minore dissimilarità tra i soggetti: partendo da uno stato in cui ogni soggetto fa gruppo a sé, si forma un primo cluster tra due soggetti con bassa dissimilarità (nel grafico riportato sotto, i soggetti s e t). Dopodiché si ricalcola la distanza tra tutte le coppie possibili dei soggetti pqrst, dove st è il gruppo formato da s e t. La distanza minore tra quelle rimaste è quella tra p e q, i quali formano il nuovo gruppo pq. Si procede in questo modo fino a quando si costruisce il gruppo finale contenente tutti i soggetti.

pqrst
I due approcci a confronto (immagine tratta da solver.com)

Un primo problema che si pone è quello di misurare la distanze tra un soggetto e un gruppo, oppure tra due gruppi. Anche in questo caso lo statistico è chiamato alla scelta tra diverse opzioni: il metodo single linkage (in arancio) definisce la distanza tra i gruppi rosso e blu come la minima distanza possibile intercorrente tra un elemento del gruppo rosso e uno del gruppo blu; il metodo complete linkage (in verde) considera invece la massima distanza, mentre il metodo dei centroidi (in grigio) stabilisce che la distanza tra due gruppi è data dalla distanza dei rispettivi centri. Ogni metodo può potenzialmente condurre a raggruppamenti diversi.

linkage

La cluster analysis trova applicazione nei campi più disparati: un esempio è la stilometria, che di un testo scritto non considera i canoni estetici oppure le tematiche trattate, ma solo caratteristiche quantificabili, come ad esempio la lunghezza delle frasi, il numero di parole diverse usate oppure la frequenza di alcuni termini. Obiettivo tra i più rilevanti di questa disciplina al confine tra statistica e linguistica è l’authorship attribution, ovvero il riconoscimento, solo mediante il testo scritto, dell’autore, soprattutto nei casi in cui la paternità dell’opera sia incerta o discussa. La stilometria si basa infatti sull’assunto (che i dati generalmente supportano) che l’autore lasci, involontariamente o no, una “impronta digitale” nelle sue opere, ovvero un complesso di stilemi e caratteristiche rintracciabili nei suoi scritti. I problemi di authorship attribution sono a volte approcciati mediante l’analisi dei gruppi, come in un recente paper di Refat Aljumily del 2015 [1], in cui si intendeva analizzare l’attribuzione di alcune opere genericamente ascritte a Shakespeare.

L’indagine sulle opere di Shakespeare e in generale sulle opere di epoca elisabettiana rappresenta un classico nell’ambito delle questioni di authorship attribution: perfino la stessa identità del Bardo di Straford-upon-Avon viene spesso messa in discussione. Il tema ha riscosso così tanto successo che Wikipedia contiene una lista di ben 86 candidati per l’attribuzione di varie sue opere. La questione viene anche a complicarsi ancor di più considerando (come ormai fanno gli studiosi del campo) che la collaborazione tra diversi autori doveva essere a quel tempo una strategia di scrittura ben consolidata.

Nel paper in questione si è proceduto innanzitutto con la creazione di un corpus, ovvero una collezione di testi della stessa epoca che sono attribuiti con certezza a vari autori: Marlowe, Bacon, Fletcher, Shakespeare. A questi sono stati aggiunti nove testi tradizionalmente attribuiti a Shakespeare su cui però non vi è consenso, con lo scopo di evidenziare pattern comuni tra queste opere e quelle già attribuite. Una volta scelte le quantità misurabili da prendere in considerazione (tra cui le frequenze di tutte le sequenze di due parole contigue o quelle di tre caratteri presenti nei testi) sono state proposte varie analisi tra cui quella dei cluster. Uno dei risultati è riportato nella figura sottostante.

Dendrogramma delle opere nel paper [1]
Dendrogramma delle opere nel paper [1]

Un modo di visualizzare i risultati dell’analisi dei cluster è il cosiddetto dendrogramma, un diagramma ad albero in cui i soggetti vengono man mano raggruppati e la lunghezza dei “rami” dell’albero corrisponde alla distanza che esiste tra i soggetti. Nel nostro caso, i soggetti sono i 42 testi e le distanze sono state misurate relativamente alle “sequenze di tre caratteri contigui”, chiamati in gergo tecnico “trigrammi di caratteri”. Il dendrogramma mostra che questa variabile riesce a raggruppare molto bene alcune opere appartenenti allo stesso autore (ad esempio, tutte le opere di Bacon sono collegate da “rami” molto corti, ovvero vi è bassa distanza tra loro). Per il problema di authorship, però, l’interesse si concentra soprattutto sulle opere dall’attribuzione contestata, ovvero quelle il cui nome inizia per “Dis”: molte di loro formano un gruppo a sé stante e ce n’è persino una (DisEdward.txt) molto più vicina a FletPrize.txt (opera di Fletcher) che a quelle di Shakespeare.

L’autore del paper effettua un’analisi simile per altre variabili, scoprendo altre interessanti affinità tra i testi e arrivando a generare l’ipotesi che molte delle opere di attribuzione incerta non siano state scritte da Shakespeare. Qui la palla passa agli studiosi di letteratura, che devono cercare l’evidenza di tali relazioni con i metodi propri della critica letteraria tradizionale. La stilometria infatti, sia per la sua giovane età sia per la complessità del problema letterario, è un valido strumento di analisi ma quasi mai è in grado di segnare la conclusione di così enormi questioni. Ciò vale ancor di più per la cluster analysis, strumento per sua natura adatto ad una fase “esplorativa” dei dati, ovvero al primo passo dell’analisi in cui si possono solo evidenziare le possibili questioni di ricerca da approfondire con verifiche successive. Se non altro però offre un punto di vista diverso, più “distante” dalla strada più comune.


[1] Aljumily, R. (2015). Hierarchical and Non-Hierarchical Linear and Non-Linear Clustering Methods to “Shakespeare Authorship Question”. Social Sciences, 4(3), 758-799. Disponibile al link www.mdpi.com/2076-0760/4/3/758/pdf

L’immagine di copertina è tratta dalla versione online del quotidiano inglese The Guardian.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...