IL CASO E LA STATISTICA: MATEMATICA E OMICIDI
Il caso è – forse – anche il “soggetto” al quale attribuire un elevato numero di morti sospette nel reparto “C”, durante i turni di lavoro di Gilbert.
La Statistica è la scienza (dell’incertezza) che può aiutarci a capire se un determinato fenomeno – ad es. morti di infarto – sia effettivamente frutto del caso.
Lo spunto per questo articolo deriva dalla serie TV "Numbers", nella quale un detective risolve i crimini grazie all’aiuto di un matematico, e dal libro "Il matematico e il detective" di Keith Devlin e Gary Lorden, nel quale si abbandonano le necessarie licenze poetiche del film per spiegare come i numeri possono risolvere un caso poliziesco.
L’obiettivo dell’autore di questo articolo è partire dai dati presentati nel testo citato, per giungere naturalmente ad una conclusione, ma entrando nello specifico della tecnica statistica chiamata test chi-quadro.
In questo modo si intende consentire a tutti di vederci chiaro nella nebbia che sempre avvolge i fenomeni casuali.
Esistono numerose tecniche statistiche, non tutte – però – applicabili in qualunque circostanza. Il nostro caso è caratterizzato essenzialmente da due variabili qualitative:
- la presenza di Kristen Gilbert, in quanto ci interessa sapere se essa sia in grado di influenzare il numero di morti. Tale variabile può essere definita “Gilbert presente”: essa può assumere soltanto due modalità, sì o no;
- se i pazienti muoiono oppure vivono, in quanto si tratta di una possibile conseguenza della presenza o assenza di K. Gilbert. Tale nuova variabile può essere definita “morti durante il turno” e può assumere – anch’essa – soltanto due modalità: sì o no.
I dati di cui disponiamo sono riepilogati in una tabella delle frequenze osservate, riferita ad un periodo di 18 mesi, fino a febbraio 1996, quando la Gilbert si assentò dal lavoro per malattia.
Frequenza significa semplicemente quante volte si ripete una determinata modalità di una certa variabile.
Ad es. 40, che è una “frequenza congiunta” (in quanto si riferisce contemporaneamente a due modalità provenienti da due modalità differenti) ha questo significato: durante i turni di lavoro della Gilbert sono morte 40 persone. Ma ne sono sopravvissute 217. Ed in totale – quindi – durante i turni di K. Gilbert sono “passati” 257 pazienti (= 40 + 217).
Il numero complessivo dei pazienti è 1641, suddivisi fra 257 passati sotto Gilbert e 1384 passati sotto le mani di altre infermiere. Su 1641 pazienti è stato osservato (da qui il termine “frequenze osservate”) un numero di morti pari a 74, cioè circa il 4,51% [= (74 / 1641) x 100. Risultato arrotondato]. Se applichiamo questa percentuale di normalità ai 257 pazienti curati durante i turni della Gilbert, otteniamo 12 morti [= 257 x (4,51 / 100). Risultato arrotondato; il risultato effettivo è 11,59]. Come mai i morti sono stati 40 ? Come si spiegano i 28 morti in più?
Procediamo con l’elaborazione della tabella delle frequenze attese in caso di indipendenza, vale a dire determiniamo – per ciascuna frequenza osservata – la corrispondente frequenza che si sarebbe dovuta verificare se le due variabili in oggetto fossero state indipendenti.
Per ottenere una frequenza attesa è sufficiente eseguire il seguente calcolo:
[(totale di riga x totale di colonna):totale generale].
Ad es. (257 x 74) : 1641 = 11,59. Ciò conferma che, se non ci fosse alcuna relazione fra la presenza in turno della Gilbert e il numero di morti, i morti dovrebbero essere circa 12 e non 40.
Basta che soltanto una frequenza attesa sia diversa dalla corrispondente frequenza osservata, per affermare che esiste un certo grado di dipendenza fra le due variabili (nel nostro caso tutte le frequenze attese differiscono dalle corrispondenti osservate), ma il punto è: quanto deve essere grande la dipendenza per accusare la Gilbert ? Posto che l’Universo è nato dal Big Bang, allora tutti i soggetti, gli oggetti e i fenomeni sono in qualche misura fra loro collegati. Dunque, occorre cercare una forte dipendenza.
Calcoliamo allora l’indice di contingenza chi-quadro di Pearson, come somma di tutte le differenze (al quadrato, per eliminare i segni algebrici negativi) fra le frequenze osservate e quelle attese.
Quanto più è grande il valore dell’indice, tanto più è rilevante la distanza fra frequenze osservate e frequenze attese, cioè tanto più è forte la dipendenza fra le due variabili.
Purtroppo – giunti a questo punto – il nostro ragionamento non può essere conclusivo, in quanto – in realtà – i nostri dati sono campionari. Nel senso che dipendono dal campione estratto. Se provassimo ad estrarre un altro campione potremmo benissimo ottenere numeri diversi. Ad es. se nei 18 mesi presi in esame fossero passati in quell’ospedale degli altri pazienti, diversi dai 1641 schedati, quali sarebbero le nostre conclusioni ? Potremmo ancora affermare che le morti sospette non sono frutto del caso?
Esiste una tecnica statistica che serve per cautelarsi da problemi di questo tipo. Si tratta di un procedimento che ci consente di estendere i risultati ottenuti dal campione alla popolazione di riferimento, naturalmente non con assoluta certezza, ma con un ragionevole grado di fiducia. La tecnica in questione si chiama test chi-qudro e prevede innanzitutto la definizione di due ipotesi:
- ipotesi nulla H0 : le due variabili sono indipendenti;
- ipotesi alternativa o di ricerca H1 : le due variabili sono dipendenti.
L’ipotesi di ricerca è quella che spinge appunto il ricercatore ad effettuare tutta una serie di elaborazioni statistiche: proprio perché egli è intimamente convinto che esista un qualche tipo di legame fra le due variabili. L’ipotesi nulla è invece quella che “annulla” la convinzione del ricercatore, che statuisce quindi che non esiste alcun legame (fra le due variabili) dotato di significatività statistica.
Il passo successivo consiste nello stabilire a priori quanto il ricercatore intenda rischiare: possiamo ipotizzare il 5%, poiché è un grado di rischio ragionevolmente piccolo.
A questo punto il gioco è fatto: è sufficiente confrontare il valore del chi-quadro calcolato, pari ad 86,47, con il valore del chi-quadro tabulato, cioè riportato su apposite tavole statistiche (che si trovano in appendice a quasi tutti i testi di statistica). Il valore tabulato dipende da due elementi:
- il grado di rischio (5%);
- il numero dei gradi di libertà, che si ottiene moltiplicando il numero di righe della nostra tabella meno 1 per il numero delle colonne, sempre meno 1. Dato che la nostra tabella è una 2 x 2 (cioè due righe per due colonne), i gradi di libertà saranno pari ad 1 (= 1 x 1).
Purtroppo la tecnica applicata non è in grado di stabilire quale sia la direzione del legame causa – effetto e dunque non basta per accusare la Gilbert. La quale fu condannata all’ergastolo sulla base di prove più dirette.
Nonostante ciò questo mio lavoro (che riproduce quello che venne fatto durante il processo) è utile per capire quanto la statistica serva a trasformare i dati in informazioni e a fornire quindi un buon supporto a chiunque debba prendere decisioni.
Post a Comment