Se leggi questo articolo probabilmente è perché ti sei imbattuto nel famoso test Chi quadro (o Chi quadrato) di Pearson e non sai bene come effettuare il test o come leggere e interpretarne i risultati. Facciamo un po’ di chiarezza con questo articolo in cui ti spiegheremo in maniera semplice a cosa serve il test, qual è la formula di calcolo, quali sono le ipotesi nulla ed alternativa, come realizzarlo con un software statistico (Excel, SPSS, R…) ed infine come interpretare e commentare i risultati.
A cosa serve il test Chi quadro di Pearson
Il test Chi quadro viene utilizzato per andare a verificare se esiste un’associazione statisticamente significativa tra due variabili di interesse, a patto che siano entrambe qualitative (ad esempio: genere, titolo di studio, marca dell’automobile, diagnosi del paziente, ecc…) o al limite anche quantitative ma, in ogni caso, con pochi possibili valori (ad esempio la variabile “altezza” ipotizzata come quantitativa continua ha moltissimi possibili valori e quindi non è adatta!). Per quale motivo devono avere pochi possibili valori? Semplicemente perché il test Chi quadro è basato sulla costruzione della tabella di contingenza delle due variabili in questione ed il test è tanto più inaffidabile quanti più zeri sono presenti nella tabella (o comunque conteggi inferiori a 5).
Per questo motivo inserendo variabili quantitative con moltissimi possibili valori avremo moltissime colonne (o moltissime righe) ed una probabilità sicuramente molto maggiore di avere dei conteggi pari a zero o comunque bassi.
Inoltre, qualora avessimo a che fare con delle variabili quantitative esistono strumenti di analisi bivariata ben più appropriati (come, ad esempio, il test t di student o la correlazione di Pearson).
Ma cosa sono le tabelle di contingenza (o “crosstab”)? Vediamo nel prossimo paragrafo.
Tabella di contingenza: frequenze attese e frequenze osservate
Partiamo dal concetto più semplice di tabella di contingenza con frequenze osservate. Prendendo ad esempio le variabili genere (maschio/femmina) e fumatore (sì/no) ed ipotizzando di aver raccolto 100 interviste a soggetti presi casualmente, potremmo avere la seguente tabella di contingenza:
Frequenze osservate
Per realizzare il test del Chi quadrato, tuttavia, avremo bisogno di calcolare anche le cosiddette frequenze attese in caso di indipendenza. In altri termini: mantenendo fissi i totali di riga e di colonna, quali frequenze congiunte avremmo dovuto osservare se le due variabili (fumo e genere) fossero state perfettamente indipendenti?
Il calcolo è relativamente semplice: per calcolare le frequenze attese è sufficiente sostituire i conteggi osservati con il prodotto delle rispettive marginali di riga e di colonna, diviso per il totale complessivo (nel nostro caso pari a 100).
In questo esempio otterremmo la seguente tabella delle frequenze attese:
Frequenze attese in caso di indipendenza
Il test del Chi quadro non è altro che un confronto tra le frequenze osservate e le frequenze attese in caso di indipendenza: più le due tabelle saranno simili più il test ci porterà a concludere che non c’è nessun legame, ovvero non c’è associazione, tra le due variabili. Al contrario se le mie frequenze osservate sono molto diverse dalle frequenze attese in caso di indipendenza allora sarà “lecito” concludere che c’è un’associazione statisticamente significativa tra le due variabili.
Ipotesi nulla ed alternativa del test Chi quadro
Come qualsiasi test statistico, anche il test Chi quadro avrà un’ipotesi nulla, detta anche H0 ed un’ipotesi alternativa, detta anche H1.
Nella fattispecie, per questo test, l’ipotesi nulla sarà l’assenza di associazione tra le due variabili prese in esame mentre l’ipotesi alternativa sarà la loro associazione statisticamente significativa (ovvero non dovuta al caso) che ci permetterà di fare inferenza: ovvero di estendere ciò che abbiamo osservato nel nostro campione all’intera popolazione di riferimento da cui il campione è stato estratto.
È necessario sottolineare che, per poter fare correttamente inferenza, è necessario che il campione che stiamo analizzando sia rappresentativo della popolazione di riferimento, ovvero che il metodo di campionamento sia stato di tipo probabilistico.
Per maggiori informazioni sulla correttezza del campionamento o sui concetti di inferenza statistica puoi contattarci tramite questo form.
Attenzione alle parole: quando andiamo a fare un test Chi quadro, avendo a che fare solitamente con variabili qualitative, non parleremo mai di correlazione bensì di associazione (o più genericamente di legame). Il concetto di correlazione è invece un concetto puramente quantitativo legato alla crescita reciproca dei valori di due variabili quantitative.
Formula di calcolo per la statistica test del Chi quadro
Per calcolare a mano il valore della statistica test del Chi quadro si può fare riferimento alla seguente formula:
Nel nostro caso si avrebbe dunque: (24-23,4)^2 / 23,4 + (15 – 15,6)^2 / 15,6 + (36-36,6)^2 / 36,6 + (25 – 24,4)^2 / 24,4 andando dunque a sommare i valori ottenuti per tutte le celle della tabella ed ottenendo così il valore della statistica test Chi quadro.
Il valore della statistica test, tuttavia, non è sufficiente di per sé: per poter calcolare il p-value, che ci permetterà di decidere tra ipotesi nulla ed ipotesi alternativa, è necessario calcolare anche il numero di gradi di libertà della curva Chi quadro a cui fare riferimento.
I gradi di libertà sono un parametro tecnico, non di particolare interesse a livello interpretativo, ma sono fondamentali per poter calcolare il valore del p-value.
Nel caso del test Chi quadro il numero di gradi di libertà sarà dato dal minimo tra il numero di colonne -1 ed il numero di righe -1 della nostra tabella di contingenza. Nel nostro esempio abbiamo 2 colonne -1 =1 e 2 righe -1 =1. Il minimo tra 1 ed 1 è ovviamente 1 e quindi avremo un numero di gradi di libertà pari ad 1.
Se avessimo avuto, ad esempio 5 righe e 7 colonne avremmo avuto che il minimo tra 5-1 e 7-1, ovvero il minimo tra 4 e 6, è pari a 4: avremmo quindi avuto 4 gradi di libertà (in breve “gdl”).
Come leggere e commentare il risultato ed il p-value
Avendo il valore della statistica test ed avendo calcolato il numero di gradi di libertà è finalmente possibile calcolare il p-value del test, tramite cui decidere se accettare o rifiutare l’ipotesi di associazione tra le variabili.
Il calcolo del p-value può essere fatto “a mano” consultando le tavole del Chi Quadro, tuttavia, per fortuna oggi esistono tantissimi software (o anche calcolatori online) che sono in grado di fornirci in un attimo il valore del p-value del test.
Nel nostro esempio abbiamo una statistica test pari a 0,063 (= (24-23,4)^2 / 23,4 + (15 – 15,6)^2 / 15,6 + (36-36,6)^2 / 36,6 + (25 – 24,4)^2 / 24,4) e 1 grado di libertà. Il p-value risultante è pari a 0,802.
Essendo questo p-value “grande”, maggiore del livello di significatività scelto che è classicamente pari a 0,05, andremo ad accettare l’ipotesi nulla concludendo che NON vi è un’associazione statisticamente significativa tra genere e fumo, ovvero che le piccole differenze osservate tra le frequenze osservate e le frequenze attese in caso di indipendenza sono realisticamente dovute al caso e al campionamento che è capitato.
Se invece il p-value fosse stato inferiore a 0,05 avremmo potuto rifiutare l’ipotesi nulla concludendo che l’associazione tra genere e fumo è statisticamente significativa, ovvero che – in sostanza – l’essere maschio o femmina è più (o meno) associato all’essere o non essere fumatore.
Ma come calcolare questo p-value? E soprattutto come evitare di fare tutti questi calcoli a mano? Possiamo utilizzare uno dei tanti software statistici disponibili. Facciamo qualche esempio:
Test del Chi quadro in Excel, SPSS ed R
In Excel è possibile effettuare il test del Chi Quadro “a mano” ovvero andando prima ad inserire la nostra tabella delle frequenze osservate, andando poi a costruire, sempre manualmente, la tabella delle frequenze attese in caso di indipendenza – calcolandole come spiegato nel paragrafo Tabella di contingenza: frequenze attese e frequenze osservate.
Infine, utilizzando la seguente formule di Excel è possibile calcolare il p-value: =CHISQ.TEST
Se cerchi un corso completo sull’utilizzo di Excel per l’analisi statistica dei dati, potrebbe interessarti il nostro Corso base di Excel di 12 ore, per maggiori informazioni clicca qui.
In SPSS la procedura è piuttosto semplice: andremo nel menù Analizza > Statistiche descrittive > Tabelle di Contingenza
Dopo aver inserito le due variabili in riga ed in colonna andremo a flaggare l’opzione Chi quadrato all’interno della finestra “statistiche”.
Se ti interessa un corso di SPSS senza alcun requisito iniziale puoi invece vedere il nostro corso di Fondamenti di Statistica medica in SPSS cliccando qui, è adatto anche a chi non lavora in ambito medico. Infine per quando riguarda R, basta utilizzare il comando chi.test() e inserire le due variabili di interesse, per esempio:
chi.test (Genere. Fumo)
Da cui avremo sia il valore del Chi Quadrato che il corrispondente p-value.
Se ti interessa un corso di R senza alcun requisito iniziale puoi iscriverti al nostro corso base di R da 12 ore scrivendoci qui: è adatto anche a chi è alle prime armi con il software.
Avvertenze: come risolvere problemi di bassa numerosità
Prima di chiudere l’articolo vogliamo ribadirti ancora una volta che il test Chi quadrato di Pearson ha grossi problemi in caso di dataset particolarmente piccoli o, comunque, con conteggi attesi inferiori a 5.
Se hai una problematica di questo tipo ti suggeriamo di accorpare alcune categorie particolarmente poco numerose, oppure di escluderle completamente dall’analisi.
Nel caso tu abbia bisogno di una consulenza specifica per un problema di analisi statistica dei dati puoi sempre contattarci tramite l’apposito form!
Articolo a cura del Dott. Alessandro Catini