In questo articolo parleremo nel dettaglio di cosa sono le curve di Kaplan Meier, delle loro principali caratteristiche, e come queste possono essere costruite con Excel, SPSS e R.
Cosa sono le curve di Kaplan-Maier
Le curve di sopravvivenza di Kaplan Meier sono uno strumento statistico molto utilizzato in ambito medico per valutare l’andamento e la probabilità di sopravvivenza dei pazienti con una determinata diagnosi (es: tumori) o comunque la probabilità che un determinato evento non accada (es: il rigetto di un organo dopo un trapianto).
Definiamo d’ora in poi, in maniera generica, la probabilità di sopravvivenza come la probabilità che l’evento di interesse non avvenga.
A cosa servono le curve di Kaplan Meier
Le curve di Kaplan Meier sono, quindi, lo strumento di analisi statistica che ci consente di costruire il grafico della relazione esistente tra la probabilità di sopravvivere e il tempo di osservazione, ovvero le curve di sopravvivenza, e di misurare il rischio che un certo evento possa accadere.
Gli obiettivi principali dell’analisi di sopravvivenza sono:
- STIMARE la funzione di sopravvivenza (ad esempio, probabilità cumulativa di sopravvivenza a 3 o 5 anni);
- CONFRONTARE la sopravvivenza di gruppi di pazienti sottoposti a trattamenti diversi;
- VALUTARE la capacità prognostica di diverse variabili considerate separatamente e/o congiuntamente.
Per effettuare un’analisi della sopravvivenza sono indispensabili, oltre al gruppo di soggetti studiato, due variabili:
1) Una variabile detta ‘Evento’ che indica se il paziente non ha avuto l’evento di interesse (Evento=0) o se ha avuto l’evento (Evento=1) durante il periodo di osservazione;
2) Una variabile detta ‘Survival’ o ‘Tempo’ (sopravvivenza) che indica la durata del periodo di osservazione: T1-T0. Viene in genere espresso in anni, in mesi o giorni. Il tempo T0 non è detto che sia lo stesso per tutti i pazienti, in quanto si riferisce al momento della diagnosi o dell’evento chirurgico.
Differenza tra eventi e censure
Spesso si rischia di fare confusione tra eventi e censure: con evento si indica che durante il periodo di osservazione il paziente ha avuto l’evento che si sta studiando, mentre con censura si indica o un paziente che non ha avuto l’evento fino alla fine del periodo di osservazione, oppure un paziente che non si è riusciti a seguire per tutta la durata di tempo prestabilita, ma che fino all’ultimo momento di osservazione non ha presentato l’evento (escono quindi dallo studio per un motivo diverso dall’evento: sono lost in follow-up).
Supponiamo di avere 6 pazienti il cui tempo T0 è l’1 Gennaio 1997 e il periodo di osservazione di interesse è fino al 31 Dicembre 1999:
Di questi 6 pazienti i primi tre sono rimasti vivi per tutto il periodo di osservazione, un paziente non è deceduto ma è stato perso di vista il 31 Dicembre 1998, quindi è considerato censurato prima del termine del periodo di osservazione, un paziente è morto il 31 Dicembre 1997 e l’ultimo il 31 Dicembre 1999.
Otteniamo quindi che sono arrivati alla fine del periodo di osservazione 4 pazienti, di cui uno ha avuto l’evento, mentre due pazienti non sono arrivati alla fine del termine di osservazione: uno ha avuto l’evento e uno è stato censurato (non ha avuto l’evento).
Probabilità condizionale e cumulativa di sopravvivenza
Alcuni indici classici quando si svolgono le analisi relative alla sopravvivenza sono:
Probabilità di sopravvivenza = 1 – Quoziente di mortalità
Altri due indici molto importanti sono la probabilità condizionale di sopravvivenza, ovvero la probabilità di non avere l’evento al tempo t, sapendo che l’evento non si è verificato fino al tempo t-1, e la probabilità cumulativa di sopravvivenza, ovvero la probabilità a priori di non avere avuto ancora l’evento fino al tempo t:
Costruzione delle curve Kaplan Meier
Per costruire la curva di Kaplan Meier abbiamo bisogno di suddividere il periodo di tempo in intervalli: avremo un nuovo intervallo ogni volta che si verifica un evento. In ogni intervallo dobbiamo sapere quante sono le persone ancora presenti nello studio, quanti eventi e quante censure si sono verificate, in modo da poter calcolare la probabilità di sopravvivenza condizionale e di conseguenza quella cumulativa di tale periodo.
Supponiamo di avere 10 pazienti e un periodo di osservazione pari a 240 giorni; i cerchi grigi sono gli eventi, mentre quelli bianchi le censure.
Costruendo una tabella per il primo intervallo si hanno i seguenti risultati:
Il primo evento si ha dopo 40 giorni e non ci sono censure: la probabilità di sopravvivenza è 9/10= 0.9 (così come la probabilità cumulativa essendo il primo intervallo).
Per quanto riguarda il secondo intervallo si ha:
ovvero l’evento si ha al giorno 69 e nell’intervallo vi è anche un paziente censurato: la probabilità di sopravvivenza è 8/9 = 0.89 mentre quella cumulativa è 0.9*0.89=0.80.
Si procede in questo modo fino al termine del periodo di osservazione.
Il passo successivo è costruire la curva di Kaplan Meier, che risulta essere simile a un grafico a “gradini”:
Cosa è il log rank test delle curve Kaplan Meier
È possibile confrontare due curve di Kaplan Meirer per determinare, ad esempio, la diversa sopravvivenza di due gruppi di pazienti (trattamento vs controllo, terapia A vs terapia B, ecc…).
Il test che viene utilizzato per il confronto di due curve si chiama log rank test.
Per vedere come costruire le curve di Kaplan Meier facciamo un nuovo esempio: supponiamo di avere due gruppi di 6 pazienti ciascuno, che vengono seguiti per 100 giorni. Si ha la seguente situazione:
Come prima dobbiamo costruire una tabella considerando gli intervalli di tempo, questa volta tenendo conto dei due gruppi; bisogna inoltre aggiungere l’indice di mortalità attesa per ogni intervallo, data dal numero dei pazienti a rischio nel gruppo diviso il numero dei pazienti totali a rischio. Per il primo intervallo si ha:
ovvero il primo evento al giorno 23, nel gruppo 1, non ci sono censurati e il rischio di mortalità attesa è lo stesso per i due gruppi. Per il secondo intervallo si ha:
ovvero il secondo evento si ha al giorno 25, nel gruppo 2, non ci sono censurati e il rischio di mortalità attesa è più alto nel gruppo 2.
Si procede così fino a quando non ho più pazienti.
Alla fine, avremo il numero di morti in ciascun gruppo e le relative mortalità attese totali (date dalla somma delle singole in ciascun gruppo).
Per ottenere il valore del log rank test si ha la formula:
Nel nostro esempio, la mortalità attesa – la mortalità osservata è pari a 1.13 (si ricava sia da 4-5,13 che da 5-3,87), quindi il risultato è:
Il valore ottenuto (statistica test) si distribuisce come un Chi quadrato con numero gruppi-1 gradi di libertà (nel nostro caso 2-1=1) ed il test ha come ipotesi nulla la differenza non statisticamente significativa delle due curve. È quindi sufficiente andare a guardare il p-value del log rank test per decidere se rifiutare o meno l’ipotesi nulla di curve di sopravvivenza non significativamente differenti.
Overall survival e event free survival: cosa cambia?
La differenza tra Overall survival (OS) e Event free survival (EFS) è l’evento di interesse: supponiamo di avere dei pazienti che hanno fatto chemioterapia a seguito di un tumore e che questi siano guariti. L’evento di interesse potrebbe essere di due tipi: o avere una ricaduta o, a seguito della ricaduta, il decesso.
In questo caso la ricaduta rappresenta l’Event free survival, mentre il decesso rappresenta l’Overall survival.
Kaplan Meier: costruzione delle curve con Excel, SPSS e R
Per costruire le curve di Kaplan Meier su Excel abbiamo bisogno di scaricare e aggiungere il pacchetto “add-in”, che purtroppo non è più disponibile.
Per quanto riguarda le curve di Kaplan Meier su SPSS, basta andare su Analizza -> Sopravvivenza -> Kaplan – Meier e si apre una finestra in cui inserire la colonna relativa al tempo di osservazione, la colonna relativa all’aver avuto l’evento oppure no ed eventualmente la variabile relativa ai gruppi, nel caso volessimo confrontare più gruppi (e quindi determinare anche il valore del log rank test).
Vuoi saperne di più? Scopri i nostri corsi SPSS cliccando QUI o CONTATTACI, anche per chi è alle prime armi!
Infine, su R abbiamo bisogno di installare e caricare i pacchetti “survminer” e “survival”: il comando per costruire la curva è survfit con la formula Surv:
- La prima variabile è numerica e indica il tempo di osservazione di ciascun paziente (anni, mesi, giorni);
- La seconda variabile è numerica e assume valori 0 (non evento) e 1 (evento);
- ~ 1 indica che non si fanno distinzioni tra gruppi;
- Il comando ggsurvplot serve a disegnare la curva di Kaplan Meier.
Se volessimo disegnare le curve tra diversi gruppi, al posto di 1 dobbiamo inserire la variabile che li contiene: per esempio, per la distinzione tra maschi e femmine utilizzerò la variabile genere:
Infine per ottenere il log rank test, bisogna usare il comando survdiff al posto di survfit e aggiungere il parametro rho=0:
Curioso di imparare a usare R? Scopri di più sui nostri corsi cliccando QUI o CONTATTACI, anche per chi non è pratico del software!
Per saperne di più sulle curve di Kaplan Meier o su altri argomenti statistici, non esitare a contattarci: oltre ai corsi, siamo disponibili anche per consulenze o lavorare al tuo progetto su consegna!
Articolo a cura della Dott.ssa Alessandra Cardinale