Cos’è il Propensity Score Matching (PSM)

Nelle analisi dei dati, il metodo del Propensity Score Matching permette di uniformare due gruppi valutando le somiglianze e le differenze tra le unità osservate su una serie di variabili di interesse.

La tecnica statistica riduce le differenze di partenza tra i campioni analizzati, migliorando il bilanciamento delle covariate e riducendo il bias di selezione.

Questa tecnica statistica consente di selezionare le unità dal gruppo di controllo, generalmente più ampio, che siano maggiormente affini per caratteristiche al gruppo di trattamento.

Infatti, capita non di rado che il gruppo di unità che ricevono un trattamento sia molto più piccolo, o con caratteristiche diverse al basale, rispetto al gruppo di controllo (o viceversa). Ciò accade molto spesso quando si a che fare con studi non randomizzati.

In entrambi i casi il PSM ci aiuta a risolvere questa problematica.

Propensity Score e analisi dati

Come si calcola il Propensity Score

Per calcolare il Propensity Score, si utilizza solitamente un modello di regressione logistica, in cui la variabile dipendente è l’assegnazione al trattamento (1 per il gruppo trattato, 0 per il gruppo di controllo) e le variabili indipendenti sono le covariate rilevanti. Il modello stima la probabilità condizionata di ricevere il trattamento dato il set di covariate osservate per ciascun individuo.

Per utilizzarlo nell’analisi causale esistono diversi metodi, come:

  1. Matching: consiste nell’accoppiare individui trattati e non trattati con Propensity Score simili, in modo da ottenere gruppi bilanciati.
  2. Stratificazione: prevede la suddivisione degli individui in strati (di solito 5 o 10) in base ai quantili del Propensity Score, e la stima dell’effetto del trattamento all’interno di ciascuno strato. L’effetto complessivo viene poi calcolato come media ponderata degli effetti stratificati.
  3. Ponderazione: assegna pesi agli individui in base all’inverso del Propensity Score (Inverse Probability of Treatment Weighting, IPTW), in modo da creare una pseudo-popolazione in cui l’assegnazione al trattamento è indipendente dalle covariate.

Propensity Score matching: esempio pratico di utilità

Ipotizziamo di avere due gruppi sperimentali: un primo gruppo composto da 1.000 unità che non hanno ricevuto alcun trattamento. Abbiamo invece un secondo gruppo composto da 100 unità che hanno ricevuto un certo trattamento sperimentale.

Nel momento in cui andiamo ad analizzare preliminarmente le caratteristiche socio-demografiche di questi due gruppi ci rendiamo conto che sono presenti delle differenze statisticamente significative: ad esempio nel trattamento ci potrebbe essere una percentuale molto più alta di uomini rispetto al gruppo di controllo, oppure potrebbe esservi un’età media significativamente più alta.

In questo caso, nel momento in cui andiamo a valutare le differenze nel parametro oggetto di studio, non potremo essere sicuri del fatto che eventuali differenze possano essere riconducibili non tanto al trattamento quanto più alle differenze socio-demografiche dei gruppi.

In altri termini potrebbe essere presente un effetto confondente delle covariate sulla variabile outcome di nostro interesse.

In questo esempio proposto il Propensity Score Matching può venire in nostro soccorso: infatti grazie al PSM potremo estrarre, dai 1.000 soggetti del gruppo di controllo, un sottogruppo di 100 soggetti più “simili” ai 100 del gruppo di trattamento in termini socio-demografici.

A quel punto potremo finalmente effettuare il confronto sui parametri di interesse, senza il timore che vi possano essere effetti confounding causati dalle diverse caratteristiche dei soggetti.

Propensity Score Matching per le analisi

Nel processo di analisi statistica avanzata, i sistemi di confronto basati sul Propensity Score permettono di studiare le tipologie dei partecipanti, bilanciando il campione e riducendo il bias di selezione, rendendo i paragoni più precisi tra i vari gruppi della ricerca osservazionale.

In ambito aziendale, i metodi di calcolo basati sul Propensity Score raccolgono le informazioni in valori definiti, controllando le variabili confondenti e agevolando la lettura dei dati nel procedimento di verifica. Le formule di propensity score si adattano a diverse situazioni di campionamenti sbilanciati, migliorando l’accuratezza dell’analisi statistica.

Le indagini basate sul Propensity Score aiutano ad esempio ad individuare quali segmenti di acquirenti rispondono meglio alle proposte commerciali, ottimizzando il targeting dei clienti.

Differenza tra Propensity Score e regressione multipla

il Propensity Score si concentra sul bilanciamento delle covariate per stimare l’effetto causale di un trattamento, la regressione multipla serve ad identificare l’associazione tra le variabili, controllando per i fattori confondenti.

Ecco una tabella che riassume le principali differenze

Caratteristica Propensity Score Regressione multipla
Obiettivo Stimare l’effetto causale di un trattamento o intervento su un outcome, bilanciando i gruppi rispetto alle covariate osservate Identificare l’associazione tra le variabili indipendenti e la variabile dipendente, controllando per i fattori confondenti
Variabile di interesse Assegnazione al trattamento (variabile binaria) Variabile dipendente (outcome), che può essere continua, binaria o categorica
Modello statistico Regressione logistica per stimare la probabilità di appartenere al trattamento date le covariate Modello lineare generalizzato per stimare l’effetto delle variabili indipendenti sulla variabile dipendente
Bilanciamento delle covariate Mira esplicitamente a bilanciare le covariate tra i gruppi di trattamento e controllo Controlla per le covariate includendole come variabili indipendenti nel modello, ma non garantisce il bilanciamento
Interpretazione dei risultati L’effetto causale del trattamento è stimato confrontando gli outcome dei gruppi bilanciati (matched, stratificati o ponderati) I coefficienti stimati rappresentano l’associazione parziale tra ciascuna variabile indipendente e la variabile dipendente, tenendo costanti le altre variabili
Ipotesi sottostanti Si basa sull’ipotesi di “strongly ignorable treatment assignment”, ovvero che non ci siano variabili confondenti non osservate Si basa sull’ipotesi di linearità, indipendenza degli errori, omoschedasticità e assenza di multicollinearità

Consulenza in analisi dati e PSM

Vuoi saperne di più sulle tecniche di Propensity Score Matching?

Se sei interessato ad un corso di formazione, a partire da febbraio 2025 abbiamo a catalogo un seminario ad hoc sul PSM con applicazione concreta in SPSS!

In alternativa possiamo, come sempre, svolgere il PSM per te su consegna, facendoti risparmiare tempo e dubbi!

Contattaci adesso e scopri come i nostri esperti possono supportare la tua azienda con le analisi statistiche.