«[Figlio dell'uomo] Porgi l'orecchio e ascolta le parole di KGB
e applica la tua mente alla SUA istruzione
» Pv. 22,17

Qui si straparla di vari argomenti:
1. Il genere dei pezzi è segnalato da varie immagini, vedi Legenda
2. Per contattarmi e istruzioni per i nuovi lettori (occasionali e non) qui
3. L'ultimo corto è questo
4. Molti articoli di questo blog fanno riferimento a definizioni e concetti che ho enunciato nella mia Epitome gratuitamente scaricabile QUI. Tali riferimenti sono identificati da una “E” fra parentesi quadre e uno o più capitoli. Per esempio: ([E] 5.1 e 5.4)

mercoledì 14 dicembre 2022

Esempio di Bayes

Pezzo peso: lo scrivo già dall’inizio così non mi sento in colpa!

Il motivo è che non scrivo qualcosa di interessante ma lo faccio per me stesso: voglio per l’ennesima volta (v. Il teorema di Bayes divertente (un pochino) di appena un anno fa...) scrivere un esempio per il teorema di Bayes che mi possa servire da riferimento e, molto secondariamente, cercare di ricordare i due aspetti dell’accuratezza di un esame.

Credo che la mia difficoltà a ricordare questi specifici dati dipenda dalla mia particolare forma di dislessia dove ho problemi con nomi (o in questo caso parti di formule) simili…

Così mi sono fatto un esempio che metta tutte queste informazioni insieme: ricordavo infatti di aver scritto nella primavera del 2020 (più o meno) un pezzo con un vero e proprio errore matematico che non ho mai avuto la voglia di correggere…

Non mi ricordo il contesto esatto ma scrissi che se un esame per verificare se una persona era ammalata aveva una sensibilità del 70% allora, facendolo due volte consecutivamente, si avrebbe avuto una “sensibilità” dell’91% (1 – (1-.7)*(1-.7)).
L’errore qui è doppio.
Il primo errore era stato interpretare male il significato di “sensitività”: essa NON indica la probabilità di riconoscere un individuo infetto MA la probabilità di riconoscere un individuo infetto SE questo è malato. Matematicamente la mia interpretazione (errata) corrispondeva a “sensitività” = P(M) cioè alla probabilità che una persona fosse malata; in realtà “sensitività” = P(T+ | M) cioè la probabilità che l’esame dia un risultato positivo SE la persona testata è infetta.
Analogamente l’altro aspetto dell’accuratezza di un farmaco, la “specificità” (se i nomi non iniziassero entrambi con “s” li ricorderei!), indica la probabilità che un esame dia esito negativo se la persona testata è sana. Nella mia notazione: P(T- | ¬ M).
Il secondo errore è stato non considerare l’informazione che il primo esame dava sulla salute del soggetto testato (risultato positivo o negativo che fosse) ma pensare che fossero eventi assolutamente indipendenti.

L’esempio che ho pensato per oggi è banale: mi sono inventato delle cifre (forse neppure realistiche) per un esame che indichi se il paziente testato è affetto o meno da una specifica malattia e la prevalenza (cioè la sua diffusione) di detta malattia nella popolazione.
Voglio quindi poi calcolare come cambiano le probabilità a ripetere l’esame due volte.

La prima volta farò i miei calcoli senza usare il teorema di Bayes o meglio basandomi su una logica intuitiva che dà lo stesso risultato perché equivalente a esso. Successivamente vedrò di rifare i calcoli usando il teorema vero e proprio.

Dati:
Sensitività 90%
Specificità 85%
Prevalenza 12%

Fase 0:
P(M) = 12% Cioè, prima di fare qualsiasi esame la probabilità di essere infetti equivale alla prevalenza della malattia nell’intera popolazione.

Fase 1:
Voglio scoprire P(M | T+) ovvero la probabilità di essere malato avendo fatto un esame con risultato positivo.
Bisogna qui chiederci: quando si ha T+? Si ha:
1. quando si è effettivamente infetti è l’esame restituisce il risultato corretto (sensitività).
2. ma anche quando NON si è infetti e l’esame restituisce il risultato errato (1 – specificità).

La probabilità cercata sarà quindi data dalla probabilità di appartenere al gruppo 1 (quello cioè individuato dalla prima formula) diviso il numero di appartenenti ai gruppi 1 e 2.

Sia #P la popolazione totale.
Allora il numero di persone infette è #P * .12, quello delle persone sane è #P * .88

Il numero dei positivi individuati fra gli infetti sarà quindi:
#P * .12 * sensitività =
#P * .12 * .9 =
#P * .108

Il numero dei (falsi) positivi individuati fra i sani sarà:
#P * .88 * (1 – specificità) =
#P * .88 * .15 =
#P * .132

La probabilità cercata sarà quindi:
#P * .108 / #P (.108 + .132)
Ovviamente #P si semplifica sparendo dalla formula:
.108 / (.108 + .132) =
0.45

Cioè P(M | T+) = 45%
Un risultato forse non intuitivo dovuto al fatto che il numero di falsi positivi, soprattutto se la prevalenza è bassa, è più alto di quello degli infetti identificati correttamente come positivi. Nella realtà si fanno gli esami se ci sono dei sintomi che ci facciano pensare di essere effettivamente malati e questo cambia totalmente la situazione: per esempio la popolazione non infetta raramente tossirà o avrà la febbre (lo farà solo nel caso avesse una malattia, non necessariamente quella cercata, con questi sintomi).

Fase 2:
Sapendo che il primo esame mi ha dato esito positivo, qual è la probabilità di essere effettivamente malati facendo un secondo esame?
Cioè voglio trovare P(M | T1+, T2+) (non so quanto questa notazione sia matematicamente corretta ma è per capirci!)

Qui ho semplicemente ripetuto il ragionamento precedente ma, invece di basarmi sull’intera popolazione, considero quelle ottenute nella precedente iterazione.
Quindi riottengo il primo gruppo con:
#P * .108 * .9 =
#P * .0972

E il secondo:
#P * .132 * .15 =
#P * .0198

Come nel caso precedente #P si semplifica via e ottengo quindi:
.0972 / (.0972 + .0198) = .8308

Ovvero dopo due esami con esito positivo la probabilità di essere effettivamente infetti sale dal 45% all’83%…

Devo poi premettere che mentre ho convertito i miei conti con il teorema di Byas senza problemi per la fase 1, mi sono invece incasinato nella fase 2. Ma per semplicità evito tutte le complicazioni immaginarie con cui mi ero scontrato…

Fase 0:
P(M) = prevalenza = 12%

Fase 1:
P(M | T+) = P(T+ | M) P(M) / P(T+)
P(T+) lo calcoliamo come P(T+ | M)P(M) + P(T+ | ¬ M)P(¬ M)
ovvero
P(T+ | M) P(T+) / (P(T+ | M)P(M) + P(T+ | ¬ M)P(¬ M))
Tutti i dati sono noti e quindi basta eseguire le relative sostituzioni:
sensitività * prevalenza / (sensitività * prevalenza + (1 – specificità)(1 – prevalenza)) =
.9*.12 / (.9*.12 + .15*.88) =
.45

Più interessante è il prossimo passo: cosa considero come P(M)? la prevalenza l’ho usata al passo precedente ma qui devo usare la “nuova” probabilità di essere infetti ovvero il precedentemente calcolato P(M | T+) = .45
Fase 2:
La formula è quella di prima ma P(M) non è più la prevalenza (.12) ma P(M | T1+) cioè .45
Si ha quindi:
.9*.45 / (.9*.45 + .15 * (1-.45)) =
.405 / (.405 + .0825) =
.8308

Conclusione: avrò finalmente memorizzato il tutto? Bo… speriamo! Posso già dire che per tutto il pezzo mi veniva sempre da scrivere “sensibilità” invece che "sensitività"… Per Bayes ho qualche speranza in più!

Nessun commento:

Posta un commento