Parole (meno) Sante: Il teorema di Bayes divertente (un pochino)

Siccome, perdendomi in problemini matematici che mi creo da solo e che poi non riesco a risolvere (!), è da oltre un mese che non vado avanti nel corso (noiosissimo) di statistica, ieri ho deciso di guardare il seguente video sul teorema di Bayes con l’idea che non mi faceva male e che comunque mi avrebbe aiutato a riconnettermi alla materia: Bayes theorem, the geometry of changing beliefs dal canale 1Brown3Blues su YouTube.

L’idea di fondo e che mi ha colpito molto è un'interpretazione filosofica/psicologica del teorema di Bayes visto come uno strumento per raffinare il nostro giudizio su un qualcosa.
In pratica ci metteremo nello scenario iniziale dove avremo una certa idea su un fenomeno L, poi dopo aver scoperto una nuova informazione E, grazie al teorema di Bayes, potremo aggiornare la nostra idea di L (cioè P(L) ovvero la nostra stima di L) tenendo presente la nuova informazione E, ovvero P(L|E).
Il video presenta un esempio molto chiaro e semplice di come funziona il tutto: un bloggatore normale si limiterebbe a riproporvi l’esatta stessa minestrina riscaldata ma io, ovviamente, voglio complicare e attualizzare il tutto alla situazione italiana.

L’idea è mostrare come due persone ipotetiche, l’anti verdepasso Gabriele (*1), giovane longanime, e Davide (*1), un anziano che si nutre di RAI 1 e semolino, fanatico pro verdepasso e pro censura, dovrebbero modificare le rispettive opinioni alla luce di una nuova informazione, ovvero di un ipotetico servizio del TG3.

L’idea di partenza è il numero di laureati a una manifestazione di 1000 persone contro il verdepasso.
Gabriele (G) ritiene che la percentuale di laureati sia il 10% (ovvero 100 persone): cioè P(L)=.1 e, ovviamente, P(¬L)=.9
Davide (D) è molto più scettico e non si capacità che dei laureati possano essere contro il verdepasso: la sua ipotesi iniziale è quindi che i laureati siano solo il 5%, cioè P(L)=.05 e P(¬L)=.95

La nuova informazione (E) la fornisce un servizio del TG3. Come sappiamo i media dipingono i contrari al verdepasso come una facinorosa accozzaglia febbricitante (perché non vaccinata) di satanisti, pervertiti, renitenti alla leva, licantropi e matti scappati dal manicomio: ma il TG3 vuole dare spazio a tutti e così intervista ben tre manifestanti. Due di questi si dicono sicuri (hanno anche visto le prove su FB) che il covid-19 è il frutto di una cospirazione dei rettiliani; il terzo, apparentemente più colto ma ugualmente strambo, pensa invece che la colpa sia degli gnomi di Zurigo visto che “tutte le principali case farmaceutiche sono svizzere”.
Dal nostro punto di vista matematico semplificheremo la nuova informazione “E” facendo finta che il campione selezionato dalla giornalista di RAI3 sia significativo dell’intera popolazione di manifestanti. La scomporremo in due proposizioni distinte: E’=“I 2/3 dei manifestanti credono nei rettiliani” ed E”=“Un terzo dei manifestanti NON crede ai rettiliani” (*2).

Il nostro obiettivo sarà mostrare come G e D dovrebbero aggiornare la loro idea iniziale sulla percentuale di laureati presenti alla manifestazione tenendo presente la nuova informazione “E” fornita dal telegiornale di RAI3 e applicando il teorema di Bayes.

Partirò con l’analisi dal punto di vista di G perché è ovviamente più simpatico di D.

Il teorema di Bayes ci dice che P(L|E) è uguale a P(L)*P(E|L)/P(E)
P(E) è uguale a P(L)*P(E|L) + P(¬L)*P(E|¬L)

Per calcolare questa semplice espressione dobbiamo ipotizzare due nuovi valori: P(E|L) e P(E|¬L).
P(E|L) corrisponde alla percentuale di manifestanti laureati che credono ai rettiliani mentre P(E|¬L) è la percentuale di manifestanti NON laureati che crede all’esistenza dei rettiliani (e in particolare che Draghi sia un rettiliano della sottospecie dei gechi vampiro giganti).
Per G tali valori sono:
P(E|L)=.1 e P(E|¬L)=.2
(sono dei valori molto alti ma volevo evitare dei numeri minuscoli: è plausibile pensare che G stimi tali percentuali molto più basse)

Al contrario D pensa che chi è contro il verdepasso sia un matto con la bava alla bocca e quindi ipotizza:
P(E|L)=.8 e P(E|¬L)=.95 cioè l’80% dei laureati che manifestano, secondo D, credono ai rettiliani così come ben il 95% della feccia non laureata.

Adesso possiamo divertirci a fare qualche calcolo basandoci su questi valori per vedere come “dovrebbero” (applicando cioè il teorema di Bayes) variare le opinioni tenendo conto della nuova informazione “E” divisa nei casi E’ ed E”.

Come al solito darò la precedenza al simpatico G applicando la formula precedentemente menzionata P(L)*P(E’|L)/(P(L)*P(E’|L) + P(¬L)*P(E’|¬L)) e sostituendo i vari valori ipotizzati.
Si ottiene: .1*.1/(.1*.1 + .9*.2) = 0.0526
Stessa procedura con E”: .1*.9/(.1*.9 + .9*.8) = 0.1111
Ah, forse vale la pena menzionare che P(E”|L) sarà 1-P(E’|L), ovvero .9 e, analogamente, P(E”|¬L) sarà 1-P(E’|¬L) cioè .2
Si tratta cioè delle probabilità che non si creda al complotto rettiliano in base al fatto che si sia laureati oppure no (sempre secondo la stima di G ovviamente).
A questo punto le percentuali trovate vanno mediate secondo i valori forniti dal servizio di RAI3, ovvero sapendo che i 2/3 dei partecipanti credono nei rettiliani. Si ottiene quindi: 2/3*0.0526 + 1/3*.1111 = .0721

Questo significa che G, ingenuamente prendendo per veritiero e affidabile il servizio dei media, dovrebbe convincersi che la percentuale di laureati presenti alla manifestazione è effettivamente minore di quanto pensava: invece che 100 (il 10%) dovrebbe scendere a soli 72 (il 7,2%).

Vediamo invece a cosa porta l’analoga analisi dal punto di vista del capzioso D.
Stessa formula P(L)*P(E’|L)/(P(L)*P(E’|L) + P(¬L)*P(E’|¬L)) sostituendovi però le stime di D.
Per E’ si ottiene: .05*.8/(.05*.8 + .95*.95) = .0424
Per E” si ottiene: .05*.2/(05*.2 + .95*.05) = .1739
Anche qui i valori per P(E”|L) e P(E”|¬L) si ottengono per differenza: 1-P(E’|L), ovvero .2 e, analogamente, sarà 1-P(E’|¬L) cioè .05
Mettendo insieme questi valori si ottiene: .0424*2/3 + .1739*1/3 = 0.0862

In questo caso si è ottenuto un risultato apparentemente controintuitivo: se D raffinasse la propria opinione secondo il teorema di Bayes allora la percentuale di laureati si incrementerebbe dal 5%, P(L), all’8,62%, P(L|E). Il paradosso si spiega ricordando che secondo i pregiudizi di D la percentuale di manifestanti che credevano ai rettiliani doveva essere fra il 90 e il 95% (potremmo calcolarlo precisamente ma ho spento la calcolatrice). Il servizio di RAI3 però fornisce una percentuale di credenti nei rettiliani molto più bassa, ovvero del 66%. Ora, siccome per D i laureati credono mediamente meno dei non laureati nell’esistenza del complotto rettiliano, allora dovrebbe dedurne che la loro percentuale fra i manifestanti sia un po’ più alta di quello che pensava. E questo è quanto infatti ci dicono le cifre calcolate qui sopra.

È poi facile immaginarsi che qui D non riesca a mantenersi freddo e matematico e che interpreti erroneamente i dati forniti da RAI3: probabilmente con malizia si convincerà che la percentuale dei laureati debba essere ancora più bassa, magari ipotizzando che il tizio che blaterava degli gnomi di Zurigo, in fondo in fondo, li considerasse non solo gnomi ma anche rettiliani!

Conclusione: a parte gli scherzi un risultato interessante è che ovviamente le persone non usano questa logica matematica, neppure a livello intuitivo, e anzi spesso (come potrebbe facilmente accadere nel caso controintuitivo di D) interpretano in maniera opposta al dovuto le nuove informazioni disponibili.

Nota (*1): nome immaginario.
Nota (*2): qui sono consapevole che con la notazione fra E, E’ ed E” ho fatto un po’ casino: ho chiesto al mio amico matematico Oleg di darci un’occhiata ma al momento è impegnato e non mi può far sapere. Io confido che, al di là dell’apparenza formale, i calcoli siano corretti. In caso contrario, prima o poi, li correggerò!

sabato 6 novembre 2021

Il teorema di Bayes divertente (un pochino)

Nessun commento:

Posta un commento

I miei blog + o - attivi

Cerca nel blog

Epitome - V1151 "Nari"

Archivio blog

Ghiribizzi che mi piacciono

Label Cloud

Eroici Lettori Indefessi

Visualizzazioni totali

Commenti recenti

Post più popolari (ultimi 7 gg)