«[Figlio dell'uomo] Porgi l'orecchio e ascolta le parole di KGB
e applica la tua mente alla SUA istruzione
» Pv. 22,17

Qui si straparla di vari argomenti:
1. Il genere dei pezzi è segnalato da varie immagini, vedi Legenda
2. Istruzioni per i nuovi lettori (occasionali e non) qui
3. L'ultimo corto è questo

venerdì 26 novembre 2021

Esercizio di statistica

Prendendo lo spunto dall’articolo FDA report finds all-cause mortality higher among vaccinated dell’IsraelNationalNews.com mi sono divertito a fare un esercizio statistico.
L’articolo spiega che in un esame su 22.000 vaccinati e 22.000 placebo ci sono stati rispettivamente 21 e 17 morti per cause varie (nel senso di non dovute a covid) che però non erano state ritenute statisticamente significative dalla FDA. Come esercizio ho voluto provare a controllare.

Mesi e mesi fa scrissi il pezzo Camera doppia o singola? dove andai a esplorare matematicamente la differenza fra un parlamento di una camera oppure di due (dove la somma dei membri del parlamento con due camere era uguale a quella del parlamento unico).
Se per esempio abbiamo un parlamento con monocamera di 600 membri e un altro parlamento con due camere con 300 membri una legge è approvata nel primo con 301 (o più) voti contro 299 mentre nel secondo ci devono essere 151+ contro 149 e 151+ contro 149: in totale 302 contro 298.
Ovvero, in generale, per avere la maggioranza su due camere ci vuole una maggioranza più forte che in una sola. Questo perché (a parte il caso limite appena visto) se distribuisco casualmente la maggioranza di una camera su due camere grandi però la metà, in genere questa non si dividerà equamente ma spesso sarà maggiore in una camera ma non sufficiente nell’altra.
Ovviamente il mio era un modello semplificato che non teneva conte dei partiti e di altri fattori di dipendenza ma il concetto generale restava valido.
Per i miei calcoli scrissi un programmino che calcolava le varie probabilità su cui la maggioranza di una camera di 600 elementi poteva dividersi su due da 300 e conservare la maggioranza in entrambe.
All’epoca scrissi basandomi sui miei calcoli: «Per esempio per avere una buona sicurezza che un provvedimento sia approvato con probabilità maggiore del 90% occorre una maggioranza complessiva di 322 voti su 600 ovvero del 53,7%.»
Ovvero se divido casualmente questi 322 voti su due camere da 300 la probabilità che si abbia la maggioranza in entrambe era del 91,452%.
Ecco, senza rendermene conto, avevo riscoperto la ruota o, nel caso specifico, il “p-value”!
Il “p-value” è la probabilità soglia che separa i risultato frutto del caso da quelli ritenuti statisticamente significativi. Di solito lo si pone convenzionalmente al 5%: cioè se un evento ha una probabilità di verificarsi casualmente minore del 5% allora è considerato statisticamente significativo.

Non so se notate il parallelo logico con la mia idea: forse lo devo esplicitare maggiormente per renderlo comprensibile a tutti…

Fatemi pensare a une esempio equivalente… Ecco: supponete di essere un ricercatore e che avete fatto il seguente esperimento: in una cultura di microbi senzienti e politicizzati avete un parlamento con due camere di 300 membri (tutti indipendenti fra di loro, senza partiti o altre influenze) ciascuna. Gli suggerite una legge e questa viene approvata con una maggioranza di 152 voti nella prima camera e 158 nella seconda. Questo significa che avete dimostrato che la cultura di microbi approverà “sempre” (*3) la vostra legge oppure si è trattato di un caso? (*0)
Dai valori che ho pubblicato sul pezzo Camera doppia o singola? risulta che una maggioranza di 10 voti porta all’approvazione della legge solo il 53,77% delle volte: insomma siete stati fortunati, il 46,23% delle volte la vostra proposta sarebbe stata bocciata!
Per essere “sicuri” del vostro risultato, ovvero volendo avere una probabilità maggiore del 95%, dovreste avere una maggioranza di 325 voti su 600.

Tornando al nostro articolo ho quindi provato a fare qualcosa di analogo: se divido i 38 morti nei due gruppi di 22.000 elementi quale sarà generalmente la loro differenza? Cioè quale sarà la probabilità che i morti siano gli stessi in entrambi i gruppi, che la differenza sia di 2, di 4, di 6 etc. (*1)?
Fatto questo posso quindi verificare se la differenza riportata dall’articolo è significativa: cioè se si verificherebbe casualmente meno del 5% delle volte, oppure no.

In questo caso non ho calcolato direttamente le probabilità ma ho scritto un programmino che simulava questa divisione in due gruppi per 1.000 volte registrando ogni volta la differenza trovata.
Ah! ho messo insieme le differenze con lo stesso valore assoluto mediando il numero di occorrenze trovate fra loro: in pratica è come se avessi fatto 2.000 campionature su metà dei valori possibili.
Delta → %
20 → 0,05%
18 → 0,25%
16 → 0,5%
14 → 0,55%
12 → 1,85%
10 → 4,1%
8 → 5,5%
6 → 8,55%
4 → 9,45%
2 → 13,15%
0 → 12,1% (*2)

Quindi dividendo casualmente i 38 morti fra i due gruppi si hanno distribuzioni improbabili (che quindi sarebbero statisticamente significative) se la differenza di morti fra i due gruppi fosse di almeno 12 (4,20%) cioè 25 morti in un gruppo e 13 nell’altro. Questo sarebbe stato un risultato anomalo (perché “improbabile” (*3) che si verificasse casualmente) che avrebbe fatto drizzare le orecchie alla FDA…
Insomma in questo caso (se i miei calcoli hanno senso) la FDA ha correttamente ritenuto la differenza di morti statisticamente non significativa.

Conclusione: in verità non sono sicuro che questo metodo sia valido: mi sembra di averne visto un accenno nel corso di statistica (che devo decidermi a riprendere!) ma a questa teoria specifica non ero ancora arrivato. Nel caso correggerò questo pezzo dove serve…

Nota (*0): per dare senso all’esempio bisogna anche assumere che la maggioranza di 10 voti resterebbe fissa anche in altre culture: cioè solo la distribuzione di questi 10 extra voti varierebbe nelle due camere da 300 microbi…
Nota (*1): sì perché la differenza di due numeri la cui somma è pari non potrà mai essere dispari visto che saranno o tutti e due pari o tutti e due dispari…
Nota (*2): MODIFICATO 26/11/2021: in realtà la differenza teorica fra delta=0 e delta=2 è relativamente piccola: probabilmente ho avuto "sfortuna" nella simulazione…
Così ho calcolato manualmente come si possono dividere 2 oggetti in due gruppi (4 possibilità) e qui si ha delta=0 con 50% e delta=2 con 50%; però già con 4 oggetti (16 possibilità) si ha delta 4=2 (occorrenze), delta 2=8 (occorrenze) e delta 0=6 (occorrenze). Insomma controintuitivo ma matematicamente le cose stanno così…
Nota (*3): “improbabile” nel senso di probabilità minore del 5%!

Nessun commento:

Posta un commento