Parole (meno) Sante: Strana statistica

E così ieri mi sono messo alla ricerca di un corso di statistica: pensavo di trovarne molti ma non è stato così. Ce ne era uno che usava il linguaggio R (*1) ma non mi piaceva la sua impostazione; un altro era di statistica non tradizionale (ma io prima voglio proprio imparare quella classica!); e, infine, quello che ho scelto: Introduction to Statistics: Inference. È il terzo di una serie (il primo, credo, sui grafici e il secondo sul calcolo delle probabilità) quindi potrei incontrare difficoltà ma non mi andava di ristudiare cose che già so o che trovo troppo facili/noiose. Il corso è composto da solo 5 lezioni, quindi molto corto, però ho visto che c'è molto materiale per ogni lezione. Terribile la voce di un'insegnante indiana: ha delle pause di silenzio di 2-3 secondi ogni 15-20, non solo alla fine di una frase ma anche a metà di un concetto...
Probabilmente ha qualche grave problema di salute ma allora non fatele fare questi video!

Comunque ieri ho studiato la seguente pagina sulla campionatura: Sampling.
Alla fine di essa c'è il seguente esercizio (da me tradotto liberamente):
Una cittadina è composta da 700 isolati; ogni isolato ha minimo 6 edifici e mediamente ne ha 30; in ogni edificio abitano mediamente 2 persone.
Scegliamo un campione di persone con la seguente procedura: 1. Si scelgono a caso 70 isolati; 2. Per ogni isolato si scelgono a caso 6 edifici; 3. il campione sarà composto da tutti gli abitanti degli edifici selezionati.
Domande:
1. La probabilità che ogni persona ha di far parte del campione è uguale per tutti?
2. La media degli abitanti per edificio del nostro campione sarà uguale alla media complessiva?

La risposta alla prima domanda è ovviamente “no”. Le persone che vivono in un isolato con pochi edifici hanno più probabilità di far parte del campione rispetto a quelle che vivono in solati con molti edifici. Ad esempio chi vive in un isolato con solo 6 edifici ha il 10% di possibilità di essere selezionato; invece chi vive in un isolato con 60 edifici ha il 10% di 6/60, ovvero l'1% di essere scelto (*2).

Per la seconda domanda ho avuto molti più dubbi: la mia sensazione è che la risposta dovesse essere “sì” ma non ne ero sicuro. Così ho preso carta e penna per aiutarmi nel ragionamento.
Innanzi tutto 700 isolati con 30 edifici di media significa che in totale ci sono 21.000 palazzi. E se ogni palazzo ha mediamente 2 abitanti allora la cittadina ha 42.000 abitanti.
Ma soprattutto mi sono poi focalizzato sulla media degli abitanti per casa: se # totale persone / # totale case è 2 allora se scelgo X case avrò 2*X abitanti: in altre parole non vedo motivi per cui tale valore dovrebbe cambiare...

È invece la soluzione dell'esercizio era 2,7! Ovviamente non ho guardato i vari dettagli perché volevo ragionarci più approfonditamente per conto mio. Ma nonostante gli sforzi sono rimasto della mia idea.

Così oggi ho provato a costruire un semplice modello della cittadina al quale applicare poi il metodo di campionatura descritto. Nel mio modello ho creato 700 isolati a cui prima ho assegnato 6 edifici (4.200 in tutto) e dopo ho distribuito casualmente i restanti (21.000 – 4.200) 16.800. Infine ho assegnato casualmente 42.000 persone alle 21.000 case.
A questo punto ho applicato più volte il metodo di campionatura indicato e ho calcolato la media di abitanti per edificio del campione: i risultati (ho ripetuto l'esperimento varie volte) erano tutti molto vicini a 2: talvolta un po' di più (massimo 2,1333), a volte un po' meno (minimo 1,8928).

Soddisfatto sono andato a leggere per bene la “soluzione” del problema.
Innanzi tutto non è possibile calcolare la media di abitanti per edificio del campione con i dati a nostra disposizione. Il 2,7 che avevo visto di sfuggita si riferiva a un esempio specifico dove viene mostrato che la media del campione differisce dalla media della popolazione.
L'esempio è il seguente: supponiamo di avere solo 10 isolati composti da edifici che ospitano 1 oppure 10 persone. Per la precisione i 10 isolati sono così composti:
1. 1
2. 1
3. 1
4. 1
5. 1
6. 1
7. 1
8. 1
9. 1
10. 10+10+10+10+10+10
Cioè i primi 9 isolati hanno soltanto un edificio e ciascuno ospita una sola persona, invece il 10° isolato ha 6 edifici che ospitano ciascuno 10 persone.
Gli abitanti totali sono quindi 9+60=69, gli edifici 9+6=15 e quindi la media di abitanti per edificio è 69/15=4,6
Supponiamo di formare il nostro campione scegliendo prima due isolati e poi tutti gli abitanti di un edificio per isolato: in totale avremo o 2 persone (avremo scelto due degli isolati numerati da 1 a 9) oppure 11 (se uno dei due isolati scelti sarà il 10°). Nel primo caso la media di abitanti per edificio sarà 2/2=1; nel secondo sarà 11/2=5,5.
Mediamente (che è ciò che ci interessa!) sarà 1*Prob.(scelta di due isolati fra 1 e 9)+11/2*Prob.(uno dei due isolati scelti è il 10°). Con qualche calcolo delle probabilità (per i dettagli guardate la pagina indicata) si ottiene il risultato finale di 1,95 (*3).

Così ho riletto con attenzione la dimostrazione per il caso iniziale anche se mi sembrava un po' contorta...
Il passaggio centrale è quello dove si definisce il numero di abitanti del nostro campione e lo si pone uguale a:
A1*P(E1)+A2*P(E2)+... ...+A21000*P(E21000) ← totale persone campione
dove Ai è il numero di abitanti dell'edificio i-esimo e P(Ei) è la probabilità che l'edificio i-esimo faccia parte del nostro campione. Basterà poi dividere tale numero per 420 (il numero degli edifici scelti) per ottenere la media di abitanti per edificio del nostro campione.
Allora se ogni P(Ei) sarà uguale a 420/21.000 (ovvero se ogni edificio avrà la stessa possibilità di essere scelto) si potrà riscrivere la formula precedente ottenendo:
A1*P(Ei)+A2*P(Ei)+... ...+A21000*P(Ei)
(A1+A2+... ...+A21000)*P(Ei)
42.000*(420/21.000)
2*420 ← totale persone campione
Che diviso per 420 (numero degli edifici scelti) dà, appunto, 2 abitanti per edificio di media.
Secondo il testo la conclusione è che solo una scelta equiprobabile degli edifici garantisce una media del campione uguale a quella dell'intera popolazione. Poiché il nostro metodo di campionamento non garantisce che gli edifici siano scelti in maniera equiprobabile, allora la media del campione sarà diversa da quella dell'intera popolazione.
CVD...

...oppure no?
Dipende: il mio esperimento col modello informatico ha mostrato come anche con probabilità diverse per la scelta degli edifici da inserire nel campione si ottiene una media di abitanti per abitazione che è la stessa della popolazione completa.
Il motivo è che nel mio modello il numero di abitanti di ogni edificio segue sempre la stessa legge: diventa quindi irrilevante come si scelgono gli edifici del campione e le loro probabilità.
Secondo me quindi la seconda domanda dell'esercizio è mal posta e avrebbe dovuto essere invece qualcosa del tipo “In quali casi la media (abitanti/edificio) del campione è uguale alla media della popolazione?” e in tal caso avremmo avuto la risposta: “Quando la scelta dei diversi edifici è equiprobabile OPPURE quando la distribuzione degli abitanti per edificio è sempre la stessa”

Non mi pare che la soluzione data dal testo abbia una dignità maggiore della mia e, per tanto, sarebbe stato giusto specificarle entrambe.

Conclusione: sono un po' pignolino, vero?

Nota (*1): tempo fa detti un'occhiata al linguaggio R ma non mi piacque per niente...
Nota (*2): calcoli fatti a naso: siccome a calcolo delle probabilità sono MOLTO arrugginito ci potrebbero essere delle piccole discrepanze. Ma in questo caso i numeri esatti non sono importanti: basta mostrare che le due probabilità sono diverse...
Nota (*3): alla pagina indicata hanno sbagliato il penultimo calcolo...

domenica 21 agosto 2016

Strana statistica

Nessun commento:

Posta un commento

I miei blog + o - attivi

Cerca nel blog

Epitome - V1151 "Nari"

Archivio blog

Ghiribizzi che mi piacciono

Label Cloud

Eroici Lettori Indefessi

Visualizzazioni totali

Commenti recenti

Post più popolari (ultimi 7 gg)