Parole (meno) Sante: Aggiornamento statistico

mercoledì 24 agosto 2016

Aggiornamento statistico

Ieri ho iniziato a studiare la seconda dispensa (Estimation) della prima lezione e stamani l'ho terminata. Finalmente ho incontrato delle formule con le quali giocare ma l'alto numero di definizioni mi ha confuso.
Soprattutto, come ho scritto molte altre volte (*1), faccio fatica a distinguere nomi simili e questo corso è pieno di definizioni che si assomigliano: ad esempio abbiamo la “Standard Deviation of the Sample” che è diversa dalla “Sample Standard Deviation” e devo realmente sforzarmi per riconoscere qual è l'una e qual è l'altra.
Inoltre le formule sono scritte con un normale editore di testi col risultato che le radici quadrate sono espresse come potenze alla ½. Quindi parentesi extra e maggior difficoltà di lettura delle espressioni.
In questo capitolo (*2) si fanno poi riferimenti a concetti spiegati nei due corsi precedenti (che ho deciso di saltare: v. Strana statistica) sui quali ho più di qualche dubbio: per questo motivo ho iniziato a guardare uno dei capitoli finali (*3) del secondo corso e, forse, ne studierò anche altri...

Fortunatamente nella dispensa sono presenti esercizi che permettono di valutare la comprensione del materiale ed è qui che ho incontrato luci e ombre: alcuni esercizi mi sono riusciti senza problemi, in altri ho fatto stupidi errori di calcolo (ruggine mia) mentre altri (beh uno in realtà) non li ho neppure capiti.

Le prime formule incontrate sono:
A Conservative Estimate of the SE of the Sample Percentage
Quando si parla di “Percentage” si intendono popolazioni composte solo da elementi di valore 1 o 0: questo permette di semplificare molte formule.
La formula dello Standard Error è:

Il problema è che SD(Box) è la “Standard Deviation” della popolazione e, di conseguenza, non è nota.
Però, per popolazioni “Percentage” (composte solo da 0 e 1), SD(BOX) sarà uguale a

dove φ è la percentuale di elementi pari a 1.
Da questo si ricava che a sua volta:

La variabile f è chiamata “Finite Population Correction” e, chiaramente, per N grande è vicina a 1: la si usa quando il campione è estratto senza rimpiazzo altrimenti (credo!) si può omettere.
Chiaramente

sarà massima per φ=0,5 e quindi:

The Bootstrap Estimate of the SD of a List of Zeros and Ones
Fortunatamente è possibile ottenere un'approssimazione migliore di SE (sempre quando si ha a che fare con popolazioni di soli 0 e 1).
L'idea è quella di considerare il nostro campione come se fosse la popolazione e calcolare quindi su di esso la SD(Box): come faccia a funzionare il capitolo non lo spiega e io non ho indagato...
Comunque in questo caso si ha che:

ma stavolta φ è uguale alla percentuale di 1 del campione e non della popolazione.

L'esercizio 25.1 presenta 4 domande sulla stima dello “Standard Error”.
Per le prime tre basta applicare le due formule precedenti e, a meno di errori di calcolo, ho risposto correttamente; la quarta domanda è un po' a trabocchetto e io ci sono prontamente caduto: chiede se la percentuale trovata ha una qualche validità sull'intera popolazione mentre, ovviamente, ha senso solo per la collezione di 6000 unità da cui è stato estratto il campione. Probabilmente se la domanda fosse stata in italiano non mi sarei lasciato ingannare...

Sample Standard Deviation and Sample Variance
La tecnica del “Bootstrat” per stimare la SD della popolazione basandosi sui dati del campione può essere usata per liste qualsiasi (non solo composte da 0 e 1).
In tal caso la stima “Bootstrap SD(Box)” (detta S*) diventa:

dove M è la media degli elementi del campione.
Però (per motivi spiegati ma che io ho sorvolato) tale stima è un po' più piccola di quanto dovrebbe essere e così si usa più spesso la “Sample Standard Deviation” (detta S):

Ovviamente

Poi la dispensa aggiunge che per popolazioni “Percentage” (ovvero di soli 0 e 1), dove “pu” è la percentuale di “uno”, S diventa:

E qui mi sono divertito a cercare di ricondurre la formula generica di S a quella semplificata qui sopra!
Ho definito “nu” come il “numero di 1” e “nz” come il “numero di 0” ottenendo quindi:

Poi ho capito che nz=n-nu e che M=nu/n e quindi:

Ma nu/n equivale alla percentuale di 1, quindi:

che assomiglia solo vagamente a:

E quindi?
Quindi sono rimasto piuttosto confuso!
Sono abbastanza sicuro della correttezza dei miei calcoli e quindi sospetto (vista la confusione fra le varie definizioni) che la S della prima formula non sia esattamente la stessa della seconda S con la conseguenza del fattore n in più...
Comunque la moglie di mio cugino è una dottoressa in statistica e quindi... mi affiderò a lei per svelare questo piccolo mistero!
Modificato 28/8/2016: e infatti lei si è fatta viva e mi ha segnalato un mio errore di calcolo (v. il corto Errore istruttivo per i dettagli). Però ancora qualcosa non torna e io continuo ad avere la sensazione che si tratti di qualche definizione sballata o che io ho prontamente frainteso... Vedremo!

Il paragrafo spiega poi che, se il campionamento è con rimpiazzo, allora il quadrato di S stima il quadrato di SD(Box) senza alcuno scostamento (bias).

Poi la dispensa riassume i punti salienti di quanto spiegato: non mi va però di tradurre pedissequamente i vari punti (impossibile riassumerli) e quindi evito...

Infine c'è una serie di esercizi finali che, a meno dei soliti errori di calcolo, ho fatto bene.
Invece proprio l'ultimo esercizio, il 25.5, non l'ho neppure capito: la spiegazione poi usa dei concetti nuovi (ma evidentemente spiegati in precedenza) e questo mi ha convinto a fare un passo indietro al capitolo/dispensa 22 (Standard Error).

Conclusione: per adesso, nonostante le difficoltà, mi diverto e quindi andrò avanti. Confido poi che la moglie del cugino possa darmi delle buone dritte e che mi rimetta in carreggiata quando prenderò una strada sbagliata! Comunque vedremo... Di sicuro per le prossime lezioni eviterò di scrivere pezzi così accurati perché altrimenti ci perderei troppo tempo e mi andrebbe via la voglia sia di scrivere che di studiare: ma per una volta voleva dare l'idea di quello che combino...

Nota (*1): la mia teoria è di soffrire di una lieve forma di dislessia...
Nota (*2): ogni dispensa corrisponde a un capitolo...
Nota (*3): si tratta di materiale che di solito avevo visto nei corsi di statistica ma qui è inserito alla fine del corso sul calcolo delle probabilità: ad esempio il teorema del limite centrale...

mercoledì 24 agosto 2016

Aggiornamento statistico

Nessun commento:

Posta un commento

I miei blog + o - attivi

Cerca nel blog

Epitome - V1150 "Mezza estate"

Archivio blog

Ghiribizzi che mi piacciono

Label Cloud

Eroici Lettori Indefessi

Visualizzazioni totali

Commenti recenti

Post più popolari (ultimi 7 gg)