Ho deciso di riprovare a studiare statistica: ci avevo già tentato anni fa con un corso in linea con cui però non mi ero trovato bene.
Il mio obiettivo è semplice e operativo: voglio arrivare a essere in grado di stimare gli intervalli di confidenza e i loro “dintorni” matematici.
Stavolta quindi ho cambiato approccio e sono partito dalla risorsa più semplice disponibile in rete: la Khan Academy la cui maggioranza dei corsi è pensata per studenti delle superiori.
Ho iniziato ieri e mi sono sorbito già due lezioni su come leggere e costruire i grafici: tutte cose di una banalità assoluta ma comunque utili per imparare il gergo della materia.
Alla terza lezione finalmente ho imparato qualcosa: a dire il vero ci sono arrivato da solo seguendo sbadigliando l’insegnante che impiegava dieci minuti calcolava manualmente la media di sette numeri (usando però colori diversi!). In realtà ne aveva anche accennato in una delle lezioni precedenti ma in maniera classica senza approfondire: può darsi che le sue parole abbiano vagate per le aule vuote del mio cervello e infine siano inciampate su qualche neurone addormentato….
Comunque improvvisamente ho capito che esistono due forme di statistica.
Quella descrittiva è legata a una popolazione intera e mira quindi a descriverla.
Poi c’è una statistica predittiva che, basandosi su un campione, mira a inferire conoscenza sulla popolazione totale.
Questo mi ha portato a comprendere che le medie della statistica descrittiva e inferenziale si chiamano e si calcolano nello stesso modo ma sono due entità totalmente diverse.
La media dell’intera popolazione produce un elemento che moltiplicato per la dimensione della popolazione ne riproduce una equivalente: è una sorta di semplificazione. Invece di considerare i singoli valori diversi ragioniamo su questo elemento medio con la certezza che, appunto, mediamente ciò è corretto.
La media del campione è invece un qualcosa il cui scopo principale è quello di arrivare a stimare la popolazione totale ma che chiaramente sarà fortemente influenzato dai singoli elementi del campione: se fossimo sfortunati e questi fossero poco rappresentativi della popolazione ci potrebbero portare a stime anche molte sbagliate.
Così, per divertimento, ho provato a definirmi una mia media per il campione che ho chiamato “MediaKGB”. Dato un campione se ne calcola la classica media aritmetica ma poi si scartano i valori fuori da un certo intervallo intorno a detta media. Tale intervallo l’avevo immaginato come il rapporto fra dimensione campione su dimensione popolazione applicato alla differenza fra la media e l’elemento più distante da essa. Mi piaceva perché in questa maniera quando il campione va a coincidere con la popolazione la mediaKGB diviene uguale alla media classica.
L’idea è semplicemente quella di eliminare elementi lontani dalla media aritmetica con l’idea che la possano distorcere. Chiaro che il mio è solo un “gioco”, un esperimento per capire meglio: posso infatti immaginare una distribuzione simmetrica che però intorno alla media non abbia alcun elemento (in pratica due cluster simmetrici separati da un gap vuoto che contiene la media). In questo caso la mediaKGB non avrebbe senso, lo so già…
Per fare questo esperimento ho però deciso di usare il linguaggio R. Già anni fa ci avevo provato ma essendo molto orientato alla statistica non mi ero trovato bene e avevo lasciato perdere. Adesso mi pare invece l’ideale.
Sempre ieri quindi ho installato il linguaggio R e ho iniziato a seguire un corso di un paio di ore su Youtube. Ho il problema tecnico che dovrei aggiornare il sistema operativo del mio calcolatore per usare l’ultima versione dei vari pacchetti aggiuntivi ma, almeno per il momento, ne posso fare a meno. A fine corso deciderò cosa fare…
Insomma spero di non essermi imbarcato in un’impresa troppo complessa!
Tornando alla differenza fra statistica descrittiva e inferenziale non sono stato completamente onesto dicendo che le due relative medie hanno nomi uguali. In realtà la media della popolazione è indicata con la lettera greca “mu” mentre quella del campione con una “x” con una righetta sopra. Però fin dai tempi dell’università pensavo che fosse solo un modo per distinguerle nelle formule e non che avessero significati differenti.
La differenza diviene invece esplicita quando si passa alla varianza. La varianza della popolazione è pari a “Formula”/N mentre quella del campione è “Formula”/(n-1)…
Questa differenza mi aveva sempre incuriosito: ci persi anche una lode in un esame (non di statistica!) dove il professore mi chiese di spiegargliene la ragione…
Nel corso su Khan Academy ero tutto contento perché c’erano ben tre video per spiegare “intuitivamente” questa stranezza: in realtà non spiegano niente né teoricamente né intuitivamente ma mostrano con delle simulazioni col calcolatore che in effetti la varianza del campione calcolata dividendo per (n-1) approssima più correttamente la varianza della popolazione.
Adesso proverò a ragionarci un po’ per conto mio ma non ho grandi aspettative: mi pare di ricordare che la dimostrazione matematica non sia banale. Ma per me anche provarci è un divertimento, quindi…
Conclusione: spero proprio che questa sia la volta buona che mi riesca di imparare un minimo di statistica!
Ancora sulla sanità (pe' malati c'è la china...)
40 minuti fa
Nessun commento:
Posta un commento