Ho aggiunto al calcolo della mia personale classifica anche il fattore casa: un amico, mosso a compassione, mi ha fornito il collegamento a una pagina con i risultati della scorsa stagione: a quel punto ho potuto fare un copia e incolla sul mio foglio di calcolo; trasformato dei dati scritti in una sola colonna in due; ed infine eseguita qualche somma e media.
In realtà capire come usare queste statistiche è stato più complicato di quanto immaginassi: siccome l'argomento mi pare interessante cercherò di spiegare come le ho incorporate nel mio algoritmo. Anzi è possibile, e molto più probabile del solito, che abbia commesso qualche errore di concetto: in tal caso fatemi sapere!
Premetto che sono partito dall'ipotesi che il coefficiente di attribuzione del punteggio in base alla differenza reti, che ho arbitrariamente stabilito “a naso”, sia corretto...
Attenzione! I seguenti punti NON sono una dimostrazione matematica: piuttosto indicano la maniera intuitiva con cui ho cercato di applicare le statistiche trovate al mio algoritmo. La mia ipotesi/speranza è che la procedura mostrata di seguito sia fondamentalmente sensata e, come tale, garantisca comunque una buona approssimazione di un'analisi matematica più accurata! Inoltre usare le statistiche di un singolo anno probabilmente non è saggio: sarebbe stato meglio avere a disposizione gli ultimi dieci anni...
1) Dalle statistiche ho scoperto che lo scorso anno le squadre in casa hanno segnato 570 reti subendone 454 in 380 partite: mediamente quindi, in ogni partita, la squadra di casa ha segnato 1,5 reti (esatte!) e ne ha subite circa 1,2. Questo significa che il fattore casa garantisce mediamente 0,3 reti di vantaggio.
2) Dalle statistiche dello scorso anno ho scoperto che in casa sono state vinte 152 partite, pareggiate 120 e perse 108. In media ogni squadra ha vinto 7,6 partite in casa, pareggiate 6 e perse 5,4. Mi sembra realistico supporre che le 2,2 partite, la differenza fra partite vinte e partite perse in casa, si possa interpretare come se: 1,1 partite che sarebbero terminate in pareggio (in un campo “neutro”) si sono trasformate in vittorie grazie al fattore casa (FC) e che altrettante sconfitte, per lo stesso motivo, sono divenute pareggi.
3) Dal punto 1, che indica come il fattore casa (FC) equivalga a 0,3 gol di vantaggio, mi pare realistico ipotizzare che le partite influenzate dal fattore casa del punto precedente lo siano state per una sola rete di scarto.
4) Prendendo per buona la conclusione del punto 2, ricavo che le partite influenzate dal fattore casa (FC) sono 2,2 su 19, ovvero l'11,58%. Questo 11,58% (*1) sarà il mio numero “magico”.
5) Nel mio algoritmo, in caso di pareggio, assegno alla squadra di casa il 50% dei punti dell'avversario. Però, considerando il risultato del punto 4, ho ipotizzato che nell'11,58% dei casi la squadra di casa avrebbe dovuto perdere con un singolo gol di scarto (dal punto 1): di conseguenza il nuovo coefficiente diventa (con FC=Fattore Casa= 11,58%): 50%*(1-FC)+30%*FC ovvero 47,7%.
6) Per differenza ricavo il coefficiente per la squadra che pareggia FUORI casa: 100%-47,7%=52,3%.
7) Analogamente aggiorno i coefficienti per le vittorie (e sconfitte) con uno o due reti di scarto.
8) Il caso del coefficiente per le vittorie con tre o più reti di scarto è leggermente diverso: nel mio algoritmo se le reti di differenza sono quattro o più significa che il FC è ininfluente. Ma quante sono le partite che finiscono con 4 o più gol di scarto rispetto a quelle che finiscono con 3? Non lo so: avendo abbastanza dati sarebbe stato facile scoprirlo ma non mi andava di perderci tempo. Ho così arbitrariamente deciso che le partite che finiscono con esattamente tre gol di scarto siano il 90% di quelle che finiscono con tre o più reti di scarto.
9) Mettendo insieme la formula del punto 5 con l'ipotesi arbitraria del punto 8 ottengo che il coefficiente per tre o più gol di scarto è pari a: 100%*10%+90%*(100%*(1-FC)+85%*FC) = 98,4%. Per differenza trovo il coefficiente per chi perde con tre o più gol di scarto fuori casa (1,6%).
Di seguito la classifica aggiornata considerando nel modo spiegato il fattore casa:
Classifica per KGB con punteggio inizializzato + Fattore Casa
1) Napoli 4.2 [No FC: 4.25 = -1.1%] (+4)
2) Fiorentina 4.16 [No FC: 4.19 = -0.7%] (-1)
3) Roma 3.95 [No FC: 3.95 = +0.1%]
4) Chievo 3.62 [No FC: 3.58 = +1.1%] (+5)
5) Torino 3.56 [No FC: 3.55 = +0.2%] (+3)
6) Sassuolo 3.47 [No FC: 3.5 = -0.9%]
7) Juventus 3.44 [No FC: 3.38 = +1.7%] (+7)
8) Lazio 3.17 [No FC: 3.16 = +0.4%] (-4)
9) Genoa 3.09 [No FC: 3.06 = +0.9%] (+2)
10) Internazionale 2.99 [No FC: 3.01 = -0.4%] (-8)
11) Atalanta 2.96 [No FC: 2.96 = +0.0%] (-4)
12) Verona 2.83 [No FC: 2.79 = +1.7%] (+7)
13) Sampdoria 2.83 [No FC: 2.79 = +1.4%] (-3)
14) Palermo 2.71 [No FC: 2.65 = +2.0%] (-1)
15) Udinese 2.6 [No FC: 2.55 = +2.1%]
16) Milan 2.55 [No FC: 2.52 = +1.3%] (-4)
17) Frosinone 2.45 [No FC: 2.37 = +3.6%]
18) Empoli 2.33 [No FC: 2.32 = +0.5%] (-2)
19) Carpi 2.31 [No FC: 2.28 = +1.5%] (-1)
20) Bologna 1.74 [No FC: 1.62 = +7.7%]
Accanto al nome di ogni squadra ho inserito, fra parentesi quadre, il vecchio punteggio trovato senza considerare il fattore casa e la variazione in percentuale rispetto a esso; come al solito fra parentesi tonde indico la variazione rispetto alla classifica reale.
L'unico cambiamento in classifica si ha fra Verona e Sampdoria per millesimi (o meno!) di punto che non vengono mostrati a causa dell'arrotondamento.
Mediamente la differenza fra vecchio e nuovo punteggio è molto più piccola dell'11,58%, il numero magico da cui ero partito, e per questo rimango un po' perplesso (*2). C'è da dire che comunque, alternando partite in casa e fuori casa, tale fattore dovrebbe tendere ad annullarsi. L'unica eccezione significativa in questo caso è il Bologna col suo +7,7%: evidentemente ha realizzato prestazioni migliori fuori casa che in casa (ovvero ha fatto più punti (punti KGB, non reali!) fuori casa piuttosto che in casa).
Conclusione: i miei coefficienti assegnati arbitrariamente incominciano a piacermi sempre meno. Dovrei fare come mi ha consigliato il mio amico esperto: calcolarli empiricamente simulando i risultati dei campionati passati. Come al solito il problema è inserire i dati nel mio codice cosa che però mi fa veramente fatica...
Nota (*1): Buffo! Io ero incerto fra il 5% e il 20%. Probabilmente, non volendo usare statistiche, avrei poi optato per (5%+20%)/2 = 12,5% non troppo distante dal valore “reale”!
Nota (*2): Comunque prendendo 2,3 (la media brutale delle variazioni senza considerare i valori assoluti) e moltiplicandola per 8/19 ottengo un 9,7% che mi pare già più sensato...
La (de)globalizzazione
3 ore fa
Nessun commento:
Posta un commento