In teoria non dovrei pubblicare qui il seguente pezzo ma non ho neppure voglia di aprire un blog dedicato ai miei esercizi matematici. Siccome, più che condividere il seguente teorema, me lo voglio ricordare ho deciso di condividerlo comunque qui.
Ancora non ho dato un nome al mio teorema ma sono sicuro al 99,99% che esista già e che qualche matematico del XVII o XVIII glielo abbia già dato (magari poi chiederò a chatGPT). Solo che il mio nome sarebbe stato molto più fantasioso: magari mi verrà un’idea mentre scrivo questo pezzo.
L’idea originaria mi è venuta qualche giorno fa: come sapete ho ripreso a giocare a scacchi e così adesso mi capita di spulciare le basi dati di scacchi per studiare le aperture.
In particolare, mentre controllavo la variante moderna della difesa Alekhine, avevo notato che a una specifica mossa, il bianco in 100 partite realizzava il 60% dei punti. Alla semimossa successiva il nero poteva replicare con due mosse: la prima, giocata 80 volte, portava il bianco a realizzare il 65% dei punti mentre con la seconda, giocata 20 volte, il bianco scendeva al 52% (tutti numeri a caso, ovviamente, qui).
Da questa osservazione avevo ipotizzato che, a ogni semimossa successiva, la percentuale realizzativa di ciascuna mossa variava da quella precedente di più in quelle giocate meno volte.
Come al solito non mi fermo a riflettere troppo su questi problemi ma vedo di ricordarmeli per quando ho tempo/voglia. Così iniziai a pensarci in macchina ieri l’altro: semplificai il problema togliendo le patte e considerando tutti i risultati come o 0 o 1. Notai che lo sbilanciamento dei risultati (cioè un numero di vittorie superiore alle sconfitte), per esempio +10, si doveva conservare fra i due sottogruppi di mosse: cioè se il b. vince dieci partite in più rispetto a quelle che perde e se nella prima semimossa successiva tale valore scende a +3, allora nella seconda, deve essere +7.
Con questo ragionamento è facile verificare alcuni casi banali, per esempio quando le medie restano uguali…
Ieri invece, sempre in macchina, mi sono reso conto che il problema poteva essere generalizzato con numeri qualsiasi: se la media del primo sottogruppo (meno numeroso) diminuisce allora la media del secondo gruppo dovrà compensare di altrettanto: ma dividendo lo “spostamento” per il numero di elementi quello del gruppo più numeroso sarebbe stato più piccolo di quello meno numeroso.
Probabilmente non sono riuscito a spiegare bene le mie idee ma più che altro erano intuizioni e io stesso non le avevo chiare in mente.
Finalmente ieri sera, verso mezzanotte, mi sono messo con carta e penna a cercare di scrivere una dimostrazione formale della mia intuizione che ripropongo qui di seguito.
Sia P una popolazione di N elementi, p1..pN, con media M (ovvero la (p1+..+pi+...pN)/N=M).
Siano P1 e P2 dei sottoinsiemi di P tali che non abbiano elementi comuni e che la loro unione dia P, e che abbiano rispettivamente N1 e N2 (quindi N1+N2=N) elementi e medie M1 e M2.
Teorema:
Quindi se N1>N2 allora |M-M2|<=|M-M1|
Ma per dimostrare il precedente ho bisogno di un semplice lemma: in realtà nella mia dimostrazione di ieri sera l’ho dato per scontato ma siccome si dimostra facilmente lo aggiungo qui.
Lemma:
M*N=M1*N1+M2*N2
Per dimostrarlo basta ricorrere alla definizione di media: ovvero la somma degli elementi di una popolazione diviso il loro numero cioè M=(p1+..+pi+...pN)/N
Analogamente M1=(pj+..+PN1)/N1 e M2=(pk+..+PN2)/N2 (ovvero i vari singoli elementi sono tutti diversi fra loro ma complessivamente sono l’intera popolazione iniziale).
Andando a sostituire nella formula si ha:
(p1+..+pi+...pN) = (pj+..+PN1) + (pk+..+PN2)
Siccome cambiando l’ordine degli addendi la somma non cambia e visto che gli elementi dei due membri dell’equazione sono gli stessi allora la somma del membro sinistro è uguale a quella del membro destro.
Possiamo così passare alla dimostrazione del teorema vero e proprio.
Dal lemma sappiamo che M*N=M1*N1+M2*N2
Possiamo quindi esprimere M2 usando le altre variabili.
M2*N2 = M*N – M1*N1
M2=(M*N – M1*N1)/N2
Possiamo quindi sostituire M2 nella disequazione che vogliamo dimostrare e quindi:
|M-M2|<=|M-M1|
diventa
|M-(M*N – M1*N1)/N2|<=|M-M1|
Ma per ipotesi iniziale sappiamo che N1+N2=N e quindi N2=N-N1
La disequazione diviene quindi:
|M-(M*N – M1*N1)/(N-N1)|<=|M-M1|
Portando a denominatore comune il primo membro:
|(M*N-M*N1-M*N+M1*N1)/(N-N1)|<=|M-M1|
semplificando:
|(M1*N1-M*N1)/(N-N1)|<=|M-M1|
|N1*(M1-M)/(N-N1)|<=|M-M1|
Ora dobbiamo togliere le parentesi del modulo. Dobbiamo quindi considerare i vari casi possibili per |M-M1|.
Caso 1: M1>M
Se M1>M allora M-M1 è minore di zero mentre M1-M è maggiore. Inoltra sappiamo che N1/(N-N1)=N1/N2 è sempre maggiore di zero ma minore di 1 per ipotesi (N2>N1)
Siccome il primo membro sarà sempre positivo mentre il secondo è negativo possiamo togliere direttamente il modulo al primo membro e invertendo il segno al secondo:
|N1*(M1-M)/(N-N1)|<=|M-M1|
diviene
N1*(M1-M)/(N-N1)<=M1-M
dividendo tutto per M1-M (positivo) si ottiene
N1/(N-N1)<=1
siccome N1+N2=N
N1/N2<=1
e siccome per ipotesi N1<N2 allora la disequazione è vera.
Caso 2: M1<M
Se M1<M allora M-M1 è maggiore di zero ma M1-M è minore di zero. Per togliere le parentesi di modulo dobbiamo cambiare segno al primo membro e lasciare invariato il secondo.
|N1*(M1-M)/(N-N1)|<=|M-M1|
diviene
N1*(M-M1)/(N-N1)<=M-M1
Dividendo tutto per M-M1 (positivo) si ottiene
N1/(N-N1)<=1
che analogamente al caso precedente è sempre vero
Caso 3: M1=M
N1*0/(N-N1)<=0
0<=0
Di solito abbastanza vero… :-P
CVD
Un corollario, secondo me controintuitivo, è che se da una popolazione (di almeno 3 individui!) estraiamo un singolo elemento allora la distanza dalla media totale di questo sarà sempre maggiore o uguale della distanza dalla media totale della media degli elementi rimanenti.
Vabbè probabilmente questo corollario sembra buffo solo a me!
Per finire vediamo come si chiama questo teorema “ufficialmente”… no niente: “Il teorema che stai cercando non ha un nome specifico universalmente noto, ma è strettamente legato a concetti di decomposizione della varianza e diseguaglianze sulle medie ponderate.”
Lo chiamerò quindi teorema “banale”.
Conclusione: questa dimostrazione dimostra che sono piuttosto logico: ma allora come mai ho passato la domenica mattina a scrivere un pezzo che a nessuno interessa su un blog morto?
Meno 1 a Sanremo
11 ore fa