Economia Matematica

La media: quanto conta in Statistica?

abaco

Continua il nostro breve percorso di comprensione della statistica. Se nell’ultimo articolo ci siamo occupati dell’attendibilità delle indagini statistiche, oggi capiremo qual è il significato della media, come indicatore di sintesi.

La media è un numero derivato da molti altri numeri. Di media non ce nè una sola: ne esistono svariati tipi, ma la fama della media aritmetica è indiscussa. Se leggiamo su un giornale che il peso medio degli studenti di una classe universitaria è di 95 Kg, significa che il risultato è stato ottenuto sommando i pesi degli studenti e dividendo la somma per il numero degli studenti. Quella che abbiamo appena calcolato è una media aritmetica semplice, ma immaginiamo ora che non tutti gli studenti abbiano pesi diversi. Ci sono ad esempio, 5 studenti che pesano 70 Kg: invece di sommare 5 volte 70, non è più comodo moltiplicare (una sola volta) 70 per 5? Una volta determinati questi risultati (70 x 5; 85 x 3; 90 x 2 e via dicendo), ci basterà sommarli e dividerli per il numero degli studenti (5 + 3 + 2). Così otteniamo, come risultato, la media aritmetica ponderata. In Università la media dei voti dipende dal voto (modalità) conseguito in un esame e dal numero dei crediti che quell’esame vale (in questo specifico caso considerati come fossero frequenze). La somma di tutti i prodotti “modalità voto x frequenza credito” dovrà essere diviso per il valore totale delle frequenze crediti. Si ottiene così la media dei voti.

nadine-primeau-Juvw-a-RvvI-unsplash
Il piatto di verdure mangiato da Aldo gli ultimi due giorni (Foto di Nadine Primeau su Unsplash)

Partiamo sempre dal presupposto che ogni media si calcola SOLO sulle variabili, cioè sui caratteri con modalità quantitative. Visionando una tabella con diverse tipologie di diete (personale, Dukan, a zone, dei gruppi sanguigni etc.) il nome della dieta è una modalità qualitativa, non potendo essere espressa in numeri. I numeri che appaiono di fianco al nome della dieta sono le frequenze, quindi quante volte si ripete la modalità: semplicemente quante persone hanno seguito quella tipologia di dieta. L’unico indicatore che si potrebbe calcolare è la moda, dunque la modalità dieta che si ripete più volte e che quindi corrisponde alla dieta seguita dal maggior numero di persone. Una volta individuata la frequenza più alta, la dieta corrispondente è quella “che va più di moda“. Se alcune tra le altre frequenze si avvicinano o pareggiano quella più alta, scientificamente non si possono trarre conclusioni, in quanto la moda, per aver significato, deve essere unica quindi deve trattarsi di una distribuzione unimodale- e ben distinta dalle altre.

Siccome non sempre ci vengono forniti i dati da cui la media è stata ottenuta, non possiamo fidarci del numero medio. Spieghiamo con un esempio un po’ irrealistico, ma efficace: su suggerimento del nutrizionista due amici decidono di consumare più verdura ed iniziano una gara a chi riesce in una settimana a mangiarne di più. Comunicheranno a fine settimana solo la media consumata. Giorgio il primo giorno mangia 100 grammi di verdura, il secondo 150, il terzo 300 e dal quarto al settimo 500 per una media di 364 grammi. I dati sono omogenei, la media sintetizza gli sforzi di Giorgio. Aldo invece non ne mangia per i primi 5 giorni, ma per entrambi i giorni rimanenti consuma 1275 grammi di verdura. La sua media sarà sempre di 364 grammi. Confrontare le due medie in questo modo non ha valore statistico.

La media non ha senso quando uno o più dati tendono a discostarsi molto dagli altri, perché in questo modo risulta ampia la distanza fra la modalità massima e quella minima. Dati di questo tipo, se sono davvero molto diversi dagli altri, vengono chiamati fuori  scala perché spostano verso di loro la media, aumentano la dispersione e rendono del tutto inattendibile il valore medio.

Esempio di valore fuori scala (Foto di Will Myers su Unsplash)
Esempio di valore fuori scala (Foto di Will Myers su Unsplash)

Un modo per ovviare a questa situazione è utilizzare un sostituto della media, cioè la mediana. La mediana è la modalità che davanti e dietro di sé lascia il 50% di tutte le frequenze. Se la media non fosse attendibile, un giornalista nei risultati del suo reportage potrebbe inserire solo la mediana, ma sarebbe ancora meglio se vi affiancasse anche la media. In questo modo infatti, il lettore capirebbe che la media è attendibile solo se media e mediana si avvicinano come valore. Se invece i risultati fossero molto diversi il lettore dovrà considerare attendibile solo la mediana.

Alla media dovrebbe sempre essere associata una misura di dispersione. Prendiamone in considerazione tre: il campo di variazione, la varianza e lo scarto quadratico medio (che deriva dalla varianza) meglio conosciuto come deviazione standard (d.s.). Il campo di variazione è estremamente semplice da calcolare, per quanto un po’ grossolano, e indica quanto sono dispersi i dati semplicemente facendo la differenza tra modalità massima e minima. Nel caso di Giorgio e Aldo il campo di variazione di Giorgio è di 400 (= 500-100), mentre quello di Aldo è di 1275 (=1275 0). Il campo di variazione di Giorgio è molto più piccolo di quello di Aldo, dunque la sua media è maggiormente attendibile rispetto a quella dell’amico.

La seconda e la terza misura di dispersione sono più difficili da calcolare, ma per un lettore è sufficiente saperle interpretare. La varianza è uno scarto quadratico medio senza la radice quadrata: maggiore è la varianza, maggiore è la dispersione dei dati intorno alla media. Facendo la radice quadrata della varianza si ottiene lo scarto quadratico medio o deviazione standard. Più alta è la d.s., maggiore è la distanza, o meglio la dispersione media, tra le singole modalità e la media.

In poche parole, fidiamoci delle medie solo quando sono associate ad indicatori di dispersione, che per di più devono essere numeri piccoli. In caso contrario, meglio non perdere tempo ad interpretare gli indicatori di posizione che ci vengono forniti. In questo caso, se è possibile, è meglio risalire ai dati grezzi e fare le opportune elaborazioni.

Foto di copertina di Crissy Jarvis su Unsplash

Come si fa un’indagine statistica?

Comments

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *