“È solo la punta dell’iceberg”.
Tutti abbiamo usato questa espressione almeno una volta. La metafora dell’iceberg è efficace ed evocativa. Davanti a qualcosa di cui non conosciamo la reale estensione tutti vorremmo conoscere ciò che non conosciamo. Quantomeno per evitare di fare la fine del Titanic. A differenza del capitano Smith noi abbiamo a disposizione uno strumento più affidabile di un binocolo in una notte nebbiosa: la statistica. La statistica ci aiuta a far riemergere la parte sommersa dell’iceberg. Ci aiuta a conoscere una popolazione in base alle caratteristiche dei campioni estraibili da quella popolazione. Estrarre tutti campioni da una popolazione è spesso al di là delle possibilità e delle risorse dello statistico. È qui che la statistica inferenziale accorre in aiuto. Come i dispacci del Carpazia che avvertivano della presenza di iceberg alla deriva. Il capitano Smith li ha ignorati. Uno statistico li avrebbe considerati una risorsa fondamentale in quel momento: era l’unico modo affidabile per conoscere ciò che non conoscevano.
Sapendo che la popolazione si comporta in un certo modo, ovvero che i dati sono distribuiti secondo un certo modello, lo statistico può determinare le caratteristiche della popolazione a partire da un campione. La natura semplifica il suo lavoro. I dati che riguardano fenomeni naturali tendono a seguire il modello della distribuzione normale. Come gli iceberg alla deriva seguono le correnti dell’oceano Atlantico. Che li porta sulla rotta solcata dalle imbarcazioni che si avventurano in viaggi transoceanici.
Questo modello, detto anche distribuzione gaussiana dal nome del matematico che per primo l’ha descritta (Carl Friedrich Gauss), è rappresentato da un grafico a forma di campana. Questa caratteristica è il risultato del modo in cui i dati si distribuiscono in questo modello: in maniera continua intorno ad una singola media. Questa è rappresentata da un picco al di sotto del quale sono concentrati la maggior parte dei dati. Alla base della campana sono distribuiti, in maniera simmetrica, il resto dei dati.
Conoscendo le caratteristiche descrittive (media, mediana, varianza ecc.) di un campione si possono stimare le stesse, con un certo grado di affidabilità, per l’intera popolazione. L’affidabilità dipende da quanto è affidabile il campione. Da quanto è rappresentativo della popolazione di interesse. Da quanto era buona la visibilità dalla coffa del Titanic. Dove le vedette scrutavano tra la nebbia all’orizzonte a occhio nudo.
Per assicurarsi che un campione sia sufficientemente rappresentativo i fattori da tenere in considerazione sono due: il criterio di selezione e la numerosità.
- Non basta scegliere casualmente un campione se non è abbastanza numeroso.
- Non basta mettere un numero a caso di scialuppe se non sono sufficienti per tutte le persone a bordo.
- Non basta un campione numeroso se è stato selezionato senza alcun criterio.
- Non basta mettere tanti rivetti d’acciaio a fissare le lamiere della carena se la qualità del metallo è scarsa.
In statistica esistono formule che permettono di pianificare il campionamento e valutare il possibile errore di campionamento. Valutata l’affidabilità del campione si stimano le caratteristiche della popolazione assumendo il modello della distribuzione normale dei dati. Lo statistico calcola un fattore e lo confronta con la tavola statistica della distribuzione normale. Questa tavola stabilisce, per ogni valore che può assumere questo fattore, qual è la probabilità che le caratteristiche stimate si trovino nell’area del picco della campana.
Qual è la probabilità che, entro un certo intervallo di confidenza, quelle siano le caratteristiche reali della popolazione. Qual è la probabilità che il Titanic impatti contro un iceberg alla deriva. Alta. Altissima. Praticamente una certezza. Come per tutti era una certezza che il transatlantico fosse inaffondabile. Fino a quando è suonata la campana.
PER APPROFONDIRE: UN VIDEO DI RIPASSO SULLA STATISTICA
Immagine di copertina: Nesnad, CC BY 3.0, via Wikimedia Commons