Siamo ai tempi del Coronavirus. Ogni giorno i telegiornali, la carta stampata, la Protezione Civile e i social gettano in pasto al popolo numeri su numeri, dai tamponi ai decessi e li rappresentano in grafici e tabelle. Non si possono dare in pasto alla gente statistiche senza fornire una chiave di interpretazione dei dati, senza spiegare cosa significano quelle linee che si intersecano, senza indicare come si è giunti ad un certo risultato e quali tecniche sono state applicate. Una piccola cultura statistica, per non essere colti impreparati in situazioni come quella attuale, è quindi necessaria, almeno per razionalizzare la situazione e non lasciarsi sopraffare dalle emozioni. Con questo articolo vorrei spiegare le premesse della Statistica, cosa si cela dietro al sipario dei dati che ci vengono esposti ogni giorno, da sempre, non solo ai tempi del Covid-19.
Fare un’indagine statistica significa raccogliere dati, non a caso, ma a seconda dell’obiettivo dell’indagine. Ciò implica una pianificazione basata sul budget a disposizione. Qualcuno potrebbe pensare che la statistica non sia altro che un insieme di formule, basta applicarle. Certo, bisogna saperle utilizzare però. Non si possono usare per ogni caso in esame le stesse formule, non si può rendere numerico ciò che non è quantitativo. Facciamo un esempio con dati inventati. Ci interessa conoscere quanti minorenni obesi, distinti per classi d’età, risiedono in Veneto. L’età è la variabile, le classi di età sono le modalità, ad esempio da 0 a 3 anni, 3-6, 6-9, 9-12, 12-15, 15-18 anni (con la convenzione che l’estremo superiore è escluso, ad esempio 12-15 include coloro che hanno un massimo di 14 anni e 364 giorni, mentre chi ha compiuto i 15 anni si trova nella classe 15-18). Abbiamo contato un certo numero di bambini per ogni classe, ad esempio 10 nella prima, 30 nella seconda, 80 nella terza e così via: tali numeri si chiamano frequenze, ovvero quante volte si è ripetuta una determinata modalità (così la modalità 0-3 anni si è ripetuta 10 volte). E’ evidente che l’età è una variabile quantitativa e ad essa potranno essere applicate determinate tecniche di elaborazione statistica.
L’indagine ha come oggetto una popolazione di riferimento, l’insieme di tutti i soggetti, od unità statistiche, che rispondono al mio obiettivo. Deve trattarsi di un insieme di persone o di animali o di piante ben identificato, ad esempio gli studenti che si sono iscritti alla Facoltà di Economia di Torino nel 2019. E’ possibile anche fare un’indagine campionaria, cioè su un sottoinsieme della popolazione, ma occorre dimensionare adeguatamente il campione. Raggruppare una dozzina di persone e trarre conclusioni valide per tutta Italia non ha significato statistico. Come possono 12 persone rappresentare 60 milioni di italiani o 4 milioni di piemontesi? A tal proposito, consideriamo questo esempio. Ipotizziamo di aver letto dei dati inerenti la misura della circonferenza vita dei maschi lombardi nel 2019. Da questi dati risulta che la misura media della circonferenza è pari a 105 cm. Sappiamo che i maschi che superano i 102 cm di giro vita sono esposti ad un rischio molto elevato di sviluppare malattie cardiovascolari. Dobbiamo quindi concludere che i maschi che risiedono in Lombardia sono a rischio? Dobbiamo sensibilizzarli a seguire una dieta?
Vediamo quindi quali sono le domande che un giornalista deve porsi prima di scrivere un pezzo intitolato: “Maschi lombardi a rischio di infarto e ictus. Richiesto intervento urgente del Ministro della Sanità”.
La prima cosa da verificare è se si tratta di un’indagine censuaria o campionaria. Se sono stati misurati tutti i componenti della popolazione di riferimento (maschi che risiedono in Lombardia nel 2019), la media può essere considerata un dato “certo” (salvo errori di rilevazione e considerato il significato di media), se invece le misure sono state effettuate su un campione, la media è da considerarsi un risultato incerto o comunque probabilistico. Inoltre occorre verificare sia il tipo di campione (se è stato estratto in modo casuale oppure no), sia la sua dimensione.
In generale la dimensione del campione dovrà essere tanto maggiore quanto più alta è la variabilità del fenomeno e la precisione desiderata per la stima. Si considera adeguato alla maggioranza degli scopi un campione di almeno 1000 unità, estratte con un procedimento di campionamento casuale semplice, mentre viene considerato inadeguato un campione di 100 (o meno) unità.
Quando si applicano i metodi della statistica inferenziale per estendere alla popolazione di riferimento i risultati ottenuti su un campione, in realtà non si ottiene un unico risultato (una media). In effetti, la media (vera) del giro vita dei maschi lombardi resterà un parametro incognito, che però può essere stimato tramite una procedura ad hoc. Si ottiene, invece di un unico risultato, un insieme di risultati che si chiama intervallo di confidenza. La significatività dei risultati finali dipende da quanto è ristretto l’intervallo ottenuto: se ad esempio si è determinato un intervallo compreso fra 104 e 106 cm, risulta abbastanza ragionevole pensare al dato centrale di 105 cm, che è preoccupante in quanto supera i 102.
Se invece l’intervallo fosse compreso tra 90 e 120 cm, il dato centrale – sempre di 105 – non sarebbe molto significativo, sia perché compreso in un intervallo troppo ampio, sia perché quest’ultimo include misure al di sotto del limite critico di 102 cm (quelle che vanno da 90 a 102 cm). Infine, occorre anche valutare il livello di confidenza dell’intervallo. Se si tratta di un intervallo 104-106 al 95%, significa che, estratti 100 diversi campioni, 95 presenteranno una media che ricade all’interno e 5 invece cadranno fuori (con medie inferiori a 104 o superiori a 106).
Il giornalista che prenderà in considerazione, almeno, le questioni sopra citate, potrà scrivere un pezzo attendibile e contribuire quindi al passaggio all’azione, cioè alla traduzione dei risultati in comportamenti per ridurre il rischio.
Comments