Tra le tante cose che la CoViD-19 ha messo in evidenza, c'è il ruolo cruciale svolto dai dati. Specialmente durante la quarantena, i dati erano il nostro pane quotidiano, e ci aggrappavamo a quei numeri come a un'ancora di salvezza di fronte al futuro indecifrabile che ci si presentava, e che per certi versi ci si presenta tutt'oggi quasi tale e quale.
Quei numeri, presi così, senza un contesto in cui raccontarli, non potevano dire granché: il tasso di mortalità, la conta dei tamponi positivi quotidiani, i guariti, i morti... Informazioni oggettive solo in quanto numeri? Certo, c'è oggettività nei numeri, e persino democrazia, ma non sempre si può dire altrettanto del modo in cui vengono messi insieme e comunicati, anche quando non c'è alcun fine recondito (come nel caso di bufale costruite ad hoc), ma in presenza di "fattori sociali, strutturali, legali o tecnici che possono rendere complessa la condivisione sistematica di fonti di dati affidabili", si legge in un articolo della versione spagnola di The Conversation.
Open Data. Un buon punto di partenza per rendere i dati numerici e statistici fruibili e comprensibili a tutti o quasi viene dalle possibilità offerte dai cosiddetti open data, piccolo ma importante tassello del concetto di partecipazione diretta ai processi decisionali - e quindi di democrazia diretta. Relativi a quasi qualunque aspetto della società, gli open data sono disponibili e consultabili da chiunque nei portali internet di governi e istituzioni: un perfetto esempio di organizzazione di un flusso continuo di dati è la mappa interattiva dei contagi da coronavirus in Italia, aggiornata quotidianamente. Altri portali che offrono serie di dati su numerose tematiche sono quelli della Pubblica Amministrazione, del Ministero dell'Istruzione, del Ministero della Salute, dell'ISTAT.
Le 5 V. I flussi di dati organizzati e disponibili a tutti sono dunque un buon punto di partenza per allargare la platea dei bene informati, ma il fatto che siano ben organizzati e disponibili non basta. I criteri a cui devono rispondere possono essere riassunti in cinque parole: volume, velocità, varietà, variabilità e veridicità.
La maggior parte delle raccolte di dati soddisfa perfettamente le prime due "V", volume e velocità: le informazioni vengono infatti condivise in grandi quantità e con rapidità. Ciò che a volte manca sono la varietà (in termini di fonti e formati di condivisione), la variabilità (ovvero la loro evoluzione nel tempo) e, il fattore forse più importante quando si parla di democrazia, la veridicità (il controllo dei fatti), senza la quale un numero può facilmente trasformarsi in una solida base per una fake news, o anche solo per una notizia priva di fondamento.
È naturale che mettere insieme tutte queste cose sia complicato, perché "genera problemi in termini di gestione, evoluzione e qualità dei dati stessi", si legge su The Conversation.
Ancora di più... Oltre che accessibili, le serie di dati devono anche essere utili: e qui andiamo su un terreno minato, perché per essere utili devono essere di qualità, inseriti in un contesto e chiari.
Il criterio di qualità è ben riassunto in una frase tipica dell'informatica: garbage in, garbage out, ovvero "se spazzatura entra, spazzatura esce". Che, per chiarezza, vuol dire: se inseriamo dati inattendibili (fuffa), un software non potrà far altro che restituire informazioni inattendibili (fuffa). Il contesto è dato dal terreno comune su cui si trovano chi dispensa i dati e chi li utilizza: per esempio, se parliamo di virus possiamo essere informatici oppure medici.
Infine, il concetto più scivoloso è quello di chiarezza, per il quale, per fortuna, vi sono linee guida linee guida condivise per ciò che riguarda i dati scientifici, riepilogate nel 2016 da un team internazionale di esperti: The FAIR Guiding Principles, dove FAIR, che sta per "giusto, corretto", è anche un acronimo per reperibili (find), accessibili (access), interoperabili (interoperate) e riutilizzabili (reuse). Il lavoro, aggiornato nel 2019, offre anche numerosi e importanti criteri e strumenti, ad uso dei ricercatori e delle istituzioni che si fanno carico di dispensare grandi quantità di dati aggregati, per la validazione dei dati stessi - che in questo modo acquisiscono l'analogo di una certificazione di qualità.
Il fattore umano. Alla fine, nulla di ciò che abbiamo fin qui detto conta per davvero se la comunità scientifica e chiunque utilizzi i dati non possa fare affidamento sulla possibilità di intervenire sui dati stessi, o che qualcuno di facilmente raggiungibile possa farlo, per uniformare le informazioni così come per correggere errori che possono emergere da studi e lavori successivi.
Se tutto questo funziona come un meccanismo ben oliato, tra fattore umano e software sempre più potenti, la disinformazione semplicemente si sgretola, non regge: con dati elaborati con criteri condivisi, chiari e verificati, accessibili e basati su grandi numeri, difficilmente a qualcuno potrà venire in mente di affermare, per usare un esempio attualissimo, che il 5G causa il coronavirus (e nel caso potrà comunque essere smentito facilmente, dati alla mano).