Metadata driven e linguaggi condivisi: a che punto siamo?
osservatorio dati professioni e competenze Aidr
Dei metadati si parla sempre poco, forse perché il prefisso “meta”
viene associato inconsciamente al suo significato originario ( μετά
«con, dopo») e alla conseguente connotazione di un concetto ad ambiti
eterei e inafferrabili, come possono essere la metafisica o le
metafore. Probabilmente, la parola stessa, metadato, non suscita
grande interesse come le parole blockchain, big data e machine
learning. La definizione riduttiva che si dà ai metadati, le
informazioni che descrivono i dati, non aiuta a comprendere pienamente
la loro funzione: sembra si riferiscano a qualcosa di secondario
rispetto ai dati, di cui si potrebbe fare a meno. Bisognerebbe
aggiungere alla definizione che senza i metadati un dato perde il suo
significato, non ha più consistenza e non può essere letto
correttamente.
Ridurre la funzione dei metadati a un ambito esclusivamente
“descrittivo” è una sottovalutazione pericolosa. In primo luogo perché
la funzione descrittiva si riferisce non a uno ma a diversi aspetti,
che possono comprendere il contenuto, la struttura e il contesto
relativi ai dati. Proprio per questo motivo, non esiste un solo tipo
di metadati. Ci sono i metadati descrittivi, che sono costituiti da un
set di descrizioni normalizzate, utili per identificare i dati e nei
sistemi di ricerca semantica che fanno uso dei Linked Open Data. I
metadati strutturali, invece, descrivono l’architettura e le relazioni
interne e sono essenziali per utilizzare correttamente i dati. Poi ci
sono i metadati gestionali, che comprendono informazioni tecniche
quali possono essere i formati o l’ambiente tecnologico adottato.
Basta questa panoramica generale, e, per gli addetti ai lavori, le
parole XSD e JSON Object, per intuire le enormi potenzialità associate
ai metadati. Se è relativamente semplice immaginare un sistema data
driven, non è altrettanto semplice pensare all’uso dei metadati per
prendere delle decisioni. L’immaginazione, però, può assumere una
forma precisa, se viene supportata da un esempio pratico. Supponiamo,
ipoteticamente, che in qualche parte del mondo ci sia un’epidemia
fuori controllo e che questo fenomeno sia misurato attraverso un
metodo scientifico rigoroso che rilevi il numero e le dinamiche dei
contagi e dei decessi. Supponiamo che, attraverso questi “numeri”, si
evidenzi un rischio di contagio elevato nei ristoranti e che i
ristoranti siano frequentati principalmente da una precisa fascia di
popolazione costituita da maschi over 70. Per ridurre i rischi, si
potrebbe pensare di chiudere i ristoranti, oppure di vietare
l’ingresso agli individui goderecci e inclini al vizio di mangiare.
Nel primo caso, servirebbero dei metadati attraverso i quali
descrivere precipuamente le attività economiche, allo scopo di
individuare le aziende che si occupano di somministrare cibo e
bevande. Nel secondo caso, servirebbe un archivio della popolazione da
cui estrarre un elenco di nomi a cui inviare la comunicazione “Vietato
entrare nei ristoranti”. In entrambi i casi, per prendere una
decisione, servirebbero dei metadati descrittivi e strutturali di
qualità. Questo esempio, senz’altro riduttivo, permette di avviare
numerose riflessioni sul ruolo dei metadati. La chiusura dei
ristoranti, nel periodo di massimo rischio Covid, è stata decisa
attraverso l’adozione della classificazione statistica ATECO, ovvero
un insieme di classi e descrittori che identificano più o meno
precisamente le attività economiche svolte dalle aziende.Si può
discutere certamente sulla “purezza” statistica di un sistema
classificatorio, ma non si può negare che la chiusura dei ristoranti
sia stata guidata dai metadati. Analogamente, se si fosse optato per
vietare l’accesso ai ristoranti a una certa fascia di popolazione, i
metadati avrebbero avuto un ruolo chiave nella selezione degli
individui. I due scenari fanno emergere degli aspetti che al momento
non fanno parte del dibattito pubblico: la governance dei metadati,
l’adozione di “linguaggi” condivisi per descrivere i dati, o più in
generale i fenomeni scientifici, e la qualità dei metadati. La scelta
di chiudere i ristoranti è stata possibile fondamentalmente per un
motivo: tutte le aziende possiedono un codice ATECO che fa riferimento
a un solo sistema di classificazioni condiviso, quindi è stato
relativamente semplice individuare le aziende a cui era associato il
codice 56.10.11 – Ristorazione con somministrazione . Lo stesso
provvedimento avrebbe potuto essere inapplicabile in un contesto in
cui ogni regione avesse adottato un sistema classificatorio
differente, magari meno rigoroso, e decontestualizzato dagli altri.
Chi si occupa di metadati conosce bene le difficoltà che si incontrano
nell’integrazione di banche dati diverse in cui, per esempio, il
genere viene indicato in modo diverso, M/F, Maschio/Femmina, 0/1, 1/
2, oppure il territorio viene codificato sulla base di classificazioni
differenti in termini metodologici e temporali. Purtroppo, non è
sempre possibile costruire un sistema di metadati uniforme: a volte
dipende dalla chiusura mentale dei produttori di dati rispetto
all’esterno, a volte da vere o presunte rivendicazioni di maggiore (o
minore) rigore scientifico di un set di metadati rispetto a un altro,
altre volte dall’adozione di procedure o serie storiche che non
possono essere interrotte. L’utilizzo condiviso di metadati di qualità
è tutt’altro che banale e spesso viene ostacolato da questioni
politiche e non metodologiche. Se si circoscrive l’ambito di utilizzo
dei metadati al mercato del lavoro e alle professioni, emerge uno
scenario desolante: da una parte c’è la classificazione internazionale
ISCO (International Standard Classification of Occupation), che si
presterebbe molto bene a descrivere, con un linguaggio condiviso e di
qualità, le professioni e la loro rappresentazione sotto molteplici
aspetti, dall’altra ci sono gli interessi di parte, le caste, gli
egocentrismi e le scarse conoscenze della materia, che ne ostacolano
l’applicazione. Il risultato è che il reclutamento, in particolare nel
settore pubblico, soffre di una carenza strutturale ormai da molti
anni, in un momento storico in cui non è possibile permetterselo. Per
questo, sarebbe auspicabile che all’ordine del giorno del tema
“trasformazione digitale” venga inserita la voce “Metadati,
governance, condivisione e qualità”.