Il valore dei dati

Abstract Ogni discussione sull'AI aziendale finisce prima o poi per concentrarsi sul modello — quale, quanto grande, quanto messo a punto. È l'altitudine sbagliata. Un modello è una lente; l'immagine è il dato che vi sta sotto. Il valore che un sistema di AI può restituire è limitato, prima di ogni altra cosa, dalla qualità e dalla connessione dei dati su cui ragiona. Due fatti tengono la maggior parte dei dati aziendali al di sotto della soglia di utilità: gran parte di essi non viene mai raccolta o connessa (il problema dei dati oscuri), e gran parte di ciò che viene raccolto non è affidabile (il problema della qualità dei dati). Entrambi comportano un costo elevato e per lo più non messo a budget. Ma il costo più profondo è strategico: dati sporchi e disconnessi precludono le connessioni cross-silo dove vive il valore non ovvio — l'insight che appare solo quando una lettura di macchina, un'email di reclamo e la notizia su un fornitore sono la stessa entità in un'unica immagine. Sosteniamo che la qualità della raccolta, la risoluzione delle entità e la provenienza — eseguite al momento dell'ingestione — sono il vero vantaggio competitivo: cumulativo e non copiabile.

1. Il dato è il prodotto

L'interfaccia è una commodity. Una chat, una dashboard, un report — sono la superficie deprezzabile di un sistema di AI, e sono sempre più intercambiabili. Ciò che non è intercambiabile è il substrato: il corpus degli impegni, delle fatture, dei contratti, delle letture di macchina, delle email e del giudizio operativo conquistato sul campo di una specifica azienda, raccolto in modo accurato, connesso correttamente e conservato nel tempo. Il dato è il prodotto; l'interfaccia è solo uno strumento per leggerlo.

Questo capovolge la solita conversazione d'acquisto. "Garbage in, garbage out" non è uno slogan; è un vincolo architetturale. Il modello più capace del mondo, puntato sui record di fornitore duplicati e sui fogli di calcolo privi di data e ora di un'azienda, produrrà risposte sicure, fluenti e sbagliate — e lo farà più velocemente di quanto potrebbe un essere umano. Il vincolo determinante sul valore dell'AI aziendale si è spostato: non è più l'intelligenza del modello, ma la fedeltà delle fondamenta. La maggior parte delle iniziative di AI che si arenano non si arenano sul modello. Si arenano perché il dato sottostante non è mai stato raccolto, mai connesso o mai reso affidabile.

2. Il problema dei dati oscuri — ciò che non hai mai raccolto

Gartner ha coniato l'espressione "dati oscuri" (dark data) per gli asset informativi che un'organizzazione raccoglie, elabora e conserva nel corso dell'attività ma che generalmente non riesce a utilizzare per alcun altro scopo.[1] La categoria è enorme. Il lavoro Global DataSphere di IDC sostiene da tempo che la grande maggioranza dei dati aziendali — nell'ordine dell'80% o più — è non strutturata, e la quota preponderante non viene mai analizzata dopo l'acquisizione.[4] Lo storico di macchina che registra una traccia di vibrazione che nessuno legge; la casella di posta dove il terzo reclamo di un cliente sullo stesso difetto giace scollegato dai primi due; la cartella di rete di PDF controfirmati che nessun sistema può interrogare — ognuno è un bacino di valore che esiste ma che non conta.

Non strutturati~80%+

Strutturati~20%

Analizzatiuna frazione

FIG 1 — L'iceberg dei dati oscuri: la maggior parte dei dati aziendali è non strutturata e mai analizzata dopo l'acquisizione. Quote indicative. Fonte: IDC.[4]

La proprietà distintiva dei dati oscuri è che il loro costo è invisibile per costruzione. Non puoi sentire la mancanza di ciò che non hai mai misurato. Un'azienda che non ha mai raccolto la connessione tra le letture delle sue macchine e i reclami in garanzia non vede una voce di costo etichettata "insight perduto"; semplicemente, quella conversazione non ha mai luogo. È il costo silenzioso del titolo di questo paper — silenzioso non perché sia piccolo, ma perché niente nei conti o nelle dashboard dell'azienda lo nomina mai. Il costo del non raccogliere è l'unico costo che non compare mai sulla fattura.

3. Il problema della qualità dei dati — ciò di cui non ti puoi fidare

Se i dati oscuri sono il costo del non raccogliere, la scarsa qualità è il costo cumulativo del raccogliere male. Qui l'evidenza è insolitamente netta. In uno studio che ha valutato dati reali rispetto a regole di qualità di base, Nagle, Redman e Sammon hanno rilevato che solo il 3% dei dati delle aziende soddisfaceva standard di qualità di base, e che il 47% dei record di dati appena creati conteneva almeno un errore critico, con impatto sul lavoro.[2]

$12,9M

il costo medio annuo della scarsa qualità dei dati per un'organizzazione, secondo Gartner — mentre solo il 3% dei dati delle aziende soddisfa standard di qualità di base, e il 47% dei nuovi record contiene un errore critico.

Fonti: Gartner; Nagle, Redman & Sammon, Harvard Business Review (2017).

Gartner stima che la scarsa qualità dei dati costi alle organizzazioni in media 12,9 milioni di dollari all'anno.[1] Redman, sintetizzando una stima di IBM, ha quantificato il costo dei dati errati per l'economia statunitense in circa 3.100 miliardi di dollari all'anno; separatamente ha sostenuto che il costo per la singola azienda arriva al 15–25% del fatturato.[3][5]

La ragione per cui i dati errati sono peggiori dell'assenza di dati è che gli errori si accumulano a valle. La nota euristica 1-10-100 della qualità dei dati ne cattura la forma: un errore costa circa un'unità per prevenirlo all'inserimento, dieci unità per correggerlo in seguito e cento unità in fallimento a valle se non viene mai intercettato. Un fornitore duplicato — "ACME S.r.l." e "Acme Srl" come due entità — divide silenziosamente la spesa di quel fornitore, la sua storia di rischio e i suoi termini contrattuali tra due record, cosicché ogni report, previsione e decisione costruiti sopra ereditano la divisione. Raccogliere male non spreca soltanto lavoro; fabbrica risposte sbagliate e sicure, e uno strato di AI sovrapposto le industrializza.

4. Dove si nasconde davvero il valore — le connessioni precluse

I costi dei §2 e §3 — insight perduto e rilavorazione a valle — sono reali, ma sottostimano la perdita effettiva, perché il costo maggiore è quello strutturalmente più difficile da vedere: l'insight che non emerge mai perché due dataset non sono mai stati connessi.

Consideriamo il substrato di un produttore come quattro pilastri — le sue comunicazioni digitali, la conoscenza dichiarata delle sue persone, le letture delle sue macchine e il mondo che lo circonda. Uno strumento monodominio vede un solo pilastro. Per un sistema di manutenzione, una lettura di vibrazione è rumore finché non supera una soglia. Per un helpdesk, un'email di reclamo è un ticket tra i tanti. Per nessuno, una notizia di stampa di settore sulla resina riformulata di un fornitore è una banalità. Ciascuno, da solo, è privo di significato. Sovrapposti su un unico grafo connesso, possono diventare una sola frase: un'unica causa alla radice dietro tre sintomi. Quella frase è invisibile a ogni strumento che detiene un solo pilastro — ed è esattamente la frase di cui un'azienda di fascia media ha più bisogno.

Macchina · vibrazione Posta · reclamo Mondo · notizie fornitore

→

Un grafoConnessione tracciata per provenienza

→

Un insightCausa alla radice, tre sintomi

FIG 2 — Ogni segnale è rumore da solo; connessi su un unico grafo diventano un'unica causa alla radice. Questa connessione è impossibile per qualsiasi strumento monodominio. [Analisi Dimbo].

Ecco perché i dati connessi non aggiungono valore in modo lineare. Il numero di connessioni potenziali tra i domini cresce in modo combinatorio con il numero di domini connessi, e il valore segue le connessioni, non i domini. È la ragione per cui un secondo dominio di dati, immesso in un grafo condiviso, all'incirca triplica anziché raddoppiare il valore del primo — la connessione tra domini è dove vive il valore non ovvio. [Analisi Dimbo] Il corollario è severo: un'azienda i cui dati stanno in silos disconnessi non sta perdendo una frazione del suo insight potenziale; ne sta perdendo la maggioranza super-lineare, e nessuna quantità di qualità del modello recupera una connessione che l'architettura dei dati non ha mai reso possibile.

1 dominio×1

2 domini≈×3

3 domini≈×6

FIG 3 — Il valore segue le connessioni, non i domini — perciò i dati connessi si accumulano in modo super-lineare. Illustrativo. [Analisi Dimbo].

5. Il dato come asset governato e valorizzato — la spinta favorevole della normativa UE

La direzione di marcia della regolamentazione rafforza la stessa tesi da un fronte inatteso. Il Data Governance Act dell'UE (Reg. (UE) 2022/868) e il Data Act (Reg. (UE) 2023/2854) trattano i dati — e in particolare i dati industriali e generati da macchine — come un asset a cui sono associati diritti di accesso, portabilità e condivisione.[6][7] L'effetto pratico è che la capacità di un'azienda di localizzare, governare e — alle proprie condizioni — condividere i propri dati con una provenienza chiara sta passando da un optional a una capacità regolamentata. L'OCSE (OECD) ne aveva formulato l'argomentazione economica un decennio fa in Data-Driven Innovation, inquadrando i dati come un vero e proprio asset di capitale il cui valore si realizza solo attraverso il riuso e la ricombinazione.[8]

Ne discendono due conclusioni per la fascia media. Primo, i dati che un'azienda non riesce né a trovare né a considerare affidabili non sono semplicemente inutilizzati — sono sempre più una responsabilità sul piano della compliance e commerciale, perché la legge ora presume che l'azienda ne possa rendere conto. Secondo, le aziende posizionate per trarre beneficio dalle disposizioni sui dati di macchina sono precisamente quelle che hanno già svolto il lavoro poco affascinante di raccogliere bene quei dati, con la provenienza intatta. La spinta favorevole della normativa premia la stessa disciplina che premiano le logiche economiche.

6. Progettare per il valore che si accumula

Se il problema è che i dati non vengono mai raccolti, mai connessi e mai resi affidabili, la soluzione non è un report migliore alla fine della pipeline, ma una disciplina migliore all'inizio di essa: raccogliere e strutturare automaticamente, con la provenienza, al momento dell'ingestione. Dimbo è costruito su questa disciplina, e i suoi meccanismi sono concreti anziché aspirazionali.

Risoluzione delle entità sulla soglia. I record in ingresso vengono risolti in un'unica entità canonica — con la normalizzazione dei nomi giuridici italiani che riconduce "ACME S.r.l.", "Acme Srl" e "ACME SRL" a un unico fornitore prima che la divisione del §3 possa avvenire (normalize_org_name, l'entity_resolver, una soglia di fuzzy-match configurabile). Un fornitore diventa un unico nodo che porta con sé tutte le sue fatture, spedizioni, contratti, sentiment delle notizie e how-to di macchina in una volta sola.
Provenienza e tipizzazione impresse su ogni arco. Ogni relazione scritta nel grafo porta con sé da dove proviene (un ProvenanceScope) e un tipo canonico schema.org, così che l'azienda possa sempre rispondere alla domanda come lo sappiamo? — esattamente la responsabilità che il Data Act ora presume.
Un unico grafo condiviso, un unico archivio di conoscenza condiviso. Poiché ogni modulo scrive nello stesso substrato, la connessione cross-dominio che i dati oscuri precludono diventa nativa, non un progetto di integrazione su misura. È il meccanismo che sta dietro all'accumulo del §4.
Un sistema che combatte attivamente i dati oscuri. Il knowledge_hunter esegue euristiche deterministiche sui gap — un cliente con traffico ma senza note, un impegno aperto senza responsabile, un dispositivo con incidenti ma senza how-to — e trasforma ciascun gap in una domanda specifica per la persona che può colmarlo. I dati oscuri vengono attaccati, non semplicemente tollerati.
Motori che si affinano man mano che il grafo si riempie. I motori di previsione e di what-if sono deterministici e spiegabili, e diventano sensibilmente più accurati man mano che più moduli popolano il grafo con record puliti, connessi e tracciati per provenienza — valore che si accumula sul dato, non sul modello.
Il vantaggio competitivo locale non copiabile. Il software è copiabile; gli anni di approvazioni, modifiche e rifiuti di uno specifico stabilimento riversati in ogni proposta futura non lo sono. Un fornitore orizzontale parte da zero con ogni cliente. Un'azienda che ha raccolto bene i propri dati parte da zero una volta sola — e il divario non fa che allargarsi.

Il dato è l'asset che si apprezza in un sistema di AI; l'interfaccia è quello che si deprezza. Raccogli bene una volta sola, e ogni capacità futura lo eredita. — La tesi dell'accumulo

7. Conclusione — raccogliere bene, una volta sola

I tre costi si sommano in un'unica argomentazione. Il costo del non raccogliere è invisibile, perciò non viene mai messo a budget. Il costo del raccogliere male si accumula a valle, perciò viene pagato molte volte. E il valore del raccogliere bene si accumula più velocemente di entrambi — perché dati connessi, affidabili e tracciati per provenienza sbloccano la maggioranza super-lineare dell'insight che vive nelle connessioni.

Un'azienda che costruisce bene il proprio strato di raccolta non compra l'intelligenza una volta; la accumula. È la differenza tra una funzionalità imbullonata su un software costruito per altro, e un sistema nato per raccogliere bene i dati e ragionarci sopra — la differenza tra affittare una lente e possedere l'immagine.

Uno scenario rappresentativo. Rivertex Compositi, un produttore fittizio di compositi da 90 milioni di euro, detiene tre bacini di dati oscuri che non si toccano mai: email di reclamo in una casella di posta, uno storico di macchina che registra le temperature dei forni di polimerizzazione e contratti di fornitura controfirmati in un'unità di rete. Risolti in un unico grafo tracciato per provenienza, una singola correlazione riconduce un ricorrente reclamo di delaminazione — in precedenza tre ticket non correlati — a un cambio di formulazione di un fornitore di resina segnalato nella stampa di settore sei settimane prima, in correlazione con una deriva nella temperatura del forno di polimerizzazione che lo storico aveva registrato ma che nessuno aveva letto. Nessun nuovo dato è stato creato; il valore era sempre stato presente in dati che l'azienda già possedeva. Semplicemente non erano mai stati raccolti in una forma in cui la connessione potesse essere fatta.

Nota di trasparenza

Lo scenario Rivertex da 90 milioni di euro e le affermazioni "il secondo modulo triplica il valore" e "connessioni super-lineari" sono trasparente analisi e ragionamento di Dimbo, non statistiche citate — segnalate come tali in tutto il testo, e le cifre di valore sono illustrative. Le cifre citate (Gartner 12,9M $; HBR 3% / 47%; Redman & IBM 3.100 mld $; MIT SMR 15–25%; quota di dati non strutturati IDC) andrebbero verificate rispetto alle loro release più recenti prima della pubblicazione. Le proprietà dichiarate di Dimbo — risoluzione delle entità, impressione della provenienza, sovranità on-premise, GDPR-by-design, anonimizzazione dei dati personali, audit trail completo — sono reali; in questo paper non viene rivendicata alcuna certificazione non posseduta.

Riferimenti

Gartner — Data Quality (la scarsa qualità dei dati costa alle organizzazioni in media 12,9M $/anno; definisce i "dati oscuri"). gartner.com
Nagle, Redman & Sammon — "Only 3% of Companies' Data Meets Basic Quality Standards," Harvard Business Review (settembre 2017) (3% soddisfa gli standard di base; 47% dei record appena creati contiene almeno un errore critico). hbr.org
Thomas C. Redman — "Bad Data Costs the U.S. $3 Trillion Per Year," Harvard Business Review (settembre 2016), citando una stima di IBM. hbr.org
IDC — ricerca Global DataSphere / Data Age (la grande maggioranza dei dati aziendali è non strutturata e non analizzata). idc.com
T. Redman / MIT Sloan Management Review — il costo dei dati errati per un'azienda ≈ 15–25% del fatturato (riferimento secondario). sloanreview.mit.edu
Unione Europea — Data Act, Regolamento (UE) 2023/2854 (diritti di accesso, portabilità e condivisione per i dati industriali / generati da macchine). eur-lex.europa.eu
Unione Europea — Data Governance Act, Regolamento (UE) 2022/868 (quadro per la condivisione e il riuso affidabili dei dati). eur-lex.europa.eu
OECD — Data-Driven Innovation: Big Data for Growth and Well-Being (2015) (il dato come asset di capitale realizzato attraverso riuso e ricombinazione). oecd.org

Le cifre segnalate con andrebbero confermate rispetto all'ultima release prima della pubblicazione. Lo scenario Rivertex Compositi è un'illustrazione fittizia rappresentativa segnalata come analisi Dimbo; per il calcolo completo e trasparente di perdita e recupero, si veda il Value Model di accompagnamento. In questo paper non viene rivendicata alcuna certificazione non posseduta.