L’opportunità dei Big Data
Nel 1997 esce il secondo libro della "Trilogia del Ponte" di William Gibson, Aidoru, dove è presente il personaggio di Colin Laney, un netrunner che ha la capacità di individuare i punti nodali in un insieme di dati casuali di informazioni. Apparentemente controcorrente in un momento nel quale i media davano internet per finito (nel 1997 avevano chiuso quasi 5 milioni di siti web) il libro di Gibson anticipava il futuro e, soprattutto, anticipava il concetto di Big Data e del poter estrapolare dati ordinati da un insieme di questi che appare caotico.
Cosa si intende per Big Data.
Ad oggi, ogni sessanta secondi, vengono generati più di 350.000 tweet, su facebook vengono caricate circa 243.000 immagini e 70.000 ore di video, su google sono fatte quasi 4 milioni di ricerche e 500 mila sono le app scaricate dai vari store. Tutto questo insieme di dati non va mai perso ma viene immagazzinato dai fornitori di servizi per essere analizzato e utilizzato; la combinazione del volume di dati e della velocità con la quale è generato prende il nome di Big Data.
Ma parlare di big data solo per trattare dei dati internet generati dagli utenti è limitativo, anche i navigatori satellitari generano dati che vengono inviati ad aziende private che li elaborano, i sensori delle automobili o delle case sempre più smart generano dati che vengono inviati ed analizzati dalle aziende. Abbiamo quindi, oltre che una grande quantità di dati inviati a grande velocità anche una grande varietà di essi che sono apparentemente disomogenei.
Non bisogna quindi confondere il concetto di Big Data con quello di database. Se un database tradizionale, infatti, può gestire tabelle magari composte di milioni di righe, ma al massimo su poche centinaia di colonne, quando parliamo di Big Data ci riferiamo a strumenti in grado di gestire lo stesso numero di record, ma con migliaia di colonne, dove i dati non sono strutturati in maniera omogenea come ad esempio meta dati, posizioni geografiche, valori rilevati da sensori e quasi sempre destrutturate.
Possiamo dire quindi che la definizione di Big Data è composta da tre "V": Volume di dati, Velocità con la quale sono generati e Varietà, di informazioni che apparentemente non vogliono dire nulla e che, soprattutto per la loro disomogeneità non sembrano avere correlazioni logiche nel modo di pensare classico ma la somma di queste tre V, come risultato, dà un'altra V: il Valore che è considerato l'aspetto più importante dei big data e che si riferisce al processo di individuazione di un elevato valore nascosto all'interno di un gran numero di dati (chiamato peso). Nell'analisi di questo tipo di dati è quindi fondamentale valutarne la veridicità e la qualità affinché possano effettivamente generare valore.
Quale utilizzo viene fatto dei dati?
Iniziamo subito a dire che questa grande quantità di informazioni in così poco tempo (parliamo solitamente di almeno un petabyte per arrivare a diversi yottabyte di dati) viene analizzata ed utilizzata in maniera differente a seconda dell'azienda o ente che se ne occupa. Tutti noi sappiamo l'uso che ne viene fatto nell'ambito del marketing da aziende quali Amazon o Google per il così detto "metodo della raccomandazione" per fare proposte di acquisto sulla base degli interessi di un cliente rispetto a quelli di milioni di altri: tutti i dati di un cliente, navigazione, ricerche, acquisti, eccetera, vengono analizzati e messi in relazione con quelli di milioni di altri utenti per cercare un modello di comportamento comune e suggerire un acquisto che solletichi l'interesse di chi sta navigando nel sito. Ma gli algoritmi non si limitano solo a questo: in base alle ricerche riescono a scoprire se, ad esempio, la persona che sta navigando in quel momento sia uomo o donna, se ha figli, animali domestici, nel caso, ad esempio, di una donna se è incinta e suggerirle, in questo caso, anche possibili acquisti per il futuro e/o coupon; il tutto apparentemente in maniera casuale. Anche le agenzie di carte di credito possono sfruttare le informazioni sugli acquisti che vengono fatti online per predire se un acquirente sia affidabile o meno: secondo alcune analisi, ad esempio, le persone che comprano i feltrini per i mobili rappresentano i clienti migliori per gli istituti di credito, perché più attenti e propensi a colmare i propri debiti nei tempi giusti. Quindi da un punto di vista del marketing puro l'analisi interpretativa dei dati è quella metodologia che dà valore ai big data tramite la quale le aziende possono trovare benefici come aumento delle vendite, miglior soddisfazione del cliente, maggiore efficienza, eccetera.
L'ambito di utilizzo dei Big Data, per fortuna, non si limita solamente al settore commerciale, ma può espandersi in una grandissima varietà di campi.
Un primo esempio che possiamo considerare è Ireact, il risultato di un progetto europeo triennale che ha sviluppato la prima piattaforma europea per integrare i dati di gestione delle emergenze provenienti da più fonti, tra cui quelli forniti dai cittadini attraverso i social media e il crowdsourcing1 .
Il sistema, come abbiamo detto, processa diverse fonti di informazioni come le immagini satellitari, le foto pubblicate dagli utenti sui social media, lo storico degli eventi accaduti in un determinato territorio, dati rilevati dai sensori dell'Internet of things, per poter aiutare a decidere quale strategia attuare in caso di calamità o di un evento catastrofico su un territorio e guidare in tempo reale le persone che prestano soccorso, creando nuove mappe mentre la situazione cambia, indicare quale azione operare in un determinato contesto, eccetera.
Nell'ambito della lotta alla criminalità l'utilizzo dei Big Data trova la sua attuazione nel programma Sirio al quale partecipano UNICRI, la Direzione Nazionale Antimafia ed il CERN e del quale l'Italia rappresenta uno dei principali partner per quanto riguarda l'elaborazione e la fornitura dei dati. Su Sidna, la piattaforma digitale del D.N.A., infatti, vengono memorizzati tutti i procedimenti antimafia e antiterrorismo italiani formando un database che contiene oltre due milioni di nominativi. Per fare un esempio Europol ne contiene solo 90.000 e Interpol 250.000. Ma a fare la differenza non è solo la quantità di dati presenti ma anche la qualità in quanto tutte le informazioni inserite provengono dalle direzioni distrettuali antimafia e quindi hanno un altissimo livello di attendibilità; le ultime 180 operazioni contro la criminalità organizzata nel nostro paese (dati relativi a marzo 2020) hanno avuto origine dall'analisi e l'incrocio dei Big Data. Alla base del processo che permette di trovare delle correlazioni tra i dati presenti in questo database vi sono gli strumenti di visual analytics ideati dal professor Daniel Kime dell'Università di Costanza; questi procedimenti combinano le informazioni semantiche specifiche del dominio di appartenenza con concetti astratti dei dati estratti e di visualizzarne i risultati sotto forma di reti. In questo modo possono emergere relazioni tra un mafioso ed un prestanome oppure tra un criminale ed il tipo di bene confiscato. Lo strumento che permette tutto questo si chiama Colaboration Spotting e, inizialmente, era nato per scopi scientifici mentre il suo uso, in questo campo, è quello di permettere alla Direzione Nazionale Antimafia di prevedere le future strategie criminali attraverso lo studio dei modelli organizzativi dei loro protagonisti.
Dagli algoritmi al deep learning
Nell'ambito scientifico l'utilizzo dei big data sta creando delle nuove opportunità ed anche degli scontri.
Secondo il fisico Chris Anderson la grande quantità di dati, combinata adeguatamente ad appropriate tecniche statistico-matematiche sarebbe in grado di soppiantare ogni altro strumento analitico, rendendo il metodo scientifico obsoleto. Anderson sostiene che nell'era del petabyte la correlazione possa sostituire la causalità e quindi dare la possibilità alla scienza di proseguire senza bisogno di modelli coerenti, teorie unificate o altre spiegazioni meccanicistiche: in pratica le congetture e le confutazioni saranno sostituite da "risposte" che emergeranno da sole dall'insieme di dati.
Se questo si realizzasse avremmo una nuova metodologia di ricerca che andrebbe ad aggiungersi a quelle già esistenti: il metodo sperimentale in vigore dai tempi di Galileo, il metodo matematico che ha permesso di analizzare la fisica quantistica e relativistica ed il metodo computazionale, che fa largo uso di simulazioni numeriche.
Affinché questa nuova metodologia possa svilupparsi i ricercatori fanno largo uso dell'apprendimento automatico, un metodo che utilizziamo normalmente tutti i giorni senza saperlo: gli assistenti vocali di Google, Amazon ed Apple, che hanno raggiunto livelli quasi umani di accuratezza, non fanno più uso di regole impartite da un programmatore, ma costruiscono in autonomia un modello del sistema che devono emulare attraverso l'analisi statistica di un ampio insieme di dati.
Anche se non utilizziamo gli assistenti vocali avremmo sicuramente utilizzato un chatbot che non è altro che un algoritmo capace di interloquire con una persona in modo sensato senza conoscere il significato delle parole o non capendo il significato del discorso ma solamente utilizzando milioni di conversazioni come esempi.
Gli algoritmi di deep learning, che si stanno facendo sempre più sofisticati, fanno viaggiare le informazioni verso una rete composta da milioni di nodi. Ogni nodo si accende in base a dei segnali che riceve dai vicini ed i segnali sono analizzati in base al "peso" (importanza) che hanno nella connessione dove viaggiano: una connessione con peso maggiore ha una probabilità maggiore di far cambiare lo stato del nodo dove arriva. Una volta identificati milioni di numeri viene creato un modello del problema (ad esempio in medicina permette di identificare un tumore in un insieme di pixel) e un programma è in grado di risolverlo, pur non sapendo nulla dell'ambito di sviluppo del problema (come i chatbot), il tutto tramite il deep learning e l'analisi dei Big Data.
Non tutti sono però d'accordo con queste idee. Il fisico Poincaré diceva "La scienza è fatta di dati come una casa è fatta di pietre. Ma un ammasso di dati non è scienza più di quanto un mucchio di pietre sia una casa". I dati, infatti, sono sì in grado di trasmettere contenuti ma i risultati possono essere influenzati dalla lettura che se ne dà e da come vengono correlati tra di loro. I modelli di apprendimento, ad oggi, indipendentemente dalla loro complessità, sono in grado di interpolazioni efficaci tra i dati analizzati ma l'estrapolazione di questi ultimi non supererà mai il loro livello di addestramento; secondo il matematico Edward R. Dougherty questi algoritmi non sono in grado di spiegare le correlazioni che trovano e distinguere tra falsi positivi e non, come la famosa ricerca che correlava i divorzi nel Maine ed il consumo di margarina tra il 2000 ed il 2009. Come esempio delle sue teorie Dougherty porta sempre la teoria generale della relatività, la quale non sarebbe mai potuta essere prodotta dall'estrapolazione dei Big Data solamente.
Quale presente e quale futuro?
Il nostro futuro passa anche dai big data e probabilmente i detrattori hanno in mente solamente l'utilizzo che ne viene fatto da parte delle grandi agenzie che lo utilizzano per il marketing, mentre pochi pensano che stanno nascendo delle nuove figure professionali specializzate nel settore come i Data Scientist, il Data Engineer o il Data Analyst e si prevede un mercato di 5 milioni di posti di lavoro in crescita.
Da un punto di vista puramente scientifico la possibilità di elaborare sempre più dati e sempre più velocemente creando associazioni porterà a "intelligenze artificiali" sempre più sofisticate che troveranno la loro collocazione nella vita di tutti i giorni. Pensiamo ad esempio alla difficoltà di un'auto a guida autonoma che deve decidere se un pupazzo di neve possa o meno attraversare la strada: la possibilità di comparare migliaia di informazioni che provengono dai sensori delle altre auto, compararli con migliaia di immagini presenti in rete e decidere che il pupazzo di neve non può attraversare la strada perché non è un uomo sarà possibile grazie ai Big Data.
Nel 2008 un progetto di Google permise di prevedere l'avanzamento dei focolari di influenza negli USA solamente analizzando i gruppi di termini cercati sul suo motore di ricerca più velocemente di quanto poté fare il ministero della salute analizzando i dati di immissione ospedaliera. Pensiamo a come potrebbe essere stato utile un utilizzo appropriato dei dati nell'analizzare l'evoluzione del COVID-19 nel mondo.
Certo rimane il problema di quanta privacy perdiamo ma a pensarci stiamo già rinunciando alla nostra privacy ogni volta che postiamo una foto o condividiamo un pensiero, quindi meglio perderla per avere dei vantaggi che perderla solo per avere della pubblicità in più.
Bibliografia:
Prisma N.17, marzo 2020, "I Big Data, contro il crimine organizzato", pp.38-41
Prisma N.3, dicembre 2018, "Big Data, come costruire modelli teorici in automatico?", pp.32-37
I-React, http://project.i-react.eu/
Youtube, 14 marzo 2018, conferenza "Elena Baralis, La nuova scienza dei dati: la sfida dei big data"
Youtube, Novembre 2014, "Analyzing and modeling complex and big data, Professor Maria Fasli, TEDxUniversityofEssex"
1 crowdsourcing è la richiesta di idee, suggerimenti, opinioni, rivolta agli utenti di Internet da un'azienda o da un privato in vista della realizzazione di un progetto o della soluzione di un problema.