DATA CATALOG: comprensione ed origine dei dati.
TALEND DATA CATALOG
Con Talend Data Catalog gli utenti potranno effettuare un’analisi intelligente dei loro dati.
Sarà possibile, grazie all’utilizzo di una semplice interfaccia, identificare le sorgenti dati disponibili all’interno dell’intero patrimonio aziendale (database, ETL e strumenti di reportistica) e capire come esse interagiscono end-to-end.
In parallelo a tale processo, con Talend si riuscirà a generare in automatico tutti i metadati dell’intero patrimonio aziendale.
Con tale conoscenza, che permetterà di descrivere meglio il dato, le aziende aumenteranno la propria capacità di sfruttamento dei dati e, di conseguenza, migliorare il modo con cui gestirli.
Uno dei vantaggi più importanti di tale centralizzazione di conoscenza del dato è nella semplificazione del processo di data governance.
Infatti, grazie ad una overview globale delle sorgenti e dei dati è possibile identificare quali sono i diritti di accesso ai singoli dati e di conseguenza avere una gestione più trasparente e pulita delle autorizzazioni che i singoli fruitori avranno.
L’intero processo, per quanto possa apparire semplice per l’utilizzatore finale, è al suo interno molto articolato.
Talend permette in automatico di identificare, grazie alla combinazione di algoritmi di machine learning e smart semantics tutte le sorgenti dati disponibili ed i dataset in essi contenuti.
Una volta identificati tali dataset, Talend riesce a “capire”, in modo assolutamente automatico, la struttura del dataset scoperto. Campi importanti contenuti nelle sorgenti dati – come ad esempio ID della riga, indirizzo email – vengono identificati ed aggiunti ai metadata utili per descrivere il dataset.
Oltre ad informazioni sul contenuto, l’IA di Talend permette di identificare eventuali interazioni tra i dati.
La presenza di eventuali relazioni o collegamenti che esistono tra i diversi dataset vengono estratte ad aggiunte ai metadati descrittivi del dataset.
Il processo di arricchimento dei metadati può essere anche effettuato manualmente, utilizzando una interfaccia che permette di modificare i metadati creati da Talend automaticamente, oppure di inserire nuove informazioni utili. Tale metodo di lavoro permette di gestire in modo semplice e condiviso la conoscenza che ogni singolo team ha sul suo dominio di dati.
Alcuni use case tipici che Talend Datalog è capace di gestire al meglio sono:
– Governed Analytics: I dati possono essere condivisi, in modo pubblico o selettivo, all’interno del team di analytics. Questo processo permette di rafforzare il controllo sui dati (scelta dei soggetti che possono visualizzarli) e allo stesso tempo di massimizzare il numero di persone raggiungibili. Inoltre, grazie al sistema di arricchimento manuale dei metadati, gli analisti possono inserire eventuali annotazioni o informazioni aggiuntive capaci di descrivere meglio i dati. Tale processo permette di condividere in modo smart le informazioni tra soggetti che lavorano sugli stessi dati.
– Data Compliance & Privacy: Grazie alla centralizzazione del processo di governance, è possibile attemperare in modo semplice a tutti le diverse regolare in termini di data compliance e data privacy.
– IT Modernization & Change Mgmt: Nel caso in cui ci sia la necessità di modificare parte dell’infrastruttura, grazie alle informazioni raccolte nei metadati, è possibile semplificare il processo di comprensione dei dati necessario alla loro migrazione.
– The Data Marketplace: Le aziende che vogliono monetizzare, o semplicemente condividere con l’esterno i loro dati, possono creare dei servizi API che seguono gli standard moderni per creare dei punti di accesso utili alla condivisione.
In base alle differenti esigenze delle aziende, si potranno utilizzare differenti versioni della data catalog.
La versione Talend Data Catalog Standard Edition può essere utilizzata per tutte quelle aziende che vogliono gestire i propri dati big data e in cloud con una particolare attenzione nella data governance.
La standard edition avrà la capacità di estrarre e catalogare dati da diverse sorgenti e di integrarli all’interno dei più importanti framework per il big data (Cloudera, Hortonworks e MapR).
La versione Talend Enterprise Data Catalog Plus può essere vista come una estensione della versione precedente.
Permette di poter effettuare connessioni con strumenti di version control system e di approval workflow. Inoltre supporta un numero maggiore di strumenti per la data integration e dà la possibilità di poter migliorare la parte finale del workflow legata alla Business Analysis.