BIG DATA

L’impetuoso aumento della quantità di informazioni che oggi è possibile manipolare e consultare, è stato possibile grazie all’immissione nel mercato di nuove modalità di storicizzazione dei dati e delle nuove tecnologie software introdotte recentemente.

La piattaforma HADOOP si è ormai affermata come uno standard di mercato per la memorizzazione di dati strutturati, destrutturati e di nature diverse. Ad essa fanno riferimento i  principali software di “distribuzione” delle informazioni quali Cloudera e Hortonworks; questi sono affiancati da tool sempre più evoluti per l’integrazione, la bonifica e l’omogeinizzazione dei dati provenienti da fonti diverse. Humanativa Group ha individuato nella piattaforma Talend Data Fabric, che integra i principali strumenti di data governance orientati al mondo Big Data, lo strumento di riferimento per la realizzazione di progetti complessi capaci di assemblare in un unico modello logico dei dati le informazioni provenienti da sorgenti tradizionali, social e IoT.

La figura precedente illustra il modello logico della nostra offerta, capace di integrare piattaforme, strumenti, sorgenti e ambienti “target” da mettere a disposizione di team di Data Scientist per lo sviluppo di sistemi di analisi predittiva.

 

Riepiloghiamo di seguito le principali tecnologie a cui facciamo riferimento e per le quali disponiamo di un significativo numero di tecnici certificati.

Cloudera

Nata nel 2008, è stata la prima grande società a proporre una distribuzione Hadoop (CDH)5 completa  ed acquisendo clienti del calibro di eBay, Expedia, Nokia e Samsung.

CDH possiede, al di là delle caratteristiche fondamentali di Hadoop, ossia lo storage-scalabile e calcolo distribuito, anche un insieme di componenti aggiuntive: ad esempio un’interfaccia utente.

Inoltre, CDH permette alle imprese una maggior competitività di mercato, grazie ad alcune caratteristiche peculiari quali la sicurezza e l’integrazione con una vasta gamma di soluzioni Hardware e Software.

Hortonworks

Nata contemporaneamente alla piattaforma Hadoop, la distribuzione Hortonworks Data Platform, completamente open-source, include componenti come Hadoop, Pig, Hive, Ambari…

La gestione e il monitoraggio del cluster sono effettuati con Apache-Ambari.

Hortonworks presenta alcune caratteristiche come un’alta disponibilità del sistema sia con Hadoop 1.0 sia con Hadoop 2.0., migliorando le performance delle query eseguite con HiveQL.

TALEND Data Fabric

Talend è la prima piattaforma di Data Integration su Spark.

 

Grazie a questa caratteristica Talend consente  di implementare job ETL che vengono eseguiti per il 100% su Spark, riducendo in modo significativo i tempi di sviluppo e le prestazioni del software generato.

 

La suite rappresentata nella figura precedente mostra come la piattaforma Data Fabric integri i diversi componenti necessari per realizzare un sistema completo di “big data governance”.

 

Utilizziamo correntemente Cloudera, Horntonworks e Talend per alcuni nostri progetti strategici in diversi settori quali i servizi aeroportuali, telecomunicazioni avanzate e finanza pubblica.