Big Data
Un moderno approccio scalabile alla Business Intellingence
Processi, tecnologie e strumenti che aiutano le organizzazioni a raccogliere, organizzare, analizzare e presentare dati per fornire supporto alle decisioni aziendali: questa è la definizione tradizionale di B.I. che, se applicata alla realtà odierna, non può prescindere da complessità tecniche e tecnologiche quali:
- Elaborazione di dati in grande quantità e prodotti con frequenza elevata, non di rado in real-time.
- Progettazione di architetture di storage e di elaborazione in grado di crescere gradualmente nel tempo in maniera proporzionale alle esigenze, salvaguardando gli investimenti in termini di hw e sw.
- Necessità di integrare informazioni organizzate in formati molto eterogenei tra loro, spaziando, ad esempio, dai file di testo, alle basi dati relazionali, ai flussi video.
Questi, e molti altri (data quality, governance, AI, etc.), sono gli aspetti che caratterizzano quel settore ormai generalmente conosciuto come Big Data.
Humanativa vanta un’esperienza pionieristica in questo campo, grazie alla quale è in grado di fornire competenze che ne coprono ogni aspetto in termini metodologici, tecnologici, progettuali e realizzativi.
Data Platform
Scegliere un modello orgranizzativo
Molte caratteristiche e princìpi alla base della nuova B.I. non richiedono solamente strumenti tecnici adeguati, ma soprattutto cambiamenti a livello organizzativo, creazione di competenze, definizione delle responsabilità. Occorre stabilire, ad esempio, quali figure/unità aziendali si occupano di:
- Definire le politiche di governance
- Monitorare il rispetto dei criteri di governance (as es., auditing)
- Definire i criteri di qualità
- Monitorare il rispetto dei criteri di qualità (ad es., data stewardship)
Due sono ritenuti, attualmente, i principali approcci tecnico/organizzativi per la corretta progettazione e gestione di una data platform: Data Fabric e Data Mesh.
Humanativa offre la propria competenza in questo ambito per guidare i clienti nelle scelte più idonee al loro contesto.
Data Fabric
Nella pubblicazione Forrester Wave 2016 Q4 sono illustrate le proprietà fondamentali di questa architettura, centralizzata sia sotto il profilo tecnico che organizzativo, caratteristiche che la rendono idonea in aziende di piccole, medie o grandi dimensioni, aventi un organigramma tipicamente piramidale.
Humanativa è in grado di declinare le proprie competenze sul tema Big Data, per supportare Clienti sia in ambito Grandi Imprese che PMI, per la realizzazione di data fabric tanto on-cloud quanto on-premises, basate su prodotti di ultima generazione sia commerciali che open source.
Data Mesh
Nel 2018, Zhamak Dehghani, esperta di tecnologie emergenti presso la Thoughtworks, formula il nuovo paradigma Data Mesh per le data platform che, prevedendo una gestione decentralizzata della piattaforma, appare maggiormente applicabile in organizzazioni di medie e grandi dimensioni, caratterizzate da molteplici unità organizzative con elevato grado di indipendenza.
Tale paradigma necessita del supporto di tecnologie abilitanti avanzate, quali data virtualization, query federation, identity federation, data product lifcecycle management, etc., che, solo di recente, i maggiori player in ambito cloud hanno iniziato a rendere disponibili, ma le competenze di Humanativa possono guidarne il Cliente per la piena fruizione.
Dal Data Warehouse al Data Lakehouse
I fondamenti architetturali di una data platform
Data Warehouse
L’esperienza di Humanativa nel settore della data integration / B.I. affonda le sue radici nel momento storico precedente all’avvento del Big Data, quando si realizzavano grandi data warehouse basati su consolidate tecnologie DBMS, principalmente di tipo relazionale, caratterizzate da infrastrutture monolitiche, scarsamente scalabili e fortemente vincolanti in termini di modellazione dei dati ma, allo stesso tempo, molto robuste (poiché transazionali) e facilmente fruibili dagli end-user e dai data scientist grazie a linguaggi di interrogazione formali standard (SQL).
Data Lake
Con lo sviluppo deflagrante del Big Data, le tradizionali tecnologie non potevano più supportare le nuove caratteristiche dei grandi flussi delle informazioni, in arrivo: destrutturate, di natura disomogenea, in volumi tali da non essere più trattabili con architetture monolitiche e paradigmi di modellazione logica strutturata.
Humanativa ha seguito, sin dagli albori, la nascita e l’evoluzione delle nuove tecnologie di storage distribuito, scalabile e non-strutturato, a partire dall’ormai ben noto Hadoop HDFS, assieme al suo ricco ecosistema di prodotti, quali Hive, HBase, Spark.
In questa fase, nasce il concetto di Data Lake, quale repository dati scalabile e destrutturato, orientato al Big Data.
Data Lakehouse
Il paradigma Data Lake, grazie alle sue caratteristiche di scalabilità e versatilità è diventato presto uno standard in ambito Big Data. Tuttavia, contemporaneamente ne sono stati avvertiti i limiti in termini di fruibilità: minore robustezza per la mancanza di atomicità delle operazioni di aggiornamento, impossibilità di modificare informazioni già registrate (paradigma write-once/read-many), la necessità di trasformare a posteriori, le informazioni non strutturate in data mart strutturati interrogabili via SQL, etc.
Attualmente, pertanto, un nuovo approccio, chiamato Data Lakehouse, si impone come standard architetturale, che unisce i benefici dei suoi predecessori in un’unica soluzione. La competenza di Humanativa, in questo contesto, è ben allineata alle nuove tecnologie di supporto, quali Apache Iceberg e Delta Lake.
Data Pipeline
Architetture per l’acquisizione dati in contesto Big Data
Lambda Architecture
Humanativa ha maturato esperienze importi nella progettazione e realizzazione di data pipeline in ambito Big Data, basate sulla consolidata architettura Lambda, che consente di attingere a fonti dati sia batch che realtime, utilizzando tecnologie open source quali Kafka e Spark, inclusi i loro equivalenti commerciali serverless in cloud, nonché e prodotti di data integration come Talend, Data Stage, Power BI, etc.
Kappa Architecture
Grazie alla padronanza di tecnologie di streaming quali Kafka, Spark Streaming, Flink, etc., fruibili anche in modalità serverless sulle maggiori piattaforme Cloud, Humanativa è in grado di supportare con efficacia il Cliente nella realizzazione di data pipeline maggiormente orientate allo streaming, basate sul cosiddetto paradigma Kappa, che enfatizza il ruolo del realtime processing sia nell’acquisizione che nella fruizione del dato.
Vendor e Tecnologie per le Data Platform
Il settore della business intelligence, in particolare nella sua applicazione al contesto Big Data, è tuttora in forte espansione, sia in termini di mercato che di tecnologie. Humanativa si premura di mantenersi costantemente aggiornata rispetto all’offerta tecnologica di prodotti e servizi, in ambito commerciale come in quello open source.
Consulenti certificati in ambito Microsoft Azure, Amazon AWS, Google Cloud Platform, Cloudera Data Platform, Databricks sono in grado di supportare il Cliente in tutte le fasi di realizzazione di data platform sia in cloud che on-premises, secondo un approccio che ne soddisfi le specifiche esigenze in termini tecnici, di sicurezza e di business.
Grazie ad una esperienza profonda, anche storicamente, con le tecnologie open source orientate al Big Data, Humanativa è in grado di operare a qualsiasi livello dello stack architetturale con prodotti quali Apache Hadoop, Ozone, Iceberg, Delta Lake, Spark, Kafka, Trino, Ranger, Atlas, etc.
In ambito (visual) data integration Humanativa offre competenze in prodotti commerciali di larga diffusione come Talend, Microsoft Power BI, IBM Data Stage, Informatica, nonché open source come Apache Nifi. Lato front-end, il know-how spazia da prodotti affermati come Tableau e Qlik a prodotti open source emergenti come Apache Superset e Metabase.
Applicazioni avanzate
Grazie alla profonda conoscenza di linguaggi di programmazione quali Scala e Python, nonché di framework di data integration e data science quali Apache Spark, TensorFlow, Keras, Pandas, Scikit, Humanativa, è in grado di realizzare data pipeline altamente performanti, sia nelle fasi di ingestion che nell’applicazione di modelli di machine learning.
Per molti Clienti caratterizzati da requisiti particolarmente critici in termini di performance, Humanativa ha realizzato complessi processi Spark di estrazione dati, caricamento e trasformazione (ELT) interamente basati su codice Scala dinamico, configurabile in modo user-friendly, ma estremamente performante, robusto e versatile nelle possibili applicazioni.
Apache Zeppelin
Humanativa adotta, generalmente, Apache Zeppelin quale interfaccia utente di prototipazione di applicazioni Spark, analisi e, in particolari contesti, per la schedulazione di processi.
Apache AirFlow
Humanativa ha scelto Apache AirFlow come prodotto open source di riferimento per l’orchestrazione di processi. Anche i maggiori vendor in cloud offrono AirFlow nel proprio market place o ne espongono una versione già integrata nel proprio ambiente (ad es. Google Cloud Composer).
Jupyter
Jupyter si è imposto negli anni come standard de-facto nel settore della data science, come GUI per la realizzazione di script Python per l’analisi dati e la realizzazione di modelli di machine learning.
Humanativa offre supporto in questo ambito sia a livello architetturale, per il deployment del prodotto, che nell’utilizzo del prodotto, grazie alle competenze dei propri data scientist.
La nostra soluzione Open Source Data Fabric
Progettata con l’obiettivo, da un lato, di abbattere i costi di licenza ricorrenti e, dall’altro, di avvalersi di tecnologie di ultima generazione attivamente supportate dalle community open source, la soluzione architetturale Big Data elaborata da Humanativa si compone di una famiglia di prodotti distribuiti in forma containerizzata sia on-premise che on-cloud i quali, nel loro complesso, coprono funzionalmente tutti i requisiti di una moderna data fabric:
- Data Lakehouse
- Data ingestion / data processing
- Data analytics / business intelligence
- Data governance / data quality / security
- Monitoring / auditing