Cloudera e Hortonworks nel Talend Big Data

Un aspetto importate di questa nuova versione è che ora Talend supporta la distribuzione dinamica per Cloudera e Hortonworks, offrendo l’accesso istantaneo alle nuove funzionalità di Cloudera e Hortonworks senza dover aggiornare la soluzione Talend, con un risparmio di settimane o addirittura mesi.

cloudera e hortonworks

Le distribuzioni e le versioni Hadoop supportate in Talend 7.1

talend 7.1

In Talend Big Data 7.1 è possibile eseguire un Job Spark con versione Spark 2.3.0 in local mode o anche eseguirla per la distribuzione dinamica.

spark 2.3
In Talend Big Data 7.1 è utilizzabile il componente tSchemaComplianceCheck.
Questo è una componente che convalida tutte le righe di input su uno schema di riferimento o controllo tipo, valori Null, lunghezza delle righe rispetto ai valori di riferimento.
La validazione può essere eseguita in tutto o in parte.

tschema

Inoltre in Talend Big Data 7.1 tHiveConfiguration consente di impostare un failover statico del Hive Metastore, assicurando il massimo della disponibilità sia per Streaming che per Batch job Spark.

hive metastore

Nella versione Talend Big Data 7.1 sono stati migliorati:

– le propietà di connessione HDFS per esplicitare il supporto agli schemi di FS (hdfs,adls,webhdfs)

HCatalog con tSqoopExport

– E’ stato aggiunto un componente di input per MapR-DB OJAI per eseguire trasformazioni gerarchiche avanzate in modalità grafica e lanciare query su MapR-DB OJAI dal proprio processo, fornendo prestazioni più rapide e maggiore flessibilità per applicazioni web, mobile, social e basate su IoT

– componenti DBFS

Con tale versione non si avrà solo nuove funzioni, ma anche ottimizzazione.

Nell’ultima versione di Talend la componente SnowFlake è stata migliorata al fine di poter ottenere un supporto nativo per snowflake su Azure. Inoltre, grazie alla creazione di tabelle snowflake all’interno di job Talend, è possibile semplificare il processo di caricamento dei dati. Sempre all’interno dell’ultima versione, le performance relative ai tempi di caricamento dei dati è stata migliorata permettendo di minimizzare il tempo necessario all’esecuzione di job.

snowflake
Altra importante ottimizzazione introdotta nell’ultima versione di Talend è quella relativa all’integrazione con SAP. Tale integrazione infatti è stata migliorata sia in termini di semplicità e sia in termini di efficienza.

SAP