Apache lance Arrow, un autre projet big data ambitieux

Apache lance Arrow, un autre projet big data ambitieux

Promis à traiter la majorité des données big data dans les prochaines années, selon l’équipe qui le supervise à la fondation Apache, le projet Arrow pourra améliorer les performances par un facteur 100 sur les traitements analytiques.

Hadoop, Spark et Kafka ont déjà une influence déterminante dans le monde du big data et voilà qu’arrive un nouveau projet Apache qui semble avoir le potentiel pour faire avancer les choses encore plus loin : Arrow. La fondation Apache Software l’a lancé hier sous la forme d’un projet de haut niveau (top-level) destiné à fournir une couche de données haute performance pour l’analyse en mémoire exploitant le stockage en colonne à travers des systèmes disparates. Basé sur le code du projet associé Apache Drill, Arrow peut apporter une forte amélioration des performances, accélérant par un facteur 100 les traitements analytiques, selon la fondation. De façon générale, il permet les traitements multi-systèmes en éliminant les échanges indirects. Les équipes contribuant au code comprennent des développeurs d’autres projets big data gérés par Apache, tels que Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark et Storm.

« La communauté open source a uni ses forces sur Apache Arrow », souligne Jacques Nadeau, l’un des responsables de Drill et vice-président sur le nouveau projet. « Nous anticipons que la majorité des données dans le monde seront traitées à travers Arrow dans les prochaines années ». Dans de nombreux traitements, entre 70 et 80% des cycles CPU sont mis à contribution pour la sérialisation et la désérialisation des données, processus qui convertit la structure des données en un format qui peut être stocké et reconstruit par la suite à l’identique. Arrow allège cette charge en permettant aux données d’être partagées entre les systèmes et exploitées sans sérialisation, désérialisation ou copies en mémoire, explique la fondation. Suite …

(Source : article publié par Katherine Noyes le 18 février 2016 dans Le Monde Informatique.fr)

Tagués avec : , , , , , , , , , , , , , , , ,