L’Apache Software Foundation (ASF) intègre la plateforme d’intégration de données basée sur Java Apache Hop Orchestration Platform (Hop) dans ses projets de haut niveau. Après une période d’essai d’environ 16 mois dans l’incubateur Apache, Hop semble avoir atteint le niveau de maturité nécessaire et rassemblé une communauté active derrière elle pour pouvoir compter à l’avenir sur le soutien total de l’ASF.
Sommaire
Gestion des flux de travail par glisser-déposer
Apache Hop doit permettre aux experts en données de gérer rapidement et à moindre coût tous les aspects de l’orchestration des données et des métadonnées. Toutes les fonctions nécessaires à cet effet, telles que la conception, l’exécution, la vérification, le débogage et l’exploitation de workflows et de pipelines, peuvent être utilisées par simple glisser-déposer via l’interface graphique Hop – des connaissances approfondies en programmation ne sont pas nécessaires, mais des adaptations individuelles peuvent également être effectuées à tout moment par le biais du code.
Selon le principe « design once, run everwhere », les pipelines et workflows de données construits dans l’interface graphique Hop peuvent être exécutés aussi bien localement qu’à distance avec le moteur Hop. L’outil est également conçu pour une utilisation multiplateforme : le Beam-Runtime permet d’intégrer les projets Apache Flink, Spark et Kafka ainsi que Google Dataflow ou AWS EMR (Elastic MapReduce). Environ 250 plug-ins disponibles permettent en outre de compléter Apache Hop par d’autres fonctions.
Selon l’annonce d’ASF, la gestion du cycle de vie, également intégrée dans l’interface utilisateur Hop, permet aux experts en données d’accéder facilement aux principales tâches de gestion, de test et de contrôle des versions, ainsi qu’à la mise à disposition de leurs flux de travail et pipelines. Le passage d’un projet à l’autre, d’un environnement à l’autre et d’une version à l’autre devrait également se faire en toute transparence.
Faire du neuf avec du vieux
Apache Hop est issu à l’origine de la plateforme ETL (Extract Transform Load) propriétaire Pentaho Data Integration (Kettle), mais a été largement redéveloppé depuis 2019 en tant que fork de celle-ci. En septembre 2020, l’Apache Software Foundation a intégré le projet open source dans son incubateur, où le développement de Hop, via les versions 0.60, 0.70 et 0.99, a finalement abouti à la première version principale Apache Hop 1.0 en octobre dernier.
Actuellement, l’équipe Hop prépare la sortie de la version 1.1.0, qui devrait notamment fournir de nouveaux plug-ins de transformation pour Apache Tika et pour la saisie de métadonnées. En réaction à la faille critique de Log4j, les jars de la bibliothèque qui étaient jusqu’à présent toujours inclus dans Hop ont été supprimés – mais selon l’équipe, la plate-forme d’intégration de données n’a de toute façon jamais utilisé activement la bibliothèque Java. En vue de la prochaine version principale Apache Hop 2.0, le projet passe à présent à des builds avec Java 11.