La distribution MAPR

On vous a souvent parlé d'Hadoop ici, mais rarement des distributions qui gravitent dans cet écosystème. On trouve 3 distributions majeures que sont Cloudera, Hortonworks, et MAPR, toutes 3 dérivées de la distribution "mère" qu'est Apache Hadoop. Cloudera et Hortonworks sont très proches de la distribution Hadoop Core Apache, et apportent leur lot d'outillages complémentaires à Hadoop. Leur intérêt réside essentiellement dans les supports qu'ils apportent et dans des produits hors Hadoop qui deviennent accessibles comme par exemple Cloudera Impala. Cette orientation très pure des distributions implique que les problèmes connus d'Hadoop comme la disponibilité de l'infrastructure, l'interopérabilité, et les performances des IO disques subsistent.

La distribution MAPR a une approche assez différente en apportant ses propres technologies à l'écosystème Hadoop. La grande expertise en filesystem distribués des fondateurs (ils avaient par le passé créé et revendu à Netapp,  le filesystem Spinnaker), permet d'ajouter les fonctionnalités manquantes à Hadoop. MAPR substitue à l'HDFS d'origine son propre système de fichiers qui permet d'avoir un haut niveau de performance (environ x2) et de fiabilité sur ce point. On trouve dans la console d'administration des possibilités de réplication, et de snapshot des volumes. L'architecture distribuée de MAPR permet aussi de disposer d'une très haute disponibilité en supprimant les SPOF inhérents à Hadoop. De plus MAPR intègre un serveur NFS compatible POSIX directement dans le filesystem, pour permettre une intégration transparente de la plateforme à l'IT de l'entreprise.

Jusqu'à présent MAPR pâtissait de son écosystème fermé, mais la première version de la gamme est maintenant disponible en Opensource, et peut être utilisée sans recourir à la souscription d'un contrat de support. Dans la gamme, on trouve la version M3 dont nous venons de parler avec le filesystem innovant, la M5 apporte les fonctionnalités de haute-disponibilité, et la version M7 est dédiée à fournir un environnement HBase optimisé.  Le passage d'une version à une autre se fait par clé logicielle, et est donc assez transparent.  Récemment MAPR s'est rapproché de Luciworks pour intégrer à son écosystème les capacités du moteur de recherche SOLR.

L'intégration d'Hadoop dans des scénarios complexes d'entreprise peut assez facilement être envisagé avec ces distributions, notamment si on prend en compte l'aspect fiabilité, disponibilité de l'infrastructure. Lors du Hadoop Summit en Mars 2013, nous avons pu voir quelques success stories qui étaient bâties autour de ces produits. Cela démontre que dans le cadre de projet ambitieux l'utilisation d'une distribution payante  est une option à considérer, sachant que ça permet de faire des économies substantielles par ailleurs.