Préparer les données avec DSS

Pour faire suite à notre blog post précédent, nous allons nous intéresser aux bénéfices que peut apporter Data Science Studio (DSS) de Dataiku à la première étape d’un workflow de data science : la préparation des données.



Ce travail n’est certainement pas celui mis en avant dans les articles relatifs à la data science et pourtant il est le préliminaire indispensable à toute analyse efficace. Cet aspect est d’autant plus paradoxal que cette étape est sans doute la plus consommatrice en temps dans un processus traditionnel. Voyons comment un outil de data science tel que DSS permet de simplifier cette préparation.


La complexité du chargement des données est due à la multiplicité des formats. Le parsing nécessite alors l’utilisation d’une palette d’outils très vaste (ligne de commande, scripts python, requêtes SQL..). Avec DSS, l’accès à de très nombreuses sources de données est possible (fichiers, hadoop, SQL, Stockage Cloud, NoSQL, stream twitter) et le parsing réalisé facilement par configuration de paramètres et prévisualisation. Par exemple on peut naviguer dans une arborescence hadoop HDFS, sélectionner un fichier log et définir les paramètres de lecture.



Mais la compréhension des données est aussi facilitée par le module de visualisation intégré fonctionnant en drag&drop et permettant la construction rapide des graphiques de base (barres, nuages de points,lignes…).



Dernier atout du shaker, et non des moindres, ses capacités de formatage et transformation des données : ce ne sont pas moins de 50 “processeurs” qui sont disponibles et peuvent être appliqués en séquence sur le dataset. L’ensemble des transformations classiques sont présentes dans cette boîte à outils : filtrage, nettoyage, gestion des dates, manipulation de chaines de caractères, formules mathématiques, natural language, jointures. L’accès aux fonctions les plus courantes est même facilité par un menu contextuel : il est par exemple possible sélectionner une chaîne de caractère et de remplacer toutes ces occurences dans la colonne en un clic.



L’impression de facilité d’utilisation se traduit directement par un gain de productivité considérable néanmoins, il ne faut pas penser que les possibilités du shaker restent assez limitées. En effet, le module est également évolutif à travers des processeurs “programmables”, il permet l’enrichissement des données et assure un contrôle de l’enchainement des transformations. Ce sont ces différents aspects ainsi que la gestion des workflows qui seront détaillés dans notre prochain post.