Grid Computing
Talend est le premier éditeur de logiciels Open Source d’intégration de données. Après 3 ans de développement intensif et en s’appuyant sur des investisseurs de renom, Talend a révolutionné en 2006 le monde de l’intégration de données en lançant la première version de Talend Open Studio.
Les solutions de Talend sont utilisées principalement pour l’intégration entre systèmes opérationnels, pour l’ETL (Extraction, Transformation et Chargement) pour le décisionnel et le data warehousing, et pour la migration de données.
Contrairement aux éditeurs traditionnels qui proposent des solutions propriétaires à des coûts prohibitifs, Talend rend l’intégration de données accessible à tous, et pour tous les besoins d’intégration.
En moins d’un an, Talend Open Studio a été téléchargé par plus de 150 000 utilisateurs.
Porteur
Talend
Contact : Fabrice Bonan / COO - Mail : fbonan@talend.com - Tel. : 06 08 67 19 87
Partenaires
PME : Altic
Domaine
Ingénierie des Connaissances
AAP
Oseo
Objectif Général
Les solutions du marché fonctionnent toutes sur un modèle monolithique basé sur un serveur centralisé. Dans cette architecture, seul le serveur sur lequel est installé le moteur ETL permet d'exécuter les processus techniques. Ceci a pour effet de centraliser tous les traitements en un point. Quand les traitements deviennent trop longs pour être exécutés dans les plages de temps autorisés (à cause du nombre de traitement, de la volumétrie croissante des données...) le DSI n'a que deux options :
- ajouter des ressources au serveur : processeurs (très chers), disques, mémoire...
- acheter un nouveau serveur et une nouvelle licence du moteur ETL (très cher).
Talend a développé une architecture radicalement différente dans laquelle ce n'est plus un unique serveur qui exécute les processus mais une multitude.
Avec cette architecture, les processus sont distribués dynamiquement (Grid Computing) sur l'ensemble des serveurs identifiés.
Cette architecture, unique sur le marché, permet notamment de traiter la donnée au plus près de là où elle se trouve (ce qui minimise les transferts réseaux) et d'utiliser la totalité des ressources serveur de l'entreprise disponibles.
Objectif Sectoriel
Ce projet est transverse et n’a pas à proprement parlé d’objectif sectoriel. En revanche son utilisation prend d’avantage de sens dans les secteurs ou de fortes volumétries de données sont gérées par exemple :
- Banque / Assurance
- Pharma
- Telecom
- etc.
Contenus Technologiques
La solution technologique développée intègre les éléments suivants :
- Agent / Job serveur
- Interface d’administration
L’Agent (JobServer) est la partie cliente de la solution. Cet agent doit être installé sur chacun des serveurs destiné à exécuter des processus Talend.
Cet agent possède une empreinte mémoire très faible et une consommation CPU très limitée afin de ne pas diminuer les performances des serveurs.
Une fois installé, ces agents envoient de façon régulière (et paramétrable) les informations nécessaires à la distribution dynamique des processus au serveur principal. Les informations envoyées concernent notamment :
- disponibilité du serveur
- nombre de processeur
- disponibilité des processeurs (%)
- mémoire physique, mémoire virtuelle, mémoire disponible (%)
- taille disque disponible
- etc.
Plus de 30 indicateurs sont ainsi récupérés et remontés.
A partir de ces informations et d’une pondération de l’administrateur, une note (dynamique) est attribuée à chaque serveur. Le processus sera déployé sur le serveur possédant la meilleure note au moment de son déclenchement.
L’interface d’administration permet à l’utilisateur d’avoir une vue global de sa grille de calcul et donc de l’ensemble de ses serveurs. Les informations remontées par les agents sont affichés en temps réel.
A tout instant, l’administrateur peut visualiser l’état des nœuds de sa grille de calculs, quels processus sont lancés sur quels nœuds, etc.
Cette interface s’intègre avec l’interface globale de la solution : Talend Administrator ; elle est accessible via un simple navigateur Internet (client léger).
La totalité des développements liés à ce projet est réalisée en langage Java.
Philosophie / Démarche
La philosophie du Projet Grid est en cohérence avec celle de l’entreprise. Talend entend démocratiser l’intégration de données en proposant des solutions très performantes à une fraction du coût proposé par les éditeurs propriétaires classiques. A titre indicatif, l’équivalent de la solution Open Studio (disponible gratuitement chez Talend) est vendu aux alentours de 150K€ par nos concurrents.
Le Grid Computing rejoint cette philosophie en permettant à nos utilisateurs de capitaliser sur leur infrastructure plutôt que de les « forcer » a (ré) investir massivement pour l’achat de « Supers Calculateurs» extrêmement couteux.
Enjeux
La volumétrie de données gérée par une entreprise double environ tous les ans, en revanche les temps de traitements de ces données, eux, ne peuvent pas augmenter.
Les entreprises doivent donc répondre à un besoin de puissance de calcul pour transformer, nettoyer, homogénéiser et stocker ces données de plus en plus important.
L’enjeu est de proposer à nos utilisateurs une solution puissante à moindre coût en rupture avec les modèles monolithiques des éditeurs historiques.
Les principaux avantages de cette solution de grille de calcul sont :
- sa performance et son évolutivité : lorsque la puissance globale de la grille n’est plus suffisante, il suffit d’ajouter un nouveau nœud ; la puissance disponible augmentant de façon (quasi) linéaire avec le nombre de nœuds.
- son prix : les nœuds composants la grille sont des serveurs « bas de gammes ». une grille composée par 24 serveurs a un prix de revient 10 fois moins élevé qu’un Super Calculateur de même puissance.
- sa fiabilité : si un des nœuds n’es pas disponible (à cause d’une panne matériel par exemple), le processus sera distribué sur un autre nœud de façon transparent (fail/over). En environnement monolithique, si le serveur principal s’arrête, tous les processus sont stoppés.
Nouveaux Produits/Services à Court/Moyen Terme
Talend propose la gamme de produit suivante :
- Talend Open Studio : Designer Open Source GPLV2
- Talend On Demand : mode SAaS
- Talend Integration Suite / Team Edition
- Talend Integration Suite / Professional Edition
- Talend Integration Suite / Enterprise Edition
L’offre Grid de Talend sera disponible comme un produit haut de gamme intégré à l’offre Talend Integration Suite / Enterprise Edition.
Cette offre est destinée aux grands comptes qui ont des besoins élevés en termes de performance et qui gèrent d’importantes volumétries de données.
Description / Étapes
Les étapes pour mener à bien ce projet intègre classiquement :
- l’analyse des besoins
- l’étude de l’art antérieur et notamment des frameworks de distribution de processus
- la rédaction de spécifications fonctionnelles
- la rédaction des spécifications techniques
- le découpage du projet ; découpage des charges
- le développement / implémentation :
- de la partie cliente : Agent (Job Server))
- de la partie serveur et intégration dans l’existant (Administrator)
- de la couche de déploiement.
Les tests & la recette :
Nous sommes actuellement en phase de recette chez quelques premiers prospects/clients tests. Notre démarche est toujours animée par un grand pragmatisme et par une méthode itérative de développement permettant de rester au plus près des attentes de nos utilisateurs.
Résultats / Livrables
Le principal livrable de ce projet correspond à l’application finale fonctionnelle intégrant la partie Cliente (Job Server) et la partie serveur (Administrator).
Retour