Talend est un outil open source utilisé pour le traitement des données, que cela soit du Bigdata ou de simples fichiers Excel.

Talend est un ETL, c’est à dire:

  • Extrait (Récupère les données de une ou plusieurs sources)
  • Transforme (Applique les transformations désirées aux données)
  • Load (Charge les données dans une ou plusieurs destination)

Nous l’utilisons pour plusieurs usages:

  • Récupérer les données de nos fournisseurs afin de les agréger dans notre base de données
  • Récupérer des données, les nettoyer et les analyser
  • L’automatisation de tâches répétitives

Cliquez ici pour plus d’informations sur Talend

Afin de mieux comprendre comment il peut vous être utile, nous allons prendre un exemple concret.

Dans cet exemple, mon but sera d’extraire des adresses email de ma base de donnée afin de vérifier si elles sont correctes.

Il vous sera nécessaire de vous inscrire gratuitement au service Mailbox Layer afin de vous procurer un clé API.

  1. Créez un job
  2. Ajoutez le composant MySQL:
  3. Configurez le en fonction de vos paramètre de base de donnée:
  4. Cliquez sur “Guess schema” afin de récupérer le schéma de votre table (selon votre requête):

  5. Ajoutez également le composant HTTP request:

  6. Dans le champ URI du composant, copiez cette valeur avec les guillements et en changeant l’API key avec celui fourni par Mailbox Layer:
    « http://apilayer.net/api/check?access_key=[YOUR_KEY]&email= »+row1.subscriber_email+ »&smtp=1&format=1 »
  7. Nous ajoutons le composant Extract JSON:

  8. Et le configurons de la manière suivante:

  9. Enfin le dernier composant, la sortie vers notre fichier CSV avec le composant File Output Delimited:

  10. Connectez tous les composants du premier au dernier, dans l’ordre (assurez-vous que la connexion entre le composant MySQL et HTTP se nomme bien row1 ou sinon changez les paramètres du composant en fonction de son nouveau nom)
  11. Lancez le job et le tour est joué!