Aller au contenu

Apache Airflow

Dans cet article

Information

Apache Airflow est une plateforme puissante et flexible pour développer, planifier et surveiller les tâches de pipelines de données. Il peut être utilisé dans une large gamme d’applications : lancer des scripts pour la collecte, la transformation et le chargement de données provenant de diverses sources, planifier des campagnes e‑mail, automatiser les tests, et bien plus encore.

Apache Airflow Features

  • Airflow utilise Python pour définir les workflows, les rendant transparents, facilement personnalisables et reproductibles ;
  • Grâce à son API ouverte et à une large gamme d’opérateurs, Airflow peut s’intégrer à de nombreuses technologies et outils ;
  • L’interface web d’Airflow fournit une vue interactive de l’état du workflow, vous permettant de suivre l’exécution des tâches et de les gérer aisément ;
  • Le planificateur intégré d’Airflow permet de lancer des tâches à une heure précise ou avec une périodicité définie (par ex., toutes les heures, tous les jours) ;
  • Airflow gère automatiquement les dépendances entre les tâches, garantissant que le travail est effectué dans le bon ordre ;
  • Airflow permet de décomposer de grandes tâches en modules plus petits et gérables, simplifiant le développement et le débogage ;
  • L’exécution parallèle des tâches et le support du calcul distribué accélèrent le traitement de gros volumes de données ;
  • Airflow redémarre automatiquement les tâches échouées, garantissant la stabilité du workflow ;
  • Airflow automatise les tâches routinières, libérant du temps aux développeurs pour des missions plus importantes.

Fonctionnalités d'Apache Airflow

  • Airflow utilise Python pour définir les workflows, les rendant transparents, facilement personnalisables et reproductibles ;
  • Grâce à son API ouverte et à une large gamme d’opérateurs, Airflow peut s’intégrer à de nombreuses technologies et outils ;
  • L’interface web d’Airflow fournit une vue interactive de l’état du workflow, vous permettant de suivre l’exécution des tâches et de les gérer aisément ;
  • Le planificateur intégré d’Airflow permet de lancer des tâches à une heure précise ou avec une périodicité définie (par ex., toutes les heures, tous les jours) ;
  • Airflow gère automatiquement les dépendances entre les tâches, garantissant que le travail est effectué dans le bon ordre ;
  • Airflow permet de décomposer de grandes tâches en modules plus petits et gérables, simplifiant le développement et le débogage ;
  • L’exécution parallèle des tâches et le support du calcul distribué accélèrent le traitement de gros volumes de données ;
  • Airflow redémarre automatiquement les tâches échouées, garantissant la stabilité du workflow ;
  • Airflow automatise les tâches routinières, libérant du temps aux développeurs pour des missions plus importantes.

Fonctionnalités de déploiement

ID Nom du logiciel Système d'exploitation compatible VM BM VGPU GPU Min CPU (Cœurs) Min RAM (Go) Min HDD/SSD (Go) Actif
201 Apache Airflow Ubuntu 22.04 + + + + 4 4 60 COMMANDER
  • Accès au panneau de contrôle : https://airflow{Server_ID_from_Invapi}.hostkey.in;
  • Le temps d’installation du panneau ainsi que de l’OS prend environ 15 minutes.

Note

À moins d’indication contraire, par défaut nous installons la dernière version de sortie du logiciel depuis le site Web du développeur ou les dépôts du système d’exploitation.

Démarrage après le déploiement d'Apache Airflow

Après avoir réglé la commande, vous recevrez une notification à l’adresse e‑mail enregistrée lors de l’inscription, indiquant la disponibilité du serveur. Cette notification comprendra l’adresse IP du VPS et les identifiants de connexion. Les clients de notre entreprise gèrent l’équipement via le panneau de contrôle du serveur et l’APIInvapi.

Les données d’authentification, qui peuvent être trouvées dans l’onglet Info >> Tags du panneau de gestion du serveur ou dans l’e‑mail envoyé lors de la disponibilité du serveur :

  • Link to access the Apache Airflow web interface control panel: dans la balise webpanel ;
  • Login: admin;
  • Mot de passe: envoyé par e‑mail après que le serveur soit prêt à être utilisé.

Authentification

Les paramètres suivants sont définis par défaut pour l’utilisateur Admin :

L’interface en ligne de commande est accessible via la commande airflow.

Sous Debian 12, un environnement virtuel est utilisé, qui peut être activé avec la commande :

source /root/.local/pipx/venvs/apache-airflow/bin/activate

Après cela, le CLI sera également accessible via la commande airflow.

Note

Des informations détaillées sur les paramètres principaux d'Apache Airflow peuvent être trouvées dans la documentation des développeurs.

Commander un serveur avec Apache Airflow via l'API

Pour installer ce logiciel en utilisant l'API, suivez les instructions suivantes.

**