Apache Airflow¶
Dans cet article
- Fonctionnalités d'Apache Airflow
- Fonctionnalités de déploiement
- Premiers pas après le déploiement d'Apache Airflow
- Authentification
- Commander un serveur avec Apache Airflow via l'API
Dans cet article
Information
Apache Airflow est une plateforme puissante et flexible pour développer, planifier et surveiller les tâches de pipelines de données. Elle peut être utilisée dans une large gamme d'applications : lancement de scripts pour la collecte, la transformation et le chargement de données provenant de diverses sources, planification de campagnes d'e-mails, automatisation des tests, et plus encore.
Fonctionnalités d'Apache Airflow¶
- Airflow utilise Python pour définir les flux de travail, les rendant transparents, facilement personnalisables et reproductibles ;
- Grâce à son API ouverte et à une large gamme d'opérateurs, Airflow peut s'intégrer à de nombreuses technologies et outils ;
- L'interface web d'Airflow fournit une vue d'ensemble interactive de l'état des flux de travail, vous permettant de suivre l'exécution des tâches et de les gérer facilement ;
- Le planificateur intégré d'Airflow permet de lancer des tâches à un moment spécifique ou avec une périodicité définie (par exemple, chaque heure, chaque jour) ;
- Airflow gère automatiquement les dépendances entre les tâches, garantissant que le travail est effectué dans le bon ordre ;
- Airflow permet de décomposer les grandes tâches en modules plus petits et gérables, simplifiant le développement et le débogage ;
- L'exécution parallèle des tâches et le support du calcul distribué accélèrent le traitement de grands volumes de données ;
- Airflow redémarre automatiquement les tâches échouées, garantissant la stabilité du flux de travail ;
- Airflow automatise les tâches de routine, libérant le temps des développeurs pour des missions plus importantes.
Fonctionnalités de déploiement¶
| ID | Nom du logiciel | Système d'exploitation compatible | VM | BM | VGPU | GPU | Min CPU (Cœurs) | Min RAM (GB) | Min HDD/SSD (GB) | Domaine personnalisé | Actif |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 201 | Apache Airflow | Ubuntu 22.04 | + | + | + | + | 4 | 4 | 60 | Non | COMMANDER |
- Accès au panneau de contrôle :
https://airflow{Server_ID_from_Invapi}.hostkey.in; - Le temps d'installation du panneau ainsi que du système d'exploitation prend environ 15 minutes.
Remarque
Sauf indication contraire, nous installons par défaut la dernière version de release du logiciel depuis le site du développeur ou les dépôts du système d'exploitation.
Premiers pas après le déploiement d'Apache Airflow¶
Après le paiement de la commande, vous recevrez une notification à l'adresse e-mail enregistrée lors de l'inscription, indiquant que le serveur est prêt. Cette notification inclura l'adresse IP du VPS et les identifiants de connexion. Les clients de notre entreprise gèrent l'équipement via le panneau de contrôle du serveur et l'API — Invapi.
Les données d'authentification, qui peuvent être trouvées dans l'onglet Configuration >> Tags du panneau de gestion du serveur ou dans l'e-mail envoyé lorsque le serveur est prêt :
- Lien d'accès au panneau de contrôle de l'interface web Apache Airflow : dans la balise webpanel ;
- Identifiant :
admin; - Mot de passe : envoyé par e-mail une fois le serveur prêt à l'emploi.
Authentification¶
Les paramètres suivants sont définis par défaut pour l'utilisateur Admin :
- prénom :
admin; - nom de famille :
admin; - e-mail :
[email protected].


L'interface en ligne de commande est accessible via la commande airflow.
Sous Debian 12, un environnement virtuel est utilisé, qui peut être activé avec la commande :
Après cela, l'interface en ligne de commande sera également accessible via la commande airflow.
Remarque
Des informations détaillées sur les paramètres principaux d'Apache Airflow peuvent être trouvées dans la documentation des développeurs.