En esta guía, ilustraremos cómo instalar Apache Airflow en Ubuntu 20.04
Flujo de aire de Apache es una plataforma de gestión de flujos de trabajo de código abierto para canalizaciones de ingeniería de datos. Comenzó en Airbnb en octubre de 2014 como una solución para administrar el increApache Airflow de la empresa, una plataforma de administración de flujos de trabajo de código abierto para canalizaciones de ingeniería de datos.
Apache Airflow es una plataforma de orquestación de flujo de trabajo automatizada de código abierto que se utiliza para administrar la programación y priorización de tareas. La interfaz usa un sistema basado en Python para permitir que los usuarios ingresen tareas y dependencias. Airflow luego se puede usar para monitorear la distribución y ejecución de la carga de trabajo.
Entonces comenzó en Airbnb en octubre de 2014 como una solución para administrar los flujos de trabajo cada vez más complejos de la empresa. La creación de Airflow permitió a Airbnb crear y programar mediante programación sus flujos de trabajo y monitorearlos a través de la interfaz de usuario integrada de Airflow. Flujos de trabajo increíblemente complejos. La creación de Airflow permitió a Airbnb crear y programar mediante programación sus flujos de trabajo y monitorearlos a través de la interfaz de usuario integrada de Airflow.
Instalar Apache Airflow
Simplemente siga los pasos a continuación para comenzar con Apache Airflow
- Asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando el siguiente comando:
sudo apt update -y && sudo apt upgrade -y
- Se requiere un servidor MySQL para Apache Airflow, no use SQLite como base de datos de metadatos en producción; solo debe usarse para desarrollo/pruebas. Recomendamos usar Postgresql o MySQL. Haga clic aquí para más información.
- El siguiente paso es instalar pip con los siguientes comandos:
sudo apt-get install software-properties-common -y
sudo apt-add-repository universe
sudo apt-get update -y
sudo apt-get install python3-pip python-setuptools -y
- Asegúrese de que las dependencias necesarias para Apache Airflow estén instaladas ejecutando el siguiente comando:
sudo apt-get install -y libmysqlclient-dev libssl-dev libkrb5-dev python3-virtualenv python-jinja2
- Airflow necesita un directorio de inicio donde almacene todas sus configuraciones, así que para hacer esto, ejecute el siguiente comando:
export AIRFLOW_HOME=~/airflow
- Instalar Apache Flujo de aire con la ejecución de los siguientes comandos:
virtualenv airflow_unixcop
cd airflow_unixcop/
pip3 install apache-airflow
pip3 install typing_extensions
- Luego reinicie su sistema.
reboot
- Verifique que Apache Airflow se instaló correctamente comprobando su versión
airflow version
- El siguiente paso es inicializar la base de datos de Apache Airflow y actualizarla.
airflow initdb
airflow db upgrade
- Inicia el servidor Apache Airflow ejecutando el siguiente comando
airflow webserver -p 8080
- También puede crear un usuario de Apache Airflow,
NOTA :No se crea un nombre de usuario y una contraseña predeterminados si solo está utilizando la rueda de python.
Ejecute lo siguiente para crear un usuario:
airflow users create --role Admin --username admin --email admin --firstname admin
- Para verificar que Apache Airflow ahora se está ejecutando, abra un navegador web y vaya a localhost:8080 . inicie sesión con el usuario que acaba de crear, será redirigido a la siguiente ventana
Conclusión
Eso es todo,
esta guía para la instalación de Apache Airflow en Ubuntu 20.04
Gracias