GNU/Linux >> Tutoriales Linux > >> Ubuntu

Instalar y configurar Apache Spark en Ubuntu 20.04

Apache Spark es un marco computacional de código abierto para datos analíticos a gran escala y procesamiento de aprendizaje automático. Admite varios lenguajes preferidos, como Scala, R, Python y Java. Proporciona herramientas de alto nivel para transmisión de chispas, GraphX para procesamiento de gráficos, SQL, MLLib.

Aquí en LinuxAPT, como parte de nuestros Servicios de Administración de Servidores, ayudamos regularmente a nuestros Clientes a realizar consultas relacionadas con el sistema Linux.

En este contexto, veremos cómo instalar y configurar Apache Spark en el sistema de versión Ubuntu 20.04 LTS.

Antes de instalar Apache Spark, debe instalar Scala en su sistema.

¿Cómo instalar Scala en Ubuntu?

Si no ha instalado Java y Scala, puede seguir el siguiente proceso para instalarlo.

Para Java, instalaremos Open JDK 8 o puede instalar su versión preferida ejecutando los siguientes comandos:

$ sudo apt update
$ sudo apt install openjdk-8-jdk

Si necesita verificar la instalación de Java, puede ejecutar el siguiente comando:

$ java -version

En cuanto a Scala, Scala es un lenguaje de programación funcional y orientado a objetos que lo combina en un solo conciso. Scala es compatible tanto con el tiempo de ejecución de JavaScript como con JVM, lo que le otorga un fácil acceso al ecosistema de bibliotecas grandes que ayuda a construir un sistema de alto rendimiento. Ejecute el siguiente comando apt para instalar Scala:

$ sudo apt update
$ sudo apt install scala

Ahora, verifique la versión para verificar la instalación:

$ scala -version

¿Cómo instalar Apache Spark en Ubuntu?

No existe un repositorio apto oficial para instalar apache-spark, pero puede precompilar el binario desde el sitio oficial. Use el siguiente comando wget y enlace para descargar el archivo binario:

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Ahora, extraiga el archivo binario descargado usando el siguiente comando tar:

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

Por último, mueva los archivos Spark extraídos al directorio /opt:

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

¿Cómo configurar las variables de entorno de Apache Spark?

Su variable de ruta para chispa en su .profile en el archivo necesario para configurar para que el comando funcione sin una ruta completa, puede hacerlo usando el comando echo o hacerlo manualmente usando un editor de texto preferible. Para una forma más fácil, ejecute el siguiente comando de eco:

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Notará que la variable de ruta se agrega en la parte inferior del archivo .profile usando eco con>> operación.

Ahora, ejecute el siguiente comando para aplicar los nuevos cambios en las variables de entorno:

$ source ~/.profile

¿Cómo implementar Apache Spark después de la instalación y configuración?

Ahora, hemos configurado todo, podemos ejecutar el servicio maestro y el servicio de trabajo con el siguiente comando:

$ start-master.sh

Verá que el servicio Spark Master se está ejecutando en el puerto 8080. Si navega por el host local en el puerto 8080, que es el puerto predeterminado de Spark. Es posible que encuentre el siguiente tipo de interfaz de usuario cuando navegue por la URL. Es posible que no encuentre ningún procesador de trabajo en ejecución iniciando solo el servicio maestro. Cuando inicie el servicio del trabajador, encontrará un nuevo nodo en la lista.

Cuando abre la página maestra en el navegador, puede ver spark master spark://HOST:PORT URL que se utiliza para conectar los servicios de trabajo a través de este host. Para mi host actual, mi URL principal de chispa es spark://Linuxapt.localdomain:7077, por lo que debe ejecutar el comando de la siguiente manera para iniciar el proceso de trabajo:

$ start-workers.sh <spark-master-url>

Para ejecutar el siguiente comando para ejecutar los servicios de trabajo:

$ start-workers.sh spark://Linuxapt.localdomain:7077

Además, puede usar spark-shell ejecutando el siguiente comando:

$ spark-shell

Administrar programas de inicio en Ubuntu 20.04:¿la forma correcta?

Instalar ROS Noetic en Linux Mint 20 - ¿Una guía paso a paso?

Ubuntu

Instalar y configurar Fail2ban en Ubuntu 20.04

Cómo instalar y configurar Apache Kafka en Ubuntu 20.04

Cómo instalar y configurar Apache Spark en Ubuntu 20.04

Cómo instalar y configurar el servidor web Apache en Ubuntu

Cómo instalar y configurar Apache Spark en Ubuntu 21.04

Cómo instalar y configurar Apache Spark en Ubuntu/Debian