GNU/Linux >> Tutoriales Linux > >> Ubuntu

Cómo instalar y configurar Apache Spark en Ubuntu 21.04

Introducción

Apache Spark es un marco computacional distribuido de código abierto creado para proporcionar resultados computacionales más rápidos.

Es un motor computacional en memoria, lo que significa que los datos se procesarán en la memoria.

Chispa admite varias API para transmisión, procesamiento de gráficos, SQL, MLLib. También es compatible con Java, Python, Scala y R como lenguajes preferidos. Spark se instala principalmente en clústeres de Hadoop, pero también puede instalar y configurar Spark en modo independiente.

En este artículo veremos cómo instalar Apache Spark en Debian y Ubuntu -distribuciones basadas.

Instalar Java en Ubuntu

Para instalar Apache Spark en Ubuntu, necesitas tener Java instalado en su máquina. La mayoría de las distribuciones modernas vienen con Java instalado por defecto y puedes verificarlo usando el siguiente comando.

$ java -version

Si no hay resultados, puede instalar Java utilizando nuestro artículo sobre cómo instalar Java en Ubuntu o simplemente ejecutar los siguientes comandos para instalar Java en distribuciones basadas en Ubuntu y Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Instalar Scala en Ubuntu

A continuación, puede instalar Scala desde el repositorio apt ejecutando los siguientes comandos para buscar scala e instalarlo.

Busque el paquete

$ sudo apt search scala

Instalar el paquete

$ sudo apt install scala -y

Para verificar la instalación de Scala , ejecute el siguiente comando.

$ scala -version

Instalar Apache Spark en Ubuntu

Ahora vaya a la página oficial de descarga de Apache Spark y obtenga la última versión (es decir, 3.1.2) al momento de escribir este artículo. Alternativamente, puede usar el comando wget para descargar el archivo directamente en la terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Ahora abra su terminal y cambie a donde se encuentra su archivo descargado y ejecute el siguiente comando para extraer el archivo tar de Apache Spark.

$ tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Finalmente, mueva la Spark extraída directorio a /opt directorio.

sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Configurar variables para Spark

Ahora debe establecer algunas variables ambientales en su .profile archivo antes de iniciar la chispa.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Para asegurarse de que estas nuevas variables de entorno estén accesibles dentro del shell y disponibles para Apache Spark, también es obligatorio ejecutar el siguiente comando para aplicar los cambios recientes.

$ source ~/.profile

Todos los archivos binarios relacionados con Spark para iniciar y detener los servicios están bajo el sbin carpeta.

$ ls -l /opt/spark

Inicie Apache Spark en Ubuntu

Ejecute el siguiente comando para iniciar Spark servicio maestro y servicio esclavo.

$ start-master.sh

Una vez que el servicio comenzó, vaya al navegador y escriba la siguiente página de chispa de acceso URL. Desde la página, puede ver que se inició mi servicio maestro.

http://localhost:8080/

Luego puede agregar un trabajador con este comando:

$ start-workers.sh spark://localhost:7077

El trabajador se agregará como se muestra:

También puede verificar si spark-shell funciona bien lanzando el spark-shell comando.

$ spark-shell

Cómo instalar SpamAssassin en Ubuntu/Debian

Cómo instalar ReactJS en Ubuntu 21.04

Ubuntu

Cómo instalar y configurar Apache Spark en Ubuntu 20.04

Cómo instalar Apache Spark en Ubuntu 18.04 LTS

Cómo instalar Apache Spark en Ubuntu 20.04 LTS

Cómo instalar y configurar Zsh en Ubuntu 20.04

Cómo instalar y configurar Apache Spark en Ubuntu/Debian

Cómo instalar Apache en Ubuntu 20.04