GNU/Linux >> Tutoriales Linux >  >> Debian

Cómo instalar Apache Spark en Debian 11

En este tutorial, le mostraremos cómo instalar Apache Spark en Debian 11. Para aquellos de ustedes que no lo sabían, Apache Spark es una aplicación gratuita, de código abierto y de propósito general. marco para la computación en clúster. Está especialmente diseñado para la velocidad y se utiliza en el aprendizaje automático para transmitir el procesamiento a consultas SQL complejas. Es compatible con varias API para la transmisión, el procesamiento de gráficos, incluidos Java, Python, Scala y R. Spark se instala principalmente en clústeres de Hadoop, pero también puede instalar y configurar Spark en modo independiente.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo ' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Spark en Debian 11 (Bullseye).

Requisitos previos

  • Un servidor que ejecuta uno de los siguientes sistemas operativos:Debian 11 (Bullseye).
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Un non-root sudo user o acceder al root user . Recomendamos actuar como un non-root sudo user , sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.

Instalar Apache Spark en Debian 11 Bullseye

Paso 1. Antes de instalar cualquier software, es importante asegurarse de que su sistema esté actualizado ejecutando el siguiente apt comandos en la terminal:

sudo apt update
sudo apt upgrade

Paso 2. Instalación de Java.

Ejecute el siguiente comando a continuación para instalar Java y otras dependencias:

sudo apt install default-jdk scala git

Verifique la instalación de Java usando el comando:

java --version

Paso 3. Instalación de Apache Spark en Debian 11.

Ahora descargamos la última versión de Apache Spark desde la página oficial usando wget comando:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Luego, extraiga el archivo descargado:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

Después de eso, edite el ~/.bashrc y agregue la variable de ruta de Spark:

nano ~/.bashrc

Agregue la siguiente línea:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Guarde y cierre el archivo, luego active la variable de entorno Spark usando el siguiente comando a continuación:

source ~/.bashrc

Paso 3. Inicie el servidor maestro Apache Spark.

En este punto, Apache Spark está instalado. Ahora, iniciemos su servidor maestro independiente ejecutando su script:

start-master.sh

De forma predeterminada, Apache Spark escucha en el puerto 8080. Puede verificarlo con el siguiente comando:

ss -tunelp | grep 8080

Paso 4. Acceso a la interfaz web de Apache Spark.

Una vez configurado correctamente, ahora acceda a la interfaz web de Apache Spark usando la URL http://your-server-ip-address:8080 . Debería ver el servicio maestro y esclavo de Apache Spark en la siguiente pantalla:

En esta configuración independiente de un solo servidor, iniciaremos un servidor esclavo junto con el servidor maestro. El start-slave.sh el comando se usa para iniciar el proceso Spark Worker:

start-slave.sh spark://ubuntu1:7077

Ahora que un trabajador está en funcionamiento, si vuelve a cargar la interfaz de usuario web de Spark Master, debería verlo en la lista:

Una vez finalizada la configuración, inicie el servidor maestro y esclavo, pruebe si Spark Shell funciona:

spark-shell

Obtendrá la siguiente interfaz:

Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

¡Felicitaciones! Ha instalado Apache Spark correctamente. Gracias por usar este tutorial para instalar la última versión de Apache Spark en Debian 11 Bullseye. Para obtener ayuda adicional o información útil, le recomendamos que consulte la Sitio web de Apache Spark.


Debian
  1. Cómo instalar Apache en Debian 9

  2. Cómo instalar Apache Cassandra en Debian 9

  3. Cómo instalar Apache Maven en Debian 10

  4. Cómo instalar Apache Maven en Debian 11

  5. Cómo instalar Apache Cassandra en Debian 11 / Debian 10

Cómo instalar Apache Subversion en Debian 9

Cómo instalar Apache Kafka en Debian 9

Cómo instalar Apache Cassandra en Debian 10

Cómo instalar Apache Groovy en Debian 10

Cómo instalar Apache Spark en Debian 10

Cómo instalar Apache Spark en Debian 11