GNU/Linux >> Tutoriales Linux >  >> Debian

Cómo instalar Apache Spark en Debian 11

Apache Spark es un marco computacional gratuito, de código abierto, de propósito general y distribuido que se crea para proporcionar resultados computacionales más rápidos. Admite varias API para transmisión, procesamiento de gráficos, incluidos Java, Python, Scala y R. En general, Apache Spark se puede usar en clústeres de Hadoop, pero también puede instalarlo en modo independiente.

En este tutorial, le mostraremos cómo instalar el marco Apache Spark en Debian 11.

Requisitos

  • Un servidor que ejecuta Debian 11.
  • Se configura una contraseña raíz en el servidor.

Instalar Java

Apache Spark está escrito en Java. Entonces Java debe estar instalado en su sistema. Si no está instalado, puede instalarlo usando el siguiente comando:

apt-get install default-jdk curl -y

Una vez que Java esté instalado, verifique la versión de Java usando el siguiente comando:

java --version

Deberías obtener el siguiente resultado:

openjdk 11.0.12 2021-07-20
OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2)
OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)

Instalar Apache Spark

Al momento de escribir este tutorial, la última versión de Apache Spark es la 3.1.2. Puedes descargarlo usando el siguiente comando:

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Una vez que se complete la descarga, extraiga el archivo descargado con el siguiente comando:

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

A continuación, mueva el directorio extraído a /opt con el siguiente comando:

mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

A continuación, edite el archivo ~/.bashrc y agregue la variable de ruta de Spark:

nano ~/.bashrc

Agregue las siguientes líneas:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Guarde y cierre el archivo, luego active la variable de entorno Spark usando el siguiente comando:

source ~/.bashrc

Iniciar Apache Spark

Ahora puede ejecutar el siguiente comando para iniciar el servicio maestro de Spark:

start-master.sh

Deberías obtener el siguiente resultado:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out

De forma predeterminada, Apache Spark escucha en el puerto 8080. Puede verificarlo con el siguiente comando:

ss -tunelp | grep 8080

Obtendrá el siguiente resultado:

tcp   LISTEN 0      1                                    *:8080             *:*    users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0 <->                                                                                                                                                                                                                                                                    

A continuación, inicie el proceso de trabajo de Apache Spark con el siguiente comando:

start-slave.sh spark://your-server-ip:7077

Acceda a la interfaz de usuario web de Apache Spark

Ahora puede acceder a la interfaz web de Apache Spark usando la URL http://your-server-ip:8080 . Debería ver el servicio maestro y esclavo de Apache Spark en la siguiente pantalla:

Haga clic en el Trabajador identificación. Debería ver la información detallada de su Trabajador en la siguiente pantalla:

Conectar Apache Spark a través de la línea de comandos

Si desea conectarse a Spark a través de su shell de comandos, ejecute los siguientes comandos:

spark-shell

Una vez que esté conectado, obtendrá la siguiente interfaz:

Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

Si desea utilizar Python en Spark. Puede usar la utilidad de línea de comandos pyspark.

Primero, instale la versión 2 de Python con el siguiente comando:

apt-get install python -y

Una vez instalado, puedes conectar el Spark con el siguiente comando:

pyspark

Una vez conectado, debería obtener el siguiente resultado:

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Python version 3.9.2 (default, Feb 28 2021 17:03:44)
Spark context Web UI available at http://debian11:4040
Spark context available as 'sc' (master = local[*], app id = local-1633769632964).
SparkSession available as 'spark'.
>>> 

Detener Maestro y Esclavo

Primero, detenga el proceso esclavo usando el siguiente comando:

stop-slave.sh

Obtendrá el siguiente resultado:

stopping org.apache.spark.deploy.worker.Worker

Luego, detenga el proceso maestro usando el siguiente comando:

stop-master.sh

Obtendrá el siguiente resultado:

stopping org.apache.spark.deploy.master.Master

Conclusión

¡Felicidades! Ha instalado con éxito Apache Spark en Debian 11. Ahora puede usar Apache Spark en su organización para procesar grandes conjuntos de datos


Debian
  1. Cómo instalar Apache en Debian 9

  2. Cómo instalar Apache Maven en Debian 10

  3. Cómo instalar Apache ZooKeeper en Debian 10

  4. Cómo instalar osquery en Debian 10

  5. Cómo instalar Apache Cassandra en Debian 11

Cómo instalar GitLab en Debian 11

Cómo instalar HAProxy en Debian 11

Cómo instalar Apache Guacamole en Debian 11

Cómo instalar Jenkins en Debian 11

Cómo instalar Apache Spark en Debian 10

Cómo instalar Apache Spark en Debian 11