GNU/Linux >> Tutoriales Linux >  >> Ubuntu

Cómo instalar Apache Spark en Ubuntu 20.04 LTS

En este tutorial, le mostraremos cómo instalar Apache Spark en Ubuntu 20.04 LTS. Para aquellos de ustedes que no lo sabían, Apache Spark es un sistema informático de clúster rápido y de uso general. Proporciona API de alto nivel en Java, Scala y Python, y también un motor optimizado que admite gráficos de ejecución generales. También admite un amplio conjunto de herramientas de alto nivel que incluyen Spark SQL para SQL y procesamiento de información estructurada, MLlib para máquina aprendizaje, GraphX ​​para el procesamiento de gráficos y Spark Streaming.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo ' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Spark en un servidor 20.04 LTS (Focal Fossa). Puede seguir las mismas instrucciones para Ubuntu 18.04, 16.04 y cualquier otra distribución basada en Debian como Linux Mint.

Requisitos previos

  • Un servidor que ejecuta uno de los siguientes sistemas operativos:Ubuntu 20.04, 18.04, 16.04 y cualquier otra distribución basada en Debian como Linux Mint.
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Un non-root sudo user o acceder al root user . Recomendamos actuar como un non-root sudo user , sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.

Instalar Apache Spark en Ubuntu 20.04 LTS Focal Fossa

Paso 1. Primero, asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando el siguiente apt comandos en la terminal.

sudo apt update
sudo apt upgrade

Paso 2. Instalación de Java.

Apache Spark requiere Java para ejecutarse, asegurémonos de tener Java instalado en nuestro sistema Ubuntu:

sudo apt install default-jdk

Revisamos la versión de Java, mediante la línea de comando a continuación:

java -version

Paso 3. Descargue e instale Apache Spark.

Descargue la última versión de Apache Spark desde la página de descargas:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
tar xvzf spark-3.0.0-bin-hadoop2.7.tgz
sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark

A continuación, configure el entorno Apache Spark:

nano ~/.bashrc

A continuación, agregue estas líneas al final del archivo .bashrc para que la ruta pueda contener la ruta del archivo ejecutable de Spark:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Activar los cambios:

source ~/.bashrc

Paso 4. Inicie el servidor Spark Master independiente.

Ahora que ha completado la configuración de su entorno para Spark, puede iniciar un servidor maestro:

start-master.sh

Para ver la interfaz de usuario de Spark Web, abra un navegador web e ingrese la dirección IP del host local en el puerto 8080:

http://127.0.0.1:8080/

En esta configuración independiente de un solo servidor, iniciaremos un servidor esclavo junto con el servidor maestro. El start-slave.sh El comando se usa para iniciar el proceso de Spark Worker:

start-slave.sh spark://ubuntu1:7077

Ahora que un trabajador está en funcionamiento, si vuelve a cargar la interfaz de usuario web de Spark Master, debería verlo en la lista:

Después de eso, termine la configuración e inicie el servidor maestro y esclavo, pruebe si Spark Shell funciona:

spark-shell

¡Felicitaciones! Ha instalado Apache Spark con éxito. Gracias por usar este tutorial para instalar Apache Spark en el sistema Ubuntu 20.04 (Focal Fossa). Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial Sitio web de Apache Spark.


Ubuntu
  1. Cómo instalar Apache Maven en Ubuntu 16.04 LTS

  2. Cómo instalar Apache Cordova en Ubuntu 18.04 LTS

  3. Cómo instalar Apache Kafka en Ubuntu 18.04 LTS

  4. Cómo instalar Apache Hadoop en Ubuntu 18.04 LTS

  5. Cómo instalar Apache Solr en Ubuntu 20.04 LTS

Cómo instalar Apache Spark en Ubuntu 18.04 LTS

Cómo instalar Apache Maven en Ubuntu 18.04 LTS

Cómo instalar Apache CouchDB en Ubuntu 18.04 LTS

Cómo instalar Apache Cassandra en Ubuntu 18.04 LTS

Cómo instalar Apache en Ubuntu 20.04 LTS

Cómo instalar Apache Spark en Ubuntu 20.04 LTS