En este tutorial, le mostraremos cómo instalar Apache Spark en Ubuntu 20.04 LTS. Para aquellos de ustedes que no lo sabían, Apache Spark es un sistema informático de clúster rápido y de uso general. Proporciona API de alto nivel en Java, Scala y Python, y también un motor optimizado que admite gráficos de ejecución generales. También admite un amplio conjunto de herramientas de alto nivel que incluyen Spark SQL para SQL y procesamiento de información estructurada, MLlib para máquina aprendizaje, GraphX para el procesamiento de gráficos y Spark Streaming.
Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo
' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Spark en un servidor 20.04 LTS (Focal Fossa). Puede seguir las mismas instrucciones para Ubuntu 18.04, 16.04 y cualquier otra distribución basada en Debian como Linux Mint.
Requisitos previos
- Un servidor que ejecuta uno de los siguientes sistemas operativos:Ubuntu 20.04, 18.04, 16.04 y cualquier otra distribución basada en Debian como Linux Mint.
- Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
- Un
non-root sudo user
o acceder alroot user
. Recomendamos actuar como unnon-root sudo user
, sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.
Instalar Apache Spark en Ubuntu 20.04 LTS Focal Fossa
Paso 1. Primero, asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando el siguiente apt
comandos en la terminal.
sudo apt update sudo apt upgrade
Paso 2. Instalación de Java.
Apache Spark requiere Java para ejecutarse, asegurémonos de tener Java instalado en nuestro sistema Ubuntu:
sudo apt install default-jdk
Revisamos la versión de Java, mediante la línea de comando a continuación:
java -version
Paso 3. Descargue e instale Apache Spark.
Descargue la última versión de Apache Spark desde la página de descargas:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz tar xvzf spark-3.0.0-bin-hadoop2.7.tgz sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark
A continuación, configure el entorno Apache Spark:
nano ~/.bashrc
A continuación, agregue estas líneas al final del archivo .bashrc para que la ruta pueda contener la ruta del archivo ejecutable de Spark:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Activar los cambios:
source ~/.bashrc
Paso 4. Inicie el servidor Spark Master independiente.
Ahora que ha completado la configuración de su entorno para Spark, puede iniciar un servidor maestro:
start-master.sh
Para ver la interfaz de usuario de Spark Web, abra un navegador web e ingrese la dirección IP del host local en el puerto 8080:
http://127.0.0.1:8080/
En esta configuración independiente de un solo servidor, iniciaremos un servidor esclavo junto con el servidor maestro. El start-slave.sh
El comando se usa para iniciar el proceso de Spark Worker:
start-slave.sh spark://ubuntu1:7077
Ahora que un trabajador está en funcionamiento, si vuelve a cargar la interfaz de usuario web de Spark Master, debería verlo en la lista:
Después de eso, termine la configuración e inicie el servidor maestro y esclavo, pruebe si Spark Shell funciona:
spark-shell
¡Felicitaciones! Ha instalado Apache Spark con éxito. Gracias por usar este tutorial para instalar Apache Spark en el sistema Ubuntu 20.04 (Focal Fossa). Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial Sitio web de Apache Spark.