En este tutorial, le mostraremos cómo instalar Apache Spark en Ubuntu 18.04 LTS. Para aquellos de ustedes que no lo sabían, Apache Spark es un sistema informático de clúster rápido y de uso general. Proporciona API de alto nivel en Java, Scala y Python, y también un motor optimizado que admite gráficos de ejecución generales. También admite un amplio conjunto de herramientas de alto nivel que incluyen Spark SQL para SQL y procesamiento de información estructurada, MLlib para máquina aprendizaje, GraphX para el procesamiento de gráficos y Spark Streaming.
Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo
' a los comandos para obtener privilegios de root. Le mostraré paso a paso la instalación de Apache Spark en un servidor 18.04 LTS (Bionic Beaver).
Instalar Apache Spark en Ubuntu 18.04 LTS Bionic Beaver
Paso 1. Primero, asegúrese de que todos los paquetes de su sistema estén actualizados ejecutando estos siguientes comandos apt-get en la terminal.
sudo apt-get update sudo apt-get upgrade
Paso 2. Instalación de Java.
Apache Spark requiere que Java esté instalado en su servidor. De forma predeterminada, Java no está disponible en el repositorio de Ubuntu. Agregue Oracle Java PPA a Apt con el siguiente comando:
add-apt-repository ppa:webupd8team/java apt-get update -y apt-get install oracle-java8-installer
Verifique la versión de Java ejecutando el siguiente comando:
java -version
Paso 3. Instalación de Apache Spark en Ubuntu 18.04 LTS.
Instala Apache Spark usando el siguiente comando:
wget https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz tar xvzf spark-2.3.1-bin-hadoop2.7.tgz ln -s spark-2.3.1-bin-hadoop2.7 spark
Agregar Spark a la ruta:
nano ~/.bashrc
A continuación, agregue estas líneas al final del archivo .bashrc para que la ruta pueda contener la ruta del archivo ejecutable de Spark:
SPARK_HOME=/idr00t/spark export PATH=$SPARK_HOME/bin:$PATH
Para activar estos cambios, ejecute el siguiente comando para el archivo bashrc:
source ~/.bashrc
Inicio de Spark Shell:
./spark/bin/spark-shell
Paso 4. Acceso a Apache Spark.
Apache Spark estará disponible en el puerto HTTP 4040 de manera predeterminada. Abra su navegador favorito y vaya a http://your-domain.com:4040
o http://server-ip:40404
y complete los pasos necesarios para finalizar la instalación.
¡Felicitaciones! Ha instalado Apache Spark con éxito. Gracias por usar este tutorial para instalar Apache Spark en el sistema Ubuntu 18.04 LTS (Bionic Beaver). Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial de Apache Spark.