En este tutorial, le mostraremos cómo instalar Apache Spark en CentOS 8. Para aquellos de ustedes que no lo sabían, Apache Spark es un sistema informático de clúster rápido y de propósito general. Proporciona API de alto nivel en Java, Scala y Python, y también un motor optimizado que admite gráficos de ejecución generales. También admite un amplio conjunto de herramientas de alto nivel que incluyen Spark SQL para SQL y procesamiento de información estructurada, MLlib para aprendizaje automático. , GraphX para el procesamiento de gráficos y Spark Streaming.
Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo
' a los comandos para obtener privilegios de root. Te mostraré la instalación paso a paso de Apache Spark en CentOS 8.
Requisitos previos
- Un servidor que ejecute uno de los siguientes sistemas operativos:CentOS 8.
- Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
- Un
non-root sudo user
o acceder alroot user
. Recomendamos actuar como unnon-root sudo user
, sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.
Instalar Apache Spark en CentOS 8
Paso 1. Primero, comencemos asegurándonos de que su sistema esté actualizado e instale todas las dependencias requeridas.
sudo dnf install epel-release sudo dnf update
Paso 2. Instalación de Java.
La instalación de Java en este artículo ha sido cubierta en el artículo anterior. Nos referiremos al artículo de instalación de Java. Luego revisamos la versión de Java, mediante la siguiente línea de comando:
java -version
Paso 3. Instalación de Scala.
Apache Spark está implementado en el lenguaje de programación Scala, por lo que debemos instalar Scala para ejecutar Apache Spark, por lo que solo debemos asegurarnos de que Java y Python estén presentes:
wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz tar xvf scala-2.13.4.tgz sudo mv scala-2.13.4 /usr/lib sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala export PATH=$PATH:/usr/lib/scala/bin
Una vez instalado, verifique la versión de Scala:
scala -version
Paso 4. Instalación de Apache Spark en CentOS 8.
Ahora descargamos la última versión de Apache Spark desde su fuente oficial:
wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz tar -xzf spark-3.0.1-bin-hadoop2.7.tgz export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
Configure algunas variables de entorno antes de iniciar Spark:
echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile
El clúster de Spark independiente se puede iniciar manualmente, es decir, ejecutar el script de inicio en cada nodo o simplemente usar los scripts de inicio disponibles. Para realizar pruebas, podemos ejecutar demonios maestros y esclavos en la misma máquina:
./sbin/start-master.sh
Paso 5. Configure el cortafuegos para Apache Spark.
Ejecute el siguiente comando para abrir el puerto en el firewall:
sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp sudo firewall-cmd --reload
Paso 6. Acceso a la interfaz web de Apache Spark.
Apache Spark estará disponible en el puerto HTTP 7077 de manera predeterminada. Abra su navegador favorito y vaya a http://your-domain.com:7077
o http://server-ip-address:7077
y complete los pasos necesarios para finalizar la instalación.
¡Felicitaciones! Ha instalado Apache Spark correctamente. Gracias por usar este tutorial para instalar el marco de código abierto de Apache Spark en su sistema CentOS 8. Para obtener ayuda adicional o información útil, le recomendamos que consulte la sitio web oficial de Apache Spark.