GNU/Linux >> Tutoriales Linux > >> Cent OS

Cómo instalar Apache Spark en CentOS 7

En este tutorial, le mostraremos cómo instalar Apache Spark en el servidor CentOS 7. Para aquellos de ustedes que no lo sabían, Apache Spark es un sistema informático de clúster rápido y de propósito general. Proporciona API de alto nivel en Java, Scala y Python, y también un motor optimizado que admite gráficos de ejecución generales. También admite un amplio conjunto de herramientas de alto nivel que incluyen Spark SQL para SQL y procesamiento de información estructurada, MLlib para máquina aprendizaje, GraphX para el procesamiento de gráficos y Spark Streaming.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo ' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Spark en el servidor CentOS 7.

Instalar Apache Spark en CentOS 7

Paso 1. Primero, comencemos asegurándonos de que su sistema esté actualizado.

yum clean all
yum -y install epel-release
yum -y update

Paso 2. Instalación de Java.

Instalando java para el requisito de instalar apache-spark:

yum install java -y

Una vez instalado, verifique la versión de Java:

java -version

Paso 3. Instalación de Scala.

Spark instala Scala durante el proceso de instalación, por lo que solo debemos asegurarnos de que Java y Python estén presentes:

wget http://www.scala-lang.org/files/archive/scala-2.10.1.tgz
tar xvf scala-2.10.1.tgz
sudo mv scala-2.10.1 /usr/lib
sudo ln -s /usr/lib/scala-2.10.1 /usr/lib/scala
export PATH=$PATH:/usr/lib/scala/bin

Una vez instalado, verifique la versión de Scala:

scala -version

Paso 4. Instalación de Apache Spark.

Instala Apache Spark usando el siguiente comando:

wget http://www-eu.apache.org/dist/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
tar -xzf spark-2.2.1-bin-hadoop2.7.tgz
export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Configure algunas variables de entorno antes de iniciar Spark:

echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile
echo 'export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.6' >> .bash_profile
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile

El clúster de Spark independiente se puede iniciar manualmente, es decir, ejecutar el script de inicio en cada nodo o simplemente usar los scripts de inicio disponibles. Para realizar pruebas, podemos ejecutar demonios maestros y esclavos en la misma máquina:

./sbin/start-master.sh

Paso 5. Configure el cortafuegos para Apache Spark.

firewall-cmd --permanent --zone=public --add-port=6066/tcp
firewall-cmd --permanent --zone=public --add-port=7077/tcp
firewall-cmd --permanent --zone=public --add-port=8080-8081/tcp
firewall-cmd --reload

Paso 6. Acceso a Apache Spark.

Apache Spark estará disponible en el puerto HTTP 7077 de manera predeterminada. Abra su navegador favorito y vaya a http://yourdomain.com:7077 o http://your-server-ip:7077 y complete los pasos necesarios para finalizar la instalación.

¡Felicitaciones! Ha instalado con éxito Apache Spark en CentOS 7. Gracias por usar este tutorial para instalar Apache Spark en sistemas CentOS 7. Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial de Apache. Sitio web de Spark.

Cómo instalar la versión principal de Nginx en CentOS 7

Cómo instalar Buildbot en CentOS 7

Cent OS

Cómo instalar Apache Cassandra en CentOS

Cómo instalar elgg en CentOS 8

Cómo instalar Apache ServiceMix en CentOS 8

Cómo instalar Apache SVN en CentOS 7

Cómo instalar Mod_Security Apache en CentOS 6

Cómo instalar Apache Spark en CentOS 8