En este tutorial, le mostraremos cómo instalar Apache Hadoop en CentOS 8. Para aquellos de ustedes que no lo sabían, Apache Hadoop es un marco de código abierto utilizado para almacenamiento distribuido como así como el procesamiento distribuido de big data en clústeres de computadoras que se ejecutan en hardware básico. En lugar de depender del hardware para brindar alta disponibilidad, la biblioteca en sí está diseñada para detectar y manejar fallas en la capa de aplicación, por lo que brinda un servicio de alta disponibilidad en parte superior de un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.
Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo
' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Hadoop en un servidor CentOS 8.
Requisitos previos
- Un servidor que ejecute uno de los siguientes sistemas operativos:CentOS 8.
- Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
- Acceso SSH al servidor (o simplemente abra Terminal si está en una computadora de escritorio).
- Un
non-root sudo user
o acceder alroot user
. Recomendamos actuar como unnon-root sudo user
, sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.
Instalar Apache Hadoop en CentOS 8
Paso 1. Primero, comencemos asegurándonos de que su sistema esté actualizado.
sudo dnf update
Paso 2. Instalación de Java.
Apache Hadoop está escrito en Java y solo es compatible con la versión 8 de Java. Puede instalar OpenJDK 8 con el siguiente comando:
sudo dnf install java-1.8.0-openjdk ant
Verifique la versión de Java:
java -version
Paso 3. Instalación de Apache Hadoop CentOS 8.
Se recomienda crear un usuario normal para configurar Apache Hadoop, cree un usuario usando el siguiente comando:
useradd hadoop passwd hadoop
A continuación, debemos configurar la autenticación SSH sin contraseña para el sistema local:
su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Verifique la configuración ssh sin contraseña con el comando:
ssh localhost
Siguientes pasos, descargue la última versión estable de Apache Hadoop, al momento de escribir este artículo es la versión 3.2.1:
wget http://apachemirror.wuchna.com/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz tar -xvzf hadoop-3.2.1.tar.gz mv hadoop-3.2.1 hadoop
Luego, deberá configurar las variables de entorno Hadoop y Java en su sistema:
nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.232.b09-2.el8_1.x86_64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Ahora activamos las variables de entorno con el siguiente comando:
source ~/.bashrc
Luego, abra el archivo de variables de entorno de Hadoop:
nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.232.b09-2.el8_1.x86_64/
Hadoop tiene muchos archivos de configuración, que deben configurarse según los requisitos de su infraestructura de Hadoop. Comencemos con la configuración básica de un clúster de nodo único de Hadoop:
cd $HADOOP_HOME/etc/hadoop
Editar core-site.xml:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Cree los directorios namenode y datanode en el inicio de usuario de hadoop /home/hadoop
directorio:
mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}
Editar hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
Editar mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Editar yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Ahora formatee namenode usando el siguiente comando, no olvide verificar el directorio de almacenamiento:
hdfs namenode -format
Inicie los demonios NameNode y DataNode utilizando los scripts proporcionados por Hadoop:
start-dfs.sh
Paso 4. Configure el cortafuegos.
Ejecute el siguiente comando para permitir las conexiones de Apache Hadoop a través del firewall:
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
Paso 5. Acceso a Apache Hadoop.
Apache Hadoop estará disponible en el puerto HTTP 9870 y el puerto 50070 de forma predeterminada. Abra su navegador favorito y vaya a http://your-domain.com:9870
o http://your-server-ip:9870
.
¡Felicitaciones! Ha instalado Apache Hadoop con éxito. Gracias por usar este tutorial para instalar Hadoop en el sistema CentOS 8. Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial de Apache Hadoop.