GNU/Linux >> Tutoriales Linux > >> Cent OS

Cómo instalar Apache Hadoop en CentOS 8

En este tutorial, le mostraremos cómo instalar Apache Hadoop en CentOS 8. Para aquellos de ustedes que no lo sabían, Apache Hadoop es un marco de código abierto utilizado para almacenamiento distribuido como así como el procesamiento distribuido de big data en clústeres de computadoras que se ejecutan en hardware básico. En lugar de depender del hardware para brindar alta disponibilidad, la biblioteca en sí está diseñada para detectar y manejar fallas en la capa de aplicación, por lo que brinda un servicio de alta disponibilidad en parte superior de un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo ' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Hadoop en un servidor CentOS 8.

Requisitos previos

Un servidor que ejecute uno de los siguientes sistemas operativos:CentOS 8.
Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
Acceso SSH al servidor (o simplemente abra Terminal si está en una computadora de escritorio).
Un non-root sudo user o acceder al root user . Recomendamos actuar como un non-root sudo user , sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.

Instalar Apache Hadoop en CentOS 8

Paso 1. Primero, comencemos asegurándonos de que su sistema esté actualizado.

sudo dnf update

Paso 2. Instalación de Java.

Apache Hadoop está escrito en Java y solo es compatible con la versión 8 de Java. Puede instalar OpenJDK 8 con el siguiente comando:

sudo dnf install java-1.8.0-openjdk ant

Verifique la versión de Java:

java -version

Paso 3. Instalación de Apache Hadoop CentOS 8.

Se recomienda crear un usuario normal para configurar Apache Hadoop, cree un usuario usando el siguiente comando:

useradd hadoop
passwd hadoop

A continuación, debemos configurar la autenticación SSH sin contraseña para el sistema local:

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 640 ~/.ssh/authorized_keys

Verifique la configuración ssh sin contraseña con el comando:

ssh localhost

Siguientes pasos, descargue la última versión estable de Apache Hadoop, al momento de escribir este artículo es la versión 3.2.1:

wget http://apachemirror.wuchna.com/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
tar -xvzf hadoop-3.2.1.tar.gz
mv hadoop-3.2.1 hadoop

Luego, deberá configurar las variables de entorno Hadoop y Java en su sistema:

nano ~/.bashrc

export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.232.b09-2.el8_1.x86_64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Ahora activamos las variables de entorno con el siguiente comando:

source ~/.bashrc

Luego, abra el archivo de variables de entorno de Hadoop:

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.232.b09-2.el8_1.x86_64/

Hadoop tiene muchos archivos de configuración, que deben configurarse según los requisitos de su infraestructura de Hadoop. Comencemos con la configuración básica de un clúster de nodo único de Hadoop:

cd $HADOOP_HOME/etc/hadoop

Editar core-site.xml:

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Cree los directorios namenode y datanode en el inicio de usuario de hadoop /home/hadoop directorio:

mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}

Editar hdfs-site.xml :

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Editar mapred-site.xml :

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Editar yarn-site.xml:

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Ahora formatee namenode usando el siguiente comando, no olvide verificar el directorio de almacenamiento:

hdfs namenode -format

Inicie los demonios NameNode y DataNode utilizando los scripts proporcionados por Hadoop:

start-dfs.sh

Paso 4. Configure el cortafuegos.

Ejecute el siguiente comando para permitir las conexiones de Apache Hadoop a través del firewall:

firewall-cmd --permanent --add-port=9870/tcp
firewall-cmd --permanent --add-port=8088/tcp
firewall-cmd --reload

Paso 5. Acceso a Apache Hadoop.

Apache Hadoop estará disponible en el puerto HTTP 9870 y el puerto 50070 de forma predeterminada. Abra su navegador favorito y vaya a http://your-domain.com:9870 o http://your-server-ip:9870 .

¡Felicitaciones! Ha instalado Apache Hadoop con éxito. Gracias por usar este tutorial para instalar Hadoop en el sistema CentOS 8. Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial de Apache Hadoop.

Cómo instalar WildFly en CentOS 8

Cómo instalar DokuWiki en CentOS 8

Cent OS

Cómo instalar Apache CouchDB en CentOS 7

Cómo instalar Apache ServiceMix en CentOS 7

Cómo instalar Apache Cassandra en CentOS

Cómo instalar elgg en CentOS 8

Cómo instalar Apache ServiceMix en CentOS 8

Cómo instalar Apache SVN en CentOS 7