GNU/Linux >> Tutoriales Linux >  >> Ubuntu

Cómo instalar Hadoop en Ubuntu 20.04

En este artículo habremos explicado los pasos necesarios para instalar y configurar Hadoop en Ubuntu 20.04 LTS. Antes de continuar con este tutorial, asegúrese de haber iniciado sesión como usuario con sudo privilegios Todos los comandos de este tutorial deben ejecutarse como un usuario no root.

La biblioteca de software Apache Hadoop es el marco que permite el procesamiento disperso de grandes conjuntos de datos en grupos de computadoras usando modelos de desarrollo simples. Está diseñado para subir de nivel desde servidores individuales hasta miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales. En lugar de depender del hardware para brindar alta disponibilidad, la colección en sí está diseñada para detectar y manejar fallas en el recubrimiento de la aplicación, por lo que brinda un servicio de alta disponibilidad sobre un grupo de sistemas informáticos, cada uno de los cuales puede ser susceptible a fracasos.

Instalar Hadoop en Ubuntu 20.04

Paso 1. Primero, antes de comenzar a instalar cualquier paquete en su servidor Ubuntu, siempre recomendamos asegurarse de que todos los paquetes del sistema estén actualizados.

sudo apt update
sudo apt upgrade

Paso 2. Instala Java.

Puede instalar OpenJDK desde los repositorios apt predeterminados:

sudo apt install default-jdk default-jre

Después de instalar con éxito Java en Ubuntu 20.04, confirme la versión con la línea de comandos de Java:

java -version

Paso 3. Cree un usuario de Hadoop.

Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

Luego, ejecute el siguiente comando para generar pares de claves públicas y privadas:

ssh-keygen -t rsa

Luego, agregue las claves públicas generadas desde id_rsa.pub a authorized_keys y establezca el permiso:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

Verifique que puede usar ssh usando la clave agregada:

ssh localhost

Paso 4. Instale Hadoop en el sistema Ubuntu.

Vaya a la página oficial del proyecto Apache Hadoop y seleccione la versión de Hadoop que desea implementar:

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

A continuación, deberá configurar las variables de entorno Hadoop y Java en el sistema Ubuntu:

nano ~/.bashrc

Agregue las siguientes líneas:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Una vez hecho esto, active las variables de entorno:

source ~/.bashrc

A continuación, abra el archivo de variables de entorno de Hadoop:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

Paso 5. Configure Hadoop.

Ahora crea el namenode y datanode directorios dentro del directorio de inicio de Hadoop:

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

Luego, edite el core-site.xml y actualícelo con el nombre de host de su sistema:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Cambie la siguiente línea:

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

Luego, edite el hdfs-site.xml archivo:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Cambie la siguiente línea:

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

Luego, edite el mapred-site.xml archivo:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Realice los siguientes cambios:

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

Una vez, edite el yarn-site.xml archivo:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Realice los siguientes cambios en el archivo:

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

Paso 6. Inicie el clúster de Hadoop.

Ahora ejecute el siguiente comando para formatear el Namenode de Hadoop:

hdfs namenode -format 
start-dfs.sh

Luego, inicie el servicio YARN usando los siguientes comandos:

start-yarn.sh

Escriba este simple comando para verificar si todos los demonios están activos y ejecutándose como procesos Java:

jps

Paso 7. Configure el cortafuegos.

Ejecute el siguiente comando para permitir las conexiones de Hadoop a través del firewall:

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

Paso 8. Acceso a Hadoop.

Use su navegador preferido y navegue hasta la URL o IP de su servidor local. El número de puerto predeterminado 9870 le da acceso a la interfaz de usuario de Hadoop NameNode:

http://your-ip-address:9870

Eso es todo lo que necesita hacer para instalar Hadoop en Ubuntu 20.04 LTS Focal Fossa. Espero que encuentre útil este consejo rápido. Para obtener más información sobre Apache Hadoop, consulte su base de conocimiento oficial. Si tiene preguntas o sugerencias, no dude en dejar un comentario a continuación.


Ubuntu
  1. Cómo instalar Apache Hadoop en Debian 11

  2. Cómo instalar Apache Hadoop en CentOS 8

  3. Cómo instalar Apache Hadoop en Ubuntu 14.04

  4. Cómo instalar Apache Hadoop en Ubuntu 18.04 LTS

  5. Cómo instalar R en Ubuntu 16.04

Cómo instalar Go en Ubuntu 18.04

Cómo instalar R en Ubuntu 18.04

Cómo instalar qt en Ubuntu 20.04

Cómo instalar y configurar Hadoop en Ubuntu 20.04

Cómo instalar Go en Ubuntu 20.04

Cómo instalar Go en Ubuntu 22.04