En este artículo habremos explicado los pasos necesarios para instalar y configurar Hadoop en Ubuntu 20.04 LTS. Antes de continuar con este tutorial, asegúrese de haber iniciado sesión como usuario con sudo
privilegios Todos los comandos de este tutorial deben ejecutarse como un usuario no root.
La biblioteca de software Apache Hadoop es el marco que permite el procesamiento disperso de grandes conjuntos de datos en grupos de computadoras usando modelos de desarrollo simples. Está diseñado para subir de nivel desde servidores individuales hasta miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales. En lugar de depender del hardware para brindar alta disponibilidad, la colección en sí está diseñada para detectar y manejar fallas en el recubrimiento de la aplicación, por lo que brinda un servicio de alta disponibilidad sobre un grupo de sistemas informáticos, cada uno de los cuales puede ser susceptible a fracasos.
Instalar Hadoop en Ubuntu 20.04
Paso 1. Primero, antes de comenzar a instalar cualquier paquete en su servidor Ubuntu, siempre recomendamos asegurarse de que todos los paquetes del sistema estén actualizados.
sudo apt update sudo apt upgrade
Paso 2. Instala Java.
Puede instalar OpenJDK desde los repositorios apt predeterminados:
sudo apt install default-jdk default-jre
Después de instalar con éxito Java en Ubuntu 20.04, confirme la versión con la línea de comandos de Java:
java -version
Paso 3. Cree un usuario de Hadoop.
Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:
sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop
Luego, ejecute el siguiente comando para generar pares de claves públicas y privadas:
ssh-keygen -t rsa
Luego, agregue las claves públicas generadas desde id_rsa.pub
a authorized_keys
y establezca el permiso:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Verifique que puede usar ssh usando la clave agregada:
ssh localhost
Paso 4. Instale Hadoop en el sistema Ubuntu.
Vaya a la página oficial del proyecto Apache Hadoop y seleccione la versión de Hadoop que desea implementar:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz tar -xvzf hadoop-3.3.2.tar.gz mv hadoop-3.3.2 hadoop
A continuación, deberá configurar las variables de entorno Hadoop y Java en el sistema Ubuntu:
nano ~/.bashrc
Agregue las siguientes líneas:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Una vez hecho esto, active las variables de entorno:
source ~/.bashrc
A continuación, abra el archivo de variables de entorno de Hadoop:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
Paso 5. Configure Hadoop.
Ahora crea el namenode
y datanode
directorios dentro del directorio de inicio de Hadoop:
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datanode
Luego, edite el core-site.xml
y actualícelo con el nombre de host de su sistema:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Cambie la siguiente línea:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.tecadmin.com:9000</value> </property></configuration>
Luego, edite el hdfs-site.xml
archivo:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Cambie la siguiente línea:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property></configuration>
Luego, edite el mapred-site.xml
archivo:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Realice los siguientes cambios:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
Una vez, edite el yarn-site.xml
archivo:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Realice los siguientes cambios en el archivo:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
Paso 6. Inicie el clúster de Hadoop.
Ahora ejecute el siguiente comando para formatear el Namenode de Hadoop:
hdfs namenode -format start-dfs.sh
Luego, inicie el servicio YARN usando los siguientes comandos:
start-yarn.sh
Escriba este simple comando para verificar si todos los demonios están activos y ejecutándose como procesos Java:
jps
Paso 7. Configure el cortafuegos.
Ejecute el siguiente comando para permitir las conexiones de Hadoop a través del firewall:
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
Paso 8. Acceso a Hadoop.
Use su navegador preferido y navegue hasta la URL o IP de su servidor local. El número de puerto predeterminado 9870 le da acceso a la interfaz de usuario de Hadoop NameNode:
http://your-ip-address:9870
Eso es todo lo que necesita hacer para instalar Hadoop en Ubuntu 20.04 LTS Focal Fossa. Espero que encuentre útil este consejo rápido. Para obtener más información sobre Apache Hadoop, consulte su base de conocimiento oficial. Si tiene preguntas o sugerencias, no dude en dejar un comentario a continuación.