GNU/Linux >> Tutoriales Linux >  >> Debian

Cómo instalar Apache Hadoop en Debian 11

En este tutorial, le mostraremos cómo instalar Apache Hadoop en Debian 11. Para aquellos que no lo sabían, Apache Hadoop es una plataforma de software de código abierto basada en Java. que administra el procesamiento y el almacenamiento de datos para aplicaciones de macrodatos. Está diseñado para escalar de servidores únicos a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo ' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Hadoop en un Debian 11 (Bullseye).

Requisitos previos

  • Un servidor que ejecute uno de los siguientes sistemas operativos:Debian 11 (Bullseye).
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Acceso SSH al servidor (o simplemente abra Terminal si está en una computadora de escritorio).
  • Un non-root sudo user o acceder al root user . Recomendamos actuar como un non-root sudo user , sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.

Instalar Apache Hadoop en Debian 11 Bullseye

Paso 1. Antes de instalar cualquier software, es importante asegurarse de que su sistema esté actualizado ejecutando el siguiente apt comandos en la terminal:

sudo apt update
sudo apt upgrade

Paso 2. Instalación de Java.

Apache Hadoop es una aplicación basada en Java. Por lo tanto, deberá instalar Java en su sistema:

sudo apt install default-jdk default-jre

Verifique la instalación de Java:

java -version

Paso 3. Creación de un usuario de Hadoop.

Ejecute el siguiente comando para crear un nuevo usuario con el nombre Hadoop:

adduser hadoop

Luego, cambie al usuario de Hadoop una vez que se haya creado el usuario:

su - hadoop

Ahora es el momento de generar una clave ssh porque Hadoop requiere acceso ssh para administrar su nodo, máquina remota o local, por lo que para nuestro nodo único de la configuración de Hadoop configuramos es tal que tenemos acceso al localhost:

ssh-keygen -t rsa

Después de eso, otorgue permiso al archivo authorized_keys:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Luego, verifique la conexión SSH sin contraseña con el siguiente comando:

ssh your-server-IP-address

Paso 4. Instalación de Apache Hadoop en Debian 11.

Primero, cambie a usuario de Hadoop y descargue la última versión de Hadoop desde la página oficial usando el siguiente wget comando:

su - hadoop
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

Luego, extraiga el archivo descargado con el siguiente comando:

tar -xvzf hadoop-3.3.1.tar.gz

Una vez desempaquetado, cambie el directorio actual a la carpeta Hadoop:

su root
cd /home/hadoop
mv hadoop-3.3.1 /usr/local/hadoop

Luego, cree un directorio para almacenar registros con el siguiente comando:

mkdir /usr/local/hadoop/logs

Cambiar la propiedad del directorio de Hadoop a Hadoop:

chown -R hadoop:hadoop /usr/local/hadoop
su hadoop

Después de eso, configuramos las variables de entorno de Hadoop:

nano ~/.bashrc

Agregue la siguiente configuración:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Guarde y cierre el archivo. Luego, active las variables de entorno:

source ~/.bashrc

Paso 5. Configure Apache Hadoop.

  • Configurar variables de entorno Java:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Agregue la siguiente configuración:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Luego, necesitamos descargar el archivo de activación de Javax:

cd /usr/local/hadoop/lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

Verifique la versión de Apache Hadoop:

hadoop version

Salida:

Hadoop 3.3.1
  • Configure el archivo core-site.xml:
nano $HADOOP_HOME/etc/hadoop/core-site.xml

Agregue el siguiente archivo:

<configuration>
 <property>
            <name>fs.default.name</name>
        <value>hdfs://0.0.0.0:9000</value>
        <description>The default file system URI</description>
 </property>
</configuration>
  • Configurar archivo hdfs-site.xml:

Antes de configurar, cree un directorio para almacenar los metadatos del nodo:

mkdir -p /home/hadoop/hdfs/{namenode,datanode}
chown -R hadoop:hadoop /home/hadoop/hdfs

Luego, edite el hdfs-site.xml archivo y defina la ubicación del directorio:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Agregue la siguiente línea:

<configuration>
     <property>
            <name>dfs.replication</name>
        <value>1</value>
     </property>

     <property>
        <name>dfs.name.dir</name>
        <value>file:///home/hadoop/hdfs/namenode</value>
     </property>

     <property>
        <name>dfs.data.dir</name>
        <value>file:///home/hadoop/hdfs/datanode</value>
     </property>
</configuration>
  • Configurar archivo mapred-site.xml:

Ahora editamos el mapred-site.xml archivo:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Agregue la siguiente configuración:

<configuration>
 <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
 </property>
</configuration>
  • Configurar el archivo yarn-site.xml:

Debería editar el yarn-site.xml archivo y definir la configuración relacionada con YARN:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Agregue la siguiente configuración:

<configuration>
 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
 </property>
</configuration>
  • Dar formato a NameNode de HDFS.

Ejecute el siguiente comando para formatear el Namenode de Hadoop:

hdfs namenode -format
  • Inicie el clúster de Hadoop.

Ahora iniciamos NameNode y DataNode con el siguiente comando a continuación:

start-dfs.sh

A continuación, inicie los administradores de recursos y nodos de YARN:

start-yarn.sh

Ahora puede verificarlos con el siguiente comando:

jps

Salida:

[email protected]:~$ jps
58000 NameNode
54697 DataNode
55365 ResourceManager
55083 SecondaryNameNode
58556 Jps
55365 NodeManager

Paso 6. Acceso a la interfaz web de Hadoop.

Una vez instalado correctamente, abra su navegador web y acceda a Apache Hadoop usando la URL http://your-server-ip-address:9870 . Será redirigido a la interfaz web de Hadoop:

Navegue por la URL o IP de su host local para acceder a DataNodes individuales:http://your-server-ip-address:9864

Para acceder al Administrador de recursos de YARN, use la URL http://your-server-ip-adddress:8088 . Debería ver la siguiente pantalla:

¡Felicitaciones! Ha instalado Hadoop con éxito. Gracias por usar este tutorial para instalar la última versión de Apache Hadoop en Debian 11 Bullseye. Para obtener ayuda adicional o información útil, le recomendamos que consulte el Apache oficial sitio web.


Debian
  1. Cómo instalar Apache Maven en Debian 10

  2. Cómo instalar Apache Maven en Debian 11

  3. Cómo instalar Apache Cassandra en Debian 11 / Debian 10

  4. Cómo instalar Apache Hadoop en Debian 9 Stretch

  5. Cómo instalar Hadoop en Debian 11

Cómo instalar Apache Tomcat en Debian 11

Cómo instalar Apache NetBeans en Debian 11 / Debian 10

Cómo instalar Apache Subversion en Debian 9

Cómo instalar Apache Kafka en Debian 9

Cómo instalar Apache Cassandra en Debian 10

Cómo instalar Apache Groovy en Debian 10