GNU/Linux >> Tutoriales Linux >  >> Cent OS

Cómo instalar Hadoop Single Node Cluster (Pseudonode) en CentOS 7

Hadoop es un marco de código abierto que se usa ampliamente para manejar Bigdata . La mayoría de los Bigdata/Análisis de datos los proyectos se están construyendo sobre el Ecosistema Hadoop . Consta de dos capas, una es para almacenamiento de datos y otro es para Procesamiento de datos .

Almacenamiento será atendido por su propio sistema de archivos llamado HDFS (Sistema de archivos distribuido Hadoop ) y Procesamiento será atendido por YARN (Otro negociador de recursos más ). Mapreducir es el motor de procesamiento predeterminado del ecosistema Hadoop .

Este artículo describe el proceso para instalar el pseudonodo instalación de Hadoop , donde todos los demonios (JVM ) ejecutará nodo único Clúster en CentOS 7 .

Esto es principalmente para que los principiantes aprendan Hadoop. En tiempo real, Hadoop se instalará como un clúster multinodo donde los datos se distribuirán entre los servidores como bloques y el trabajo se ejecutará de manera paralela.

Requisitos

  • Una instalación mínima del servidor CentOS 7.
  • Lanzamiento de Java v1.8.
  • Lanzamiento estable de Hadoop 2.x.

En esta página

  • Cómo instalar Java en CentOS 7
  • Configurar inicio de sesión sin contraseña en CentOS 7
  • Cómo instalar Hadoop Single Node en CentOS 7
  • Cómo configurar Hadoop en CentOS 7
  • Formateo del sistema de archivos HDFS a través de NameNode

Instalación de Java en CentOS 7

1. Hadoop es un Eco-Sistema que se compone de Java . Necesitamos Java instalado en nuestro sistema obligatoriamente para instalar Hadoop .

# yum install java-1.8.0-openjdk

2. A continuación, verifique la versión instalada de Java en el sistema.

# java -version

Configurar inicio de sesión sin contraseña en CentOS 7

Necesitamos tener ssh configurado en nuestra máquina, Hadoop administrará los nodos con el uso de SSH . El nodo maestro usa SSH conexión para conectar sus nodos esclavos y realizar operaciones como iniciar y detener.

Necesitamos configurar ssh sin contraseña para que el maestro pueda comunicarse con los esclavos usando ssh sin contraseña. De lo contrario, para cada establecimiento de conexión, debe ingresar la contraseña.

3. Configure un inicio de sesión SSH sin contraseña usando los siguientes comandos en el servidor.

# ssh-keygen
# ssh-copy-id -i localhost

4. Después de configurar el inicio de sesión SSH sin contraseña, intente iniciar sesión nuevamente, se conectará sin contraseña.

# ssh localhost

Instalación de Hadoop en CentOS 7

5. Vaya al sitio web de Apache Hadoop y descargue la versión estable de Hadoop con el siguiente comando wget.

# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
# tar xvpzf hadoop-2.10.1.tar.gz

6. A continuación, agregue el Hadoop variables de entorno en ~/.bashrc archivo como se muestra.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Después de agregar variables de entorno a ~/.bashrc el archivo, obtenga el archivo y verifique Hadoop ejecutando los siguientes comandos.

# source ~/.bashrc
# cd $HADOOP_PREFIX
# bin/hadoop version

Configuración de Hadoop en CentOS 7

Necesitamos configurar los archivos de configuración de Hadoop a continuación para que se ajusten a su máquina. En Hadoop, cada servicio tiene su propio número de puerto y su propio directorio para almacenar los datos.

  • Archivos de configuración de Hadoop:core-site.xml, hdfs-site.xml, mapred-site.xml y yarn-site.xml

8. Primero, necesitamos actualizar JAVA_HOME y Hadoop ruta en hadoop-env.sh archivo como se muestra.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hadoop-env.sh

Introduzca la siguiente línea al principio del archivo.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. A continuación, modifique el core-site.xml archivo.

# cd $HADOOP_PREFIX/etc/hadoop
# vi core-site.xml

Pegar lo siguiente entre <configuration> etiquetas como se muestra.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Cree los siguientes directorios en tecmint directorio de inicio del usuario, que se utilizará para NN y DN almacenamiento.

# mkdir -p /home/tecmint/hdata/
# mkdir -p /home/tecmint/hdata/data
# mkdir -p /home/tecmint/hdata/name

10. A continuación, modifique el hdfs-site.xml archivo.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hdfs-site.xml

Pegar lo siguiente entre <configuration> etiquetas como se muestra.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Nuevamente, modifique el mapred-site.xml archivo.

# cd $HADOOP_PREFIX/etc/hadoop
# cp mapred-site.xml.template mapred-site.xml
# vi mapred-site.xml

Pegar lo siguiente entre <configuration> etiquetas como se muestra.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Por último, modifica el yarn-site.xml archivo.

# cd $HADOOP_PREFIX/etc/hadoop
# vi yarn-site.xml

Pegar lo siguiente entre <configuration> etiquetas como se muestra.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

Formateo del sistema de archivos HDFS a través de NameNode

13. Antes de iniciar el Cluster , necesitamos formatear el Hadoop NN en nuestro sistema local donde ha sido instalado. Por lo general, se realizará en la etapa inicial antes de iniciar el clúster por primera vez.

Formateando el NN provocará la pérdida de datos en el metastore de NN, por lo que debemos ser más cautelosos, no debemos formatear NN mientras el clúster se está ejecutando, a menos que se requiera intencionalmente.

# cd $HADOOP_PREFIX
# bin/hadoop namenode -format

14. Iniciar NombreNodo demonio y DataNode demonio:(puerto 50070 ).

# cd $HADOOP_PREFIX
# sbin/start-dfs.sh

15. Iniciar Administrador de recursos demonio y NodeManager demonio:(puerto 8088 ).

# sbin/start-yarn.sh

16. Para detener todos los servicios.

# sbin/stop-dfs.sh
# sbin/stop-dfs.sh
Resumen

Resumen
En este artículo, hemos repasado el proceso paso a paso para configurar Pseudonode Hadoop (Nodo único ) Clúster . Si tiene conocimientos básicos de Linux y sigue estos pasos, el clúster se activará en 40 minutos.

Esto puede ser muy útil para que el principiante comience a aprender y practicar Hadoop o esta versión vainilla de Hadoop se puede utilizar para fines de desarrollo. Si queremos tener un clúster en tiempo real, necesitamos al menos 3 servidores físicos disponibles o tenemos que aprovisionar la nube para tener varios servidores.


Cent OS
  1. Cómo instalar un clúster de Kubernetes en CentOS 7

  2. Cómo instalar Node.js y NPM en CentOS 7

  3. Cómo instalar Node.js y NPM en CentOS

  4. Cómo instalar Apache Hadoop en CentOS 7

  5. Cómo instalar Apache Hadoop en CentOS 8

Cómo instalar Apache Hadoop en RHEL 8 (clúster de nodo único)

Cómo instalar Node.js en CentOS 7 / RHEL 7

Cómo instalar Node.js en CentOS 8

Cómo instalar Node.js en CentOS 7

Cómo instalar Node.js en CentOS Stream 9

Cómo instalar el clúster de Kubernetes en CentOS 8