GNU/Linux >> Tutoriales Linux > >> Ubuntu

Cómo instalar Apache Hadoop en Ubuntu 14.04

En este tutorial, le mostraremos cómo instalar Apache Hadoop en Ubuntu 14.04. Para aquellos que no lo sabían, Apache Hadoop es un marco de software de código abierto escrito en Java para almacenamiento distribuido y procesos de distribución, maneja un tamaño muy grande de conjuntos de datos distribuyéndolos a través de clústeres de computadoras. servicio de alta disponibilidad sobre un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.

Este artículo asume que tiene al menos conocimientos básicos de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y asume que se están ejecutando en la cuenta raíz, si no, es posible que deba agregar 'sudo ' a los comandos para obtener privilegios de root. Le mostraré la instalación paso a paso de Apache Hadoop en Ubuntu 14.04. Puede seguir las mismas instrucciones para cualquier otra distribución basada en Debian como Linux Mint.

Requisitos previos

Un servidor que ejecuta uno de los siguientes sistemas operativos:Ubuntu 14.04.
Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
Acceso SSH al servidor (o simplemente abra Terminal si está en una computadora de escritorio).
Un non-root sudo user o acceder al root user . Recomendamos actuar como un non-root sudo user , sin embargo, puede dañar su sistema si no tiene cuidado al actuar como root.

Instalar Apache Hadoop en Ubuntu 14.04

Paso 1. Instalar Java (OpenJDK).

Dado que Hadoop se basa en Java, asegúrese de tener Java JDK instalado en el sistema. Si no tiene Java instalado en su sistema, use el siguiente enlace para instalarlo primero.

Instalar Java JDK 8 en Ubuntu 14.04

[email protected] ~# java -version
java version "1.8.0_45"
Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)

Paso 2. Deshabilitar IPv6.

Hasta ahora, Hadoop no es compatible con IPv6 y está probado para funcionar solo en redes IPv4. Si usa IPv6, debe cambiar las máquinas host de Hadoop para usar IPv4 :

nano /etc/sysctl.conf

Agregue estas 3 líneas al final del archivo:

#disable ipv6; 
net.ipv6.conf.all.disable_ipv6 = 1 
net.ipv6.conf.default.disable_ipv6 = 1 
net.ipv6.conf.lo.disable_ipv6 = 1

Paso 3. Instale Apache Hadoop.

Para evitar problemas de seguridad, recomendamos configurar un nuevo grupo de usuarios de Hadoop y una cuenta de usuario para manejar todas las actividades relacionadas con Hadoop, siguiendo el comando:

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Después de crear un usuario, también se requiere configurar ssh basado en clave para su propia cuenta. Para hacer esto, use los siguientes comandos:

su - hadoopuser
ssh-keygen -t rsa -P ""
cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys
chmod 600 authorized_keys
ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1
ssh slave-1

Descargue la última versión estable de Apache Hadoop, al momento de escribir este artículo es la versión 2.7.0:

wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz
tar xzf hadoop-2.7.0.tar.gz
mv hadoop-2.7.0 hadoop

Paso 4. Configurar Apache Hadoop.

Configure las variables de entorno de Hadoop. Edite ~/.bashrc archivo y agregue los siguientes valores al final del archivo:

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Aplicar variables ambientales a la sesión actualmente en ejecución:

source ~/.bashrc

Ahora edite $HADOOP_HOME/etc/hadoop/hadoop-env.sh archivo y establezca la variable de entorno JAVA_HOME:

export JAVA_HOME=/usr/jdk1.8.0_45/

Hadoop tiene muchos archivos de configuración, que deben configurarse según los requisitos de su infraestructura de Hadoop. Comencemos con la configuración básica del clúster de nodo único de Hadoop:

cd $HADOOP_HOME/etc/hadoop

Editar core-site.xml :

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Editar hdfs-site.xml :

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Editar mapred-site.xml :

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Editar yarn-site.xml :

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Ahora formatee namenode usando el siguiente comando, no olvide verificar el directorio de almacenamiento:

hdfs namenode -format

Inicie todos los servicios de Hadoop usando el siguiente comando:

cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh

Debe observar la salida para asegurarse de que intenta iniciar el nodo de datos en los nodos esclavos uno por uno. Para verificar si todos los servicios se iniciaron correctamente, use 'jps ‘ comando:

jps

Paso 5. Acceso a Apache Hadoop.

Apache Hadoop estará disponible en el puerto HTTP 8088 y el puerto 50070 de forma predeterminada. Abra su navegador favorito y vaya a http://your-domain.com:50070 o http://server-ip:50070 . Si está utilizando un firewall, abra los puertos 8088 y 50070 para habilitar el acceso al panel de control.

Explore la interfaz web de ResourceManager de forma predeterminada, está disponible en http://your-domain.com:8088 o http://server-ip:8088 :

¡Felicitaciones! Ha instalado Apache Hadoop con éxito. Gracias por usar este tutorial para instalar Apache Hadoop en el sistema Ubuntu 14.04. Para obtener ayuda adicional o información útil, le recomendamos que consulte el sitio web oficial de Apache Hadoop.

Cómo instalar Drupal en Ubuntu 14.04

Cómo instalar Sandstorm en Ubuntu 14.04

Ubuntu

Cómo instalar Apache Tomcat 8 en Ubuntu 16.04

Cómo instalar Java en Ubuntu 18.04

Cómo instalar Apache en Ubuntu 20.04

¿Cómo instalar Java en Ubuntu 18.04?

Cómo instalar Hadoop en Ubuntu 18.04 Bionic Beaver

Cómo instalar Java en Ubuntu 22.04