GNU/Linux >> Tutoriales Linux > >> Cent OS

Cómo instalar y configurar Hive con alta disponibilidad:parte 7

Colmena es un almacén de datos modelo en Hadoop Ecosistema. Puede funcionar como una herramienta ETL además de Hadoop . Habilitar alta disponibilidad (HA) en Hive no es similar a lo que hacemos en Master Services como Namenode y Resource Manager.

La conmutación por error automática no ocurrirá en Hive (Hiveservidor2 ). Si hay Hiveserver2 (HS2 ) falla, ejecutando trabajos en ese HS2 fallido conseguirá fallar. Necesitamos volver a enviar el trabajo para que pueda ejecutarse en otro HiveServer2 . Entonces, habilitar HA en HS2 no es más que aumentar el número de HS2 componentes en Cluster .

En este artículo veremos los pasos para instalar y habilitar la Alta Disponibilidad de Colmena .

Requisitos

Prácticas recomendadas para implementar el servidor Hadoop en CentOS/RHEL 7:parte 1
Configuración de los requisitos previos de Hadoop y fortalecimiento de la seguridad:Parte 2
Cómo instalar y configurar Cloudera Manager en CentOS/RHEL 7:parte 3
Cómo instalar CDH y configurar ubicaciones de servicios en CentOS/RHEL 7:Parte 4
Cómo configurar alta disponibilidad para Namenode - Parte 5
Cómo configurar la alta disponibilidad para Resource Manager:parte 6

Empecemos...

Instalación y configuración de Hive

1. Inicie sesión en Administrador de Cloudera en la siguiente URL y vaya a Cloudera Manager –> Agregar servicio .

http://13.233.129.39:7180/cmf/home

2. Seleccione el servicio 'Hive ‘.

3. Asigne los servicios en los nodos.

Puerta de enlace – Es el servicio de atención al cliente donde el usuario puede acceder al Hive. Por lo general, este servicio se colocará en Edge nodos dedicados a los usuarios.
Metastore de Hive – Es un depósito central para almacenar metadatos de Hive.
Servidor WebHCat – Es una API web para HCatalog y otros servicios de Hadoop.
Hiveservidor2 – Es una interfaz de clientes para la ejecución de consultas en Hive.

Una vez seleccionados los servidores, haga clic en 'Continuar ‘ para proceder.

4. Hive Metastore necesita una base de datos subyacente para almacenar metadatos. Aquí estamos usando el PostgreSQL predeterminado base de datos que está integrada con CDH .

Los detalles de la base de datos mencionados a continuación se ingresarán automáticamente, 'Probar conexión ' se omitirá ya que la base de datos mencionada se creará sobre la marcha. En tiempo real, necesitamos crear la base de datos en la base de datos externa y probar la conexión para continuar. Una vez hecho esto, haga clic en 'Continuar '.

5. Configurar el Hive Warehouse directorio, /usuario/colmena/almacén es la ruta de directorio predeterminada para almacenar tablas de Hive. Haga clic en 'Continuar '.

6. Se inicia la instalación de Hive.

7. Una vez completada la instalación, puede obtener el mensaje 'Terminado ' estado. Haga clic en 'Continuar ' para continuar.

8. La instalación y la configuración de Hive se completaron con éxito. Haga clic en 'Finalizar ‘ para completar el procedimiento de instalación.

9. Puedes ver la Colmena servicio agregado en Cluster a través del panel de administración de Cloudera .

10. Puede ver el Hiveserver2 en Instancias de Colmena . Hemos agregado Hiveserver2 en maestro1 .

Administrador de Cloudera –> Colmena –> Instancias –> Hiveservidor2 .

Habilitación de alta disponibilidad en Hive

11. A continuación, agregue el rol de Hive yendo a Administrador de Cloudera –> Colmena –> Acciones –> Añadir Rol Instancias.

12. Seleccione los servidores en los que desea colocar Hiveserver2 adicional . Puedes añadir más de dos, no hay límite. Aquí estamos agregando uno extra Hiveserver2 en maestro2 .

13. Una vez seleccionado el servidor, haga clic en 'Continuar '.

14. Un Hiverserver2 se agregará a las instancias de Hive , debe iniciarlo yendo a Cloudera Manager –> Colmena –> Instancias –> (Seleccione Hiveserver2 agregado recientemente) –> Acción para seleccionados –> Empezar .

15. Una vez Hiveserver2 comenzó en master2 , obtendrá el estado 'Terminado '. Haz clic en Cerrar .

16. Puede ver, tanto los Hiveserver2s están corriendo.

Verificación de la disponibilidad de Hive

Podemos conectar el Hiveserver2 a través de beeline, que es un cliente ligero y una línea de comandos. Utiliza el controlador JDBC para establecer la conexión.

17. Inicie sesión en el servidor donde Hive Gateway se está ejecutando.

[[email protected] ~]$ beeline

18. Introduzca el JDBC cadena de conexión para conectar el Hiveserver2 . En este sentido, la cadena estamos mencionando el Hiverserver2 (maestro2 ) con su número de puerto predeterminado 10000 . Esta cadena de conexión solo se conectará al Hiveserver2 que se ejecuta en master2 .

beeline> !connect "jdbc:hive2://master1.tecmint.com:10000"

19. Ejecute una consulta de muestra.

0: jdbc:hive2://master1.tecmint.com:10000> show databases;

Esta es la base de datos predeterminada que viene incorporada.

20. Use el siguiente comando para terminar la sesión de Hive.

0: jdbc:hive2://master1.tecmint.com:10000> !quit

21. Puede utilizar la misma forma de conectar Hiveserver2 ejecutándose en master2 .

beeline> !connect "jdbc:hive2://master2.tecmint.com:10000"

23. Podemos conectar el Hiveserver2 en Zookeeper Discovery modo. En este método, no necesitamos mencionar el Hiveserver2 en la cadena de conexión en su lugar estamos usando Zookeeper para descubrir el Hiveserver2 disponible .

Aquí podemos usar un equilibrador de carga de terceros para equilibrar la carga entre los Hiverserver2 disponibles . La siguiente configuración es necesaria para habilitar el Modo de detección de Zookeeper yendo a Administrador de Cloudera –> Colmena –> Configuración .

24. A continuación, busque la propiedad “HiveServer2 Advanced Configuration Snippet ” y haga clic en + símbolo para agregar la siguiente propiedad.

Name : hive.server2.support.dynamic.service.discovery
Value : true
Description : <any description>

25. Una vez ingresada la propiedad, haga clic en 'Guardar cambios '.

26. A medida que realizamos cambios en la configuración, es necesario reiniciar los servicios afectados haciendo clic en el símbolo de color naranja para reiniciar los servicios.

27. Haga clic en 'Reiniciar obsoleto ‘servicios.

28. Hay dos opciones disponibles. Si el clúster está en producción en vivo, debemos preferir el reinicio continuo para minimizar la interrupción. Como estamos recién instalando, podemos elegir la segunda opción 'Volver a implementar la configuración del cliente ' y haga clic en 'Reiniciar ahora '.

29. Una vez que el reinicio se complete con éxito, obtendrá el estado 'Terminado '. Haga clic en 'Finalizar ' para completar el proceso.

30. Ahora conectaremos el Hiveserver2 utilizando Zookeeper Discovery modo. En el JDBC conexión, la cadena que necesitamos para usar el Zookeeper servidores con su número de puerto 2081 . Recopile los servidores de Zookeeper yendo a Cloudera Manager –> Guardián del zoológico –> Instancias –> (Anote los nombres de los servidores).

Estos son los tres servidores que tienen Zookeeper, 2181 es el número de puerto.

master1.tecmint.com:2181
master2.tecmint.com:2181
worker1.tecmint.com:2181

31. Ahora ve a beeline .

[[email protected] ~]$ beeline

32. Introduzca el JDBC cadena de conexión como se menciona a continuación. Tenemos que mencionar el Modo de descubrimiento de servicios y Espacio de nombres de Zookeeper . 'servidor de colmena2 ' es el espacio de nombres predeterminado de Hiveserver2.

beeline>!connect "jdbc:hive2://master1.tecmint.com:2181,master2.tecmint.com:2181,worker1.tecmint.com:2181/;serviceDiscoveryMode=zookeeper;zookeeperNamespace=hiveserver2"

33. Ahora la sesión está conectada a Hiveserver2 ejecutándose en maestro1 . Ejecute una consulta de muestra para validar. Use el siguiente comando para crear una base de datos.

0: jdbc:hive2://master1.tecmint.com:2181,mast> create database tecmint;

34. Use el siguiente comando para listar la base de datos.

0: jdbc:hive2://master1.tecmint.com:2181,mast> show databases;

35. Ahora validaremos la Alta Disponibilidad en Modo Zookeeper Discovery . Vaya a Administrador de Cloudera y detener el Hiveserver2 en maestro1 que hemos probado anteriormente.

Administrador de Cloudera –> Colmena –> Instancias –> (seleccione Hiveserver2 en maestro1 ) –> Acción para seleccionados –> Parar .

36. Haga clic en 'Detener '. Una vez detenido, obtendrá el estado 'Terminado '. Verificar el Hiveserver2 en maestro1 navegando a Hive –> Instancias .

37. Entra en línea recta y conecte el Hiveserver2 usando el mismo JDBC cadena de conexión con Modo de descubrimiento de Zookeeper como hicimos en los pasos anteriores.

[[email protected] ~]$ beeline

beeline>!connect "jdbc:hive2://master1.tecmint.com:2181,master2.tecmint.com:2181,worker1.tecmint.com:2181/;serviceDiscoveryMode=zookeeper;zookeeperNamespace=hiveserver2"

Ahora estará conectado a Hiveserver2 ejecutándose en master2 .

38. Valide con una consulta de muestra.

0: jdbc:hive2://master1.tecmint.com:2181,mast> show databases;

Conclusión

En este artículo, hemos seguido los pasos detallados para tener el almacén de datos de Hive modelo en nuestro Cluster con alta disponibilidad . En un entorno de producción en tiempo real, más de tres Hiveserver2 se colocará con Modo de descubrimiento de Zookeeper activado.

Aquí, todos los Hiveserver2 se están registrando en Zookeeper bajo un espacio de nombres común . Zookeeper dinámicamente descubre el Hiveserver2 disponible y establece la sesión de Hive.

¿Qué es la gestión de la automatización y la configuración con CHEF? Parte 1

Cómo configurar la alta disponibilidad para Resource Manager - Parte 6

Cent OS

Cómo instalar OwnCloud 8 con Nginx y MariaDB en CentOS 7

Cómo instalar y configurar OpenLiteSpeed con PHP 7 en CentOS 7

Cómo instalar y configurar GitLab CE en CentOS 8

Cómo instalar y configurar Nagios 4.0.7 en CentOS 7

Cómo instalar y configurar ISPConfig CP en CentOS 7

Cómo instalar y configurar ownCloud en CentOS 7