GNU/Linux >> Tutoriales Linux >  >> Linux

Cómo instalar la base de datos de análisis en tiempo real de Apache Druid en distribuciones de Linux basadas en Ubuntu

Si está buscando una plataforma de análisis de datos en tiempo real, Jack Wallen cree que Apache Druid es difícil de superar. Descubra cómo poner en marcha esta herramienta y luego cómo cargar datos de muestra.

Apache Druid es una base de datos de análisis en tiempo real que se diseñó para generar análisis rápidos de corte y dados en conjuntos masivos de datos. Puede ejecutar fácilmente Apache Druid desde una versión de escritorio de Linux, o un servidor Linux con una GUI, y luego cargar datos para comenzar a analizar.

Apache Druid incluye funciones como:

  • Almacenamiento orientado a columnas
  • Índices de búsqueda nativos
  • Streaming e ingesta por lotes
  • Esquemas flexibles
  • particionamiento con tiempo optimizado
  • Compatibilidad con SQL
  • Escalabilidad horizontal
  • Fácil operación

Apache Druid es una gran opción para casos de uso que requieren ingesta en tiempo real, consultas rápidas y tiempo de actividad elevado.

Lo guiaré a través del proceso de ejecución de Apache Druid en Pop!_OS Linux (aunque se puede ejecutar en cualquier distribución de Linux) y luego le mostraré cómo cargar datos de muestra.

Lo que necesitarás

Lo único que necesitará para que esto funcione es una instancia en ejecución de Linux completa con un entorno de escritorio y un usuario con privilegios sudo.

Eso es todo. Hagamos un poco de magia con la base de datos.

Cómo instalar Java 8

Por el momento, Apache Druid solo es compatible con Java 8, por lo que debemos asegurarnos de que esté instalado y configurado como predeterminado. Para instalar Java 8 en una distribución de escritorio basada en Ubuntu, inicie sesión en la máquina, abra una ventana de terminal y emita el comando:

sudo apt install openjdk-8-jdk -y

Una vez completada la instalación, debe configurar Java 8 como predeterminado. Haz esto con el comando:

sudo update-alternatives --config java

Debería ver una lista de todas las versiones de Java que están actualmente instaladas en la máquina. Asegúrese de seleccionar el número que corresponde a Java 8.

Una palabra sobre los servicios Apache Druid

Lo que vamos a lanzar es una microinstancia de Apache Druid, que requiere 4 CPU y 16 GB de RAM. Hay 6 configuraciones de servicio diferentes para Apache Druid, que son:

  • Inicio rápido nano:1 CPU, 4 GB de RAM
  • Micro-inicio rápido:4 CPU, 16 GB de RAM
  • Pequeño:8 CPU, 64 GB de RAM
  • Medio:16 CPU, 128 GB de RAM
  • Grande:32 CPU, 256 GB de RAM
  • Extra grande:64 CPU, 512 GB de RAM

Dependiendo del tamaño de sus datos y necesidades. Cuando ingresa a grandes cantidades de datos, se recomienda que Apache Druid se implemente como un clúster. Sin embargo, dado que acabamos de presentarnos a Apache Druid, la instancia micro estará bien.

Cobertura de lectura obligada para desarrolladores

Cómo descargar y descomprimir Apache Druid

Con Java instalado, es hora de descargar y descomprimir Apache Druid. De vuelta en la ventana de la terminal, descargue la última versión (asegúrese de consultar la página de descarga de Apache Druid para verificar que esta es la última versión) con el comando:

wget https://dlcdn.apache.org/druid/0.22.1/apache-druid-0.22.1-bin.tar.gz

Descomprima el archivo descargado con:

tar xvfz apache-druid-0.22.1-bin.tar.gz

Cambie al directorio recién creado con:

cd apache-druid-0.22.1

Inicie el servicio con:

./bin/start-micro-quickstart

El servicio Apache Druid debería iniciarse sin problemas. Tenga en cuenta que no recuperará su terminal mientras el servicio se ejecuta hasta que lo cancele con CTRL + C.

Cómo acceder a la consola de Apache Druid

En la misma máquina que ejecuta Apache Druid, abra un navegador web y diríjalo a http://localhost:8888 . Desafortunadamente, Apache Druid está configurado de tal manera que no puede acceder a él desde una máquina remota, razón por la cual lo instalamos en una máquina de escritorio.

La consola de Apache Druid le dará la bienvenida (Figura A ).

Figura A

Cómo cargar datos

Vamos a cargar una muestra predefinida de datos, que se encuentra en el directorio de inicio rápido/tutorial/. La muestra se llama wikiticker-2015-09-12-sampled.json.gz.

Figura B

Haga clic en Conectar datos (en el lado derecho de la ventana) y luego, en la barra lateral resultante (Figura C ), escriba quickstart/tutorial como directorio base y wikiticker-2015-09-12-sampled.json.gz en la sección Filtro de archivos.

Figura C

Haga clic en Aplicar y debería ver aparecer una gran cantidad de datos en la ventana principal (Figura D ).

Figura D

Haga clic en Siguiente:Analizar datos en la parte inferior derecha y se le presentará una lista de los datos en un formato más legible (Figura E ).

Figura E

Haga clic en Siguiente:Tiempo de análisis y podrá ver los datos contra marcas de tiempo particulares (Figura F ).

Figura F

Haga clic en Siguiente:Transformar y podrá realizar transformaciones por fila de los valores de columna para crear nuevas columnas o modificar las que ya existen.

Siga haciendo clic en los datos y, en cualquier momento, puede ejecutar consultas y filtrar datos según sea necesario. En la sección Configurar Esquema (Figura G ), incluso puede especificar la granularidad de sus consultas y agregar dimensiones y métricas.

Figura G

Y eso es más o menos lo básico de Apache Druid. Aunque solo hemos examinado la superficie de lo que puede hacer esta poderosa plataforma de análisis de datos, debería poder tener una idea bastante clara de cómo funciona jugando con los datos de muestra.

Cuando haya terminado de trabajar, asegúrese de volver a la ventana de la terminal y detenga el servicio Apache Druid con CTRL + C.


Linux
  1. Cómo instalar la herramienta de administración de base de datos MySQL Adminer en Alma Linux 8

  2. Cómo instalar el servidor web Apache en Ubuntu

  3. Cómo instalar Apache Kafka en Rocky Linux 8

  4. Cómo instalar Apache Cassandra en Oracle Linux 8

  5. Cómo instalar Apache Maven en Oracle Linux 8

Cómo instalar la base de datos PostgreSQL y pgAdmin en Linux

Cómo instalar la base de datos Apache Cassandra NoSQL en AlmaLinux 8

Cómo instalar Apache en Arch Linux

Cómo instalar Apache Solr en Oracle Linux 8

Cómo instalar Apache Cassandra Cluster en Linux

Cómo instalar (.NET Core) Dotnet Core en distribuciones de Linux