Introducción
La estrella y copo de nieve esquema son diseños de almacenamiento lógico que se encuentran comúnmente en data marts y arquitectura de almacenamiento de datos. Mientras que los tipos de bases de datos comunes usan diagramas ER (Entidad-Relación), la estructura lógica de los almacenes usa modelos dimensionales para conceptualizar el sistema de almacenamiento.
Siga leyendo para descubrir las diferencias, características y defectos de los esquemas de estrella y copo de nieve.
Esquema de estrella frente a esquema de copo de nieve:la principal diferencia
Los dos elementos principales del modelo dimensional del esquema de estrella y copo de nieve son:
1. Tabla de hechos . Una tabla con la mayor cantidad de datos, también conocida como cubo .
2. Tablas de dimensiones . La estructura de datos derivada proporciona respuestas a consultas o dimensiones ad hoc, a menudo denominadas tablas de búsqueda. .
Conexión de las dimensiones elegidas en una tabla de hechos forma el esquema. Tanto el esquema de estrella como el de copo de nieve hacen uso de la dimensionalidad de los datos para modelar el sistema de almacenamiento.
Las principales diferencias entre los dos esquemas son:
| Esquema de estrella | Esquema de copo de nieve |
Elementos | Tabla de hechos Tablas de dimensiones | Tabla de hechos Tablas de dimensiones Tablas de subdimensiones |
Estructura | En forma de estrella | En forma de copo de nieve |
Dimensiones | Una tabla por dimensión | Múltiples tablas para cada dimensión |
Dirección del modelo | De arriba hacia abajo | De abajo hacia arriba |
Espacio de almacenamiento | Utiliza más almacenamiento | Usa menos espacio |
Normalización | Tablas de dimensiones desnormalizadas | Tablas de dimensiones normalizadas |
Rendimiento de consultas | Rápido, se necesitan menos JOIN debido a la menor cantidad de claves externas | Lento, se requieren más JOIN debido a más claves foráneas |
Complejidad de consultas | Simple y más fácil de entender | Complicado y más difícil de entender |
Redundancia de datos | Alto | Bajo |
Caso de uso | Tablas de dimensiones con varias filas, típicas con data marts | Tablas de dimensiones con múltiples filas encontradas con almacenes de datos |
Debido a la complejidad del esquema de copo de nieve y los rendimientos más bajos, el esquema de estrella es la opción preferida siempre que sea posible. Una forma habitual de sortear los problemas del esquema de copo de nieve es descomponer el almacenamiento dedicado en varias entidades más pequeñas con un esquema de estrella.
¿Qué es un esquema en estrella?
Un esquema en estrella es una estructura lógica para el desarrollo de data marts y almacenes de datos más simples. El modelo simple consta de tablas de dimensiones conectadas a una tabla de hechos en el centro.
La tabla de hechos normalmente consta de:
- Datos numéricos cuantificables, como valores o recuentos.
- Referencias a las dimensiones a través de claves foráneas.
Las tablas de búsqueda representan información descriptiva conectada directamente a la tabla de hechos.
Por ejemplo, para modelar las ventas de un negocio de comercio electrónico, la tabla de hechos para compras puede contener el precio total de la compra. Por otro lado, las tablas dimensionales tienen información descriptiva sobre los artículos, los datos del cliente, la hora o el lugar de compra.
El esquema en estrella para el análisis de compras en el ejemplo tiene cuatro dimensiones. La tabla de hechos se conecta a las tablas dimensionales a través del concepto de claves primarias y externas. Aparte de los datos numéricos, la tabla de hechos también consta de claves foráneas para definir relaciones entre tablas.
Características de un esquema en estrella
Las principales características del esquema en estrella son:
- Consultas simplificadas y rápidas . Menos operaciones JOIN debido a la desnormalización hacen que la información esté más disponible.
- Relaciones simples. El esquema funciona muy bien con relaciones de uno a uno o de uno a muchos.
- Dimensionalidad singular . Una tabla describe cada dimensión.
- compatible con OLAP . Los sistemas OLAP utilizan ampliamente el esquema en estrella para diseñar cubos de datos.
Inconvenientes de un esquema en estrella
Las desventajas de usar el esquema de estrella son:
- Redundancia . Las tablas dimensionales son unidimensionales y existe redundancia de datos.
- Baja integridad . Debido a la desnormalización, actualizar la información es una tarea compleja.
- Consultas limitadas . El conjunto de preguntas es limitado, lo que también reduce el poder analítico.
¿Qué es un esquema de copo de nieve?
El esquema de copo de nieve tiene una estructura lógica bifurcada que se utiliza en grandes almacenes de datos. Desde el centro hasta los bordes, la información de la entidad va de lo general a lo más específico.
Aparte de los elementos comunes del modelo dimensional, el esquema de copo de nieve descompone aún más las tablas dimensionales en subdimensiones.
El modelo de análisis de ventas de comercio electrónico del ejemplo anterior se bifurca ("copos de nieve") en categorías más pequeñas y subcategorías de interés.
Las cuatro dimensiones se descomponen en subdimensiones. Las tablas de búsqueda se normalizan aún más a través de una serie de objetos conectados.
Características de un esquema de copo de nieve
Las características principales del esquema de copo de nieve incluyen:
- Almacenamiento pequeño . El esquema de copo de nieve no requiere tanto espacio de almacenamiento.
- Alta granularidad . Dividir las tablas en subdimensiones permite el análisis en varias profundidades de interés. Agregar nuevas subdimensiones también es un proceso simple.
- Integridad . Debido a la normalización, el esquema tiene un mayor nivel de integridad de datos y bajas redundancias.
Inconvenientes de un esquema de copo de nieve
Las debilidades del esquema del copo de nieve son:
- Complejidad . El modelo de base de datos es complejo, al igual que las consultas ejecutadas. Múltiples tablas multidimensionales hacen que el diseño sea complicado de trabajar en general.
- Procesamiento lento . Muchas tablas de búsqueda requieren múltiples operaciones JOIN, lo que ralentiza la recuperación de información.
- Difícil de mantener . Un alto nivel de granularidad hace que el esquema sea difícil de administrar y mantener.