Almacenamiento de datos de forma incorrecta

Si las canalizaciones y flujos de datos son el futuro, ¿por qué seguimos pensando en los datos como estáticos?

Matt Asay
10 MAY 2022

Durante algún tiempo pareció obvio que, como industria, hemos estado tratando de meter herramientas cuadradas de almacenamiento de datos en agujeros redondos de aplicaciones basadas en datos. Pero no fue hasta que leí la excelente publicación del CEO de Decodeable, Eric Sammer, Estamos abusando del almacén de datos: RETL, ELT y otras cosas raras, que entendí por qué y qué daño estábamos causando en el proceso. Como escribe Sammer, "poner sistemas de bases de datos analíticos caros en el camino correcto introduce anti-patrones de pantalones en la cabeza para la compatibilidad y las operaciones".

En caso de que te lo estés preguntando, "los anti-patrones de pantalones en la cabeza" son en realidad un grito angustiado de "¡alguien por favor detenga esta locura!"

Complicando el problema de los datos

Pregunte a las empresas cómo se sienten acerca de sus almacenes de datos y un alto porcentaje (el 83 % en esta encuesta) expresa su insatisfacción. Luchan para cargar datos. Tienen datos no estructurados pero el almacén de datos no puede manejarlos, etc. Sin embargo, estos no son necesariamente problemas con el almacén de datos. Me arriesgaría a suponer que, por lo general, la insatisfacción surge al tratar de obligar al almacén de datos (o la base de datos analítica, si lo prefiere) a hacer algo para lo que no es adecuado.

Aquí hay una forma en que comienza el error, según Sammer:

A estas alturas, todo el mundo ha visto la tendencia rETL (ETL inverso): desea utilizar los datos de la aplicación n.º 1 (por ejemplo, Salesforce) para enriquecer los datos de la aplicación n.º 2 (Marketo, por ejemplo). Debido a que la mayoría de las tiendas ya están enviando datos desde la aplicación n.º 1 al almacén de datos con una herramienta ELT como Fivetran, muchas personas tomaron lo que creen que era un atajo, hicieron la transformación en el almacén de datos y luego usaron una herramienta rETL para sacar los datos del almacén y en la aplicación #2.

Las empresas de almacenes de datos y data lakes de alto precio, ELT y rETL estaban felices de ayudar a los usuarios a implementar lo que parecía una forma pragmática de unir aplicaciones, incluso a un costo y una complejidad considerables.

¿Y por qué no lo harían? “El almacén de datos en la nube es probablemente el ciclo de CPU más caro disponible”, dice Sammer. La topología del almacén de datos termina multiplicando los datos (creando problemas de gobernanza, entre otros), pero tiene la ventaja de ser conveniente. Los almacenes de datos son convenientes en el sentido de que se entienden bien. Mucha gente está capacitada para usarlos y ya están en uso.

Problema correcto, solución incorrecta

Sammer hace un convincente punto de "pantalones en la cabeza" de que son exactamente la forma incorrecta y más costosa de crear aplicaciones basadas en datos. ¿Por qué? Porque "colocar un almacén de datos entre dos aplicaciones de nivel 1 es una [mala] idea". Las empresas tienden a no tratar sus sistemas analíticos "como Tier 1 o componentes críticos para el negocio". Por lo tanto, “las empresas no replican herramientas y datos analíticos para una alta disponibilidad en todas las zonas de disponibilidad; no duplican procesos”. El resultado es un “coste y un riesgo enormes”. O, como concluye, "hemos diseñado accidentalmente la experiencia de nuestros clientes para que dependa de procesos ELT por lotes lentos".

Entonces, ¿cuál es la alternativa?

Para Sammer, se trata de transmitir datos, no de ELT (o reETL). Se trata de canalizaciones de datos en tiempo real basadas en la arquitectura Kappa. La arquitectura Kappa significa que tiene un "registro inmutable de solo agregar". Desde el registro, "los datos se transmiten a través de un sistema computacional y se alimentan a almacenes auxiliares para servir”, explica Milinda Pathirage, especialista en ingeniería de big data en KPMG. O, como escribió el CEO de Confluent, Jay Kreps, en 2014, cuando era líder de ingeniería en LinkedIn, argumentando en contra del tipo de enfoque de arquitectura Lambda "pegado con cinta adhesiva" que Sammers descarta, "¿por qué no se puede mejorar el sistema de procesamiento de flujo para manejar el problema completo establecido en su dominio de destino?-2.

Es decir, hacer que la transmisión sea el centro del universo de datos.

Los beneficios, sugiere Sammers, son varios: “Cuesta mucho menos, proporciona SLA de calidad de Nivel 1 sin el coste de duplicar datos, permite fallos fraccionarios en lugar de totales y saca su almacén de datos de la ruta crítica. En pocas palabras, Kappa significa extraer datos de la aplicación número 1 a medida que ocurren, enviarlos en fragmentos pequeños a una puerta de enlace de datos, transformarlos/enriquecerlos según sea necesario y luego enviarlos a todos los lugares que se necesitan en paralelo".

Incluso si no cree que el flujo reemplaza a la base de datos (yo personalmente no lo creo), es fácil aceptar la idea de que las canalizaciones/flujos de datos son más el futuro que intentar mover datos de un lado a otro entre bases de datos analíticas. Aunque Kappa y enfoques similares brindan datos en tiempo real, en realidad no se trata de eso. Según Sammer, se trata de poner fin a la “gran cantidad de deuda tecnológica que está acumulando rETL. Se trata de desentrañar el nido de dependencias críticas de las herramientas de análisis y hacer que el soporte sea sostenible”.

La próxima vez que construya una aplicación que tenga una tabla de clasificación o que necesite ser informada por datos (y ese es un porcentaje cada vez mayor de aplicaciones), pregúntese por qué su suposición de datos predeterminada es estasis: datos almacenados que luego debe impulsar de aplicación a aplicación, de sistema a sistema. Ya no vivimos en ese mundo orientado a lotes. Sammers parece tener razón: las secuencias deberían ser el valor predeterminado, no una excepción.

Imprimir Subir

TE PUEDE INTERESAR...

EMPRESAS

Snowflake lanza Arctic, su LLM de código abierto

TECNOLOGÍA

Digitalización de la gestión de los viajes corporativos: retos y oportunidades

EMPRESAS

SAS Viya sube de escalafón al incorporar IA generativa y grandes modelos de lenguaje

EMPRESAS

Qualcomm avanza en su particular revolución del entorno del PC con Snapdragon X Plus

TENDENCIAS

La economía digital ya pesa un 24,2% en el PIB

TENDENCIAS

La transformación de la salud digital impulsada por la inteligencia artificial

TENDENCIAS

El futuro de la salud: avances tecnológicos y oportunidades en el sector sanitario

OPINIÓN

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

TENDENCIAS

'ComputerWorld' y SEIS analizan la inversión TIC en sanidad en 2023

Mayte Ledo, secretaria de Estado de Digitalización e IA; José Luis Escrivá, ministro para la Transformación Digital; Mercedes Oblanca, presidenta de Accenture España y Portugal; y Alberto García Arrieta, managing director y responsable de AI & Data.

Accenture cimenta su apuesta por la IA y lanza sus nuevos GenAI Studios en Madrid y Barcelona

EMPRESAS

Miguel Sánchez Galindo, nuevo director general de DigitalES

EMPRESAS

José Andrés García Bueno dirigirá el negocio de Qlik en Iberia

TENDENCIAS

Especial Administraciones Públicas

OPINIÓN

La transformación digital en España como motor hacia una economía próspera y sostenible

OPINIÓN

Asegurando la integridad de los datos en la Administración pública: el papel crucial de la tecnología

EMPRESAS

Salesforce se retira de la compra de Informatica

Contenido Patrocinado

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

18 ABR 2024

En la edición de este año, que se celebrará el próximo 7 de mayo en Berlín, la tecnológica reunirá a diversas industrias y ecosistemas para debatir en torno al proceso de adopción de infraestructuras de datos capaces de acelerar la IA.

Forma parte de nuestra comunidad

¿Te interesan nuestras conferencias?

Especial Administraciones Públicas

No te pierdas...

Almacenamiento de datos de forma incorrecta

Problema correcto, solución incorrecta

TE PUEDE INTERESAR...

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

Radiografía de la Administración pública local y regional en clave tecnológica

El Viejo Continente se abre camino hacia la Década Digital 2030

Angelines Turón (SEPE): "La digitalización pasa por muchos proyectos que, cuando confluyen, forman un auténtico tsunami"

La transformación digital en España como motor hacia una economía próspera y sostenible

Geografía y copilotos, aliados para los CIO de la Administración

Asegurando la integridad de los datos en la Administración pública: el papel crucial de la tecnología

La IA y los datos se alzan como protagonistas del 'Digital Government Forum' 2024

España debe acelerar la Administración digital a pesar de la complejidad de los desafíos

32 años de Linux y su comunidad

MareNostrum 5 conquista los 314.000 billones de cálculos por segundo

El gasto global en nube soberana llegará a 258.000 millones de dólares en 2027

Los 'CIO 100 Awards Spain 2023' distinguen los proyectos de innovación tecnológica del año

Gemini, de Google, a la conquista de las últimas capacidades de IA generativa

Por qué la mitad de los desarrolladores adoptarán software mejorado con inteligencia artificial

ChatGPT: 365 días después, el mundo parece otro

'Superapps': ¿La próxima gran novedad de las TI empresariales?

Las mujeres se hacen su camino en el ecosistema 'startupero' español

Grandes modelos lingüísticos: los cimientos de la IA generativa

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

Líderes de futuro: ingeniería de telecomunicación

Guía esencial de Microsoft 365