¿Es 2014 el año de la arquitectura Big Data?

Hay una increíble muestra de arquitecturas de referencia para Big Data, y 2014 puede ser el año en el que estas arquitecturas empiecen a fusionarese. ¿Se verá en 2014 la aparición de un equivalente en Big Data a la arquitectura LAMP?

También te puede interesar:

El Big Data y el Open Data, 200.000 millones de euros para la economía europea en 2020

Thor Olavsrud, CIO
25 FEB 2014

Richard Daley, uno de los fundadores y director de estrategia de Pentaho, cree que tal arquitectura empezará a fusionares este año, cuando empiece a haber consenso en ciertas arquitecturas de referencia de Big Data, aunque las capas superiores de la arquitectura puedan tener más elementos propietarios que tiene LAMP. “Hay miles de arquitecturas de referencia de Big Data por ahí”, afirma Daley. “La historia se repite. Vimos ocurrir exactamente lo mismo con el sistema de infraestructura LAMP. Está impulsado por el sufrimiento. El sufrimiento es lo que lo va a conducirlo inicialmente, sufrimiento en forma de coste y escala”.

Pero para Daley, las organizaciones que trabajan con tecnologías de Big data (el 42% de las organizaciones estaban ya abordando alguna iniciativa de Big Data en 2013, según un estudio de CompTIA) empiezan rápidamente a ver los beneficios de esos datos, particularmente las organizaciones que lo utilizan para marketing o para detección de intrusiones en la red.

“En los últimos 12 meses hemos visto más y más gente obteniendo beneficios de Big Data” sostiene. “Hay mucho más que ganar del análisis y utilización de Big Data, que sólo en almacenarlos”.

La explosión de sitios web dinámicos e interactivos en la última parte de los años 90 y primeros 2000, vino motivada, al menos en parte, por la arquitectura LAMP, formada por Linux, Apache HTTP server, MySQL y PHP. Estos componentes gratuitos y de código abierto son todos individualmente potentes herramientas desarrolladas independientemente, pero se unen para formar una plataforma de desarrollo Web que es más potente que la suma de sus partes. Los componentes están disponibles y tienen licencias abiertas con relativamente pocas restricciones. Y, quizá lo más importante, el código fuente está disponible, lo que da a los desarrolladores una tremenda flexibilidad.

Mientras la arquitectura LAMP especifica los componentes individuales (aunque pueda haber sustitutos en ciertas capas), la arquitectura de Big Data que Daley prevé tiene muchas más opciones en cada capa, dependiendo de la aplicación que se tenga en mente.

“D” por la capa de Datos

La capa inferior de la pila, la base, es la capa de datos. Ésta es la capa para las distribuciones Hadoop, bases de datos NoSQL (HBase, MongoDB, CouchDB y muchas otras), incluso bases de datos relacionales y analíticas, como SAS, Greenplum, Teradata y Vertica.

“Cualquiera de esas tecnologías se puede utilizar para aplicaciones de Big Data”, dice Daley. “Hadoop y NoSQL son abiertas, más escalables y más eficaces en coste, pero no pueden hacerlo todo. Ahí es donde entran otras como Greenplum y Vertica que tienen su lugar para aplicaciones analíticas muy rápidas.”

En muchas maneras, esta capa de la arquitectura tiene el mayor trabajo por hacer, dice Daley. Las bases de datos relacionales y analíticas tienen muchos años de desarrollo realizado, pero las tecnologías Hadoop y NoSQL están todavía en una fase relativamente temprana.

“Estamos sobre el abismo en términos de adopción. Estamos más allá de los primeros seguidores, pero hay todavía mucho que hacer en términos de gestión, servicios y capacidades operacionales para ambos entornos. Hadoop es una tecnología muy, muy complicada y todavía con muchas aristas. Y si miras al entorno NoSQL, es como un gran lío. Cada uno de los motores NoSQL tiene su propio lenguaje de consulta.

“I” por la capa de Integración

La siguiente capa es la capa de integración. Aquí es donde ocurre la preparación, limpieza, transformación e integración de datos.

“Rara vez obtenemos datos de una sola fuente”, dice Daley. “Si miramos una aplicación de cliente-360, obtendremos datos de 3, 4 o incluso 5 fuentes. Cuando alguien tiene que hacer una aplicación analítica o incluso una aplicación predictiva, el 70% del tiempo se pasará en esta capa, machacando datos”.

Aunque esta capa es la parte menos glamurosa del big data, es también un área que es relativamente madura, dice Daley, con muchas utilidades (como Sqoop y Flume) y suministradores para llenar las lagunas.

“A” por la capa de Análisis

La siguiente capa es la capa analítica, donde ocurren el análisis y la visualización.

“Ahora tengo los datos, los tengo almacenados y listos para que sean examinados”, explica Daley. “Tomo un Tableau, o Pentaho o Qlikview y visualizo esos datos. ¿Tengo patrones? Aquí es donde la gente, los usuarios de negocio, empiezan a sacar algún valor de todo ello. Aquí es donde yo también incluiría las búsquedas. No son todo tableros de control y cortar y fragmentar datos.

Esta área también es relativamente madura, aunque Daley reconoce que todavía tiene bastante recorrido.

“Todavía tenemos que resolver como industria como sacarle más jugo a Hadoop, métodos para obtener datos más rápido”, indica, “¿quizá reconozcamos que es un entorno batch y necesitamos obtener ciertos datos de otras fuentes de datos? Los suministradores están trabajando contra-reloj para hacer esas integraciones mejor y mejor”.

“P” por Analítica Predictiva/Prescriptiva

La capa superior de esta pila es la analítica predictiva/prescriptiva, dice Daley. Aquí es donde las organizaciones empiezan a reconocer el valor verdadero de Big Data. La analítica predictiva utiliza datos (datos históricos, datos externos y datos en tiempo real), reglas de negocio y aprendizaje de la máquina para hacer predicciones e identificar riesgos y oportunidades.

Un paso más es la analítica prescriptiva, algunas veces considerado el Santo Grial de la analítica de negocio, que toma esas predicciones y ofrece sugerencias para formas de aprovechar las oportunidades futuras o mitigar riesgos futuros, junto con las implicaciones de las diferentes opciones.

“Se tiene que hacer todo el camino y llegar a la fase predictiva para obtener valor de Big Data”, dice. “No es probable que se obtenga un gran valor sólo de cortar y fragmentar datos. Hay que llegar a la parte superior de la pila”.

“Al menos el 70, quizá el 80 por ciento de lo que vemos en las aplicaciones de Big Data son ahora analíticas predictiva o incluso prescriptiva”, añade Daley. “Es la necesidad. Se empieza en la base con la tecnología de datos (almacenamiento, manipulación, transformaciones, analítica básica). Pero lo que ocurre más y más, finalmente, es que ha llegado el momento de la analítica predictiva avanzada. Se está volviendo más y más corriente general”.

Aunque la analítica predictiva es ya de alguna forma madura, hoy es un área donde sólo los científicos de datos están equipados para gestionar.

“Creo que lo predictivo ha avanzado mucho”, dice Daley. “Desde el punto de vista de la tecnología, creo que ya está madura. Pero necesitamos ver como lo podemos poner en las manos de muchos más usuarios. Necesitamos incorporarlo en aplicaciones que los usuarios de negocio puedan acceder, no sólo los científicos de datos”.

¿DIAP o PAID?

Llamémoslo arquitectura DIAP. O quizá, si empezamos desde arriba, llamémoslo PAID. La jugada ahora, comenta Daley, no es sólo añadir más madurez a los componentes tecnológicos como Hadoop y NoSQL, sino proveer la integración de arriba debajo de la pila.

“Ese es un punto clave”, añade. “Hasta ahora todos estos elementos están separados. Un montón de compañías sólo hacen una de estas cosas. Hortonworks sólo le hará la parte de datos, no harán integración, por ejemplo. Pero los clientes quieren obtener una arquitectura integrada. Deberíamos al menos asegurar que nuestros productos de arriba abajo de la arquitectura están realmente integrados. Ahí es donde tenemos que llegar. Para que de verdad sea adoptada, productos y suministradores van a necesitar trabajar arriba y abajo en la arquitectura. Necesito soportar todos los sabores de Hadoop, al menos los más favorables comercialmente. Y lo mismo para NoSQL".

Imprimir Subir

TE PUEDE INTERESAR...

EMPRESAS

La propiedad de Microsoft sobre OpenAI podría obtener el visto bueno condicional de la UE

Zoom ofrece actualizaciones basadas en IA para su espacio de colaboración Workplace

TENDENCIAS

¿La IA mató al 'blockchain'? El interés mundial por esta tecnología cae un 63% en tres años

EMPRESAS

Un cuarto de siglo fructífero: Appian consolida su posición preferente gracias al enfoque en procesos

EMPRESAS

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

TECNOLOGÍA

Intel construye el sistema neuromórfico más grande del mundo

TECNOLOGÍA

¿Tienen los servicios de IA generativa en la nube futuro empresarial?

TENDENCIAS

Alberto Pascual (Asociación @aslan): “La tecnología ha calado en todos los órdenes de la vida”

TENDENCIAS

La 35ª edición del Congreso&EXPO ASLAN enciende la ilusión de las TIC españolas

TENDENCIAS

Entra en vigor La Ley Europa Interoperable para la conectividad de los servicios públicos

Alberto Palomo, Chief Strategy Officer de la Gaia-X AISBL.

El 'Data & GenAI Forum' pone los retos del despliegue de proyectos de IA bajo la lupa

Alberto Pascual, presidente de la Asociación Aslan

ENTREVISTAS

"A diferencia de otros, en el sector TIC se respira una atmósfera de 'coopetición' muy saludable"

EMPRESAS

Cómo la estrategia de IA de Intel podría desafiar el dominio de Nvidia

EMPRESAS

Bruselas pide información a Broadcom por los cambios de licenciamiento en VMware

EMPRESAS

El Gobierno lanza una convocatoria de ayudas para la creación de Espacios de Datos Sectoriales

EMPRESAS

La estadounidense General Catalyst financia la expansión de Factorial con 74,5 millones de euros

Contenido Patrocinado

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

18 ABR 2024

En la edición de este año, que se celebrará el próximo 7 de mayo en Berlín, la tecnológica reunirá a diversas industrias y ecosistemas para debatir en torno al proceso de adopción de infraestructuras de datos capaces de acelerar la IA.

Forma parte de nuestra comunidad

¿Te interesan nuestras conferencias?

Especial Tendencias 2024

No te pierdas...

¿Es 2014 el año de la arquitectura Big Data?

TE PUEDE INTERESAR...

Huawei IDI Forum: tres años a la vanguardia de la evolución de la infraestructura de datos

La quiniela tecnológica de las grandes firmas de análisis para 2024

En los albores de una nueva era: así continúa escribiendo la industria tecnológica su historia

La 'resaca' de contrataciones en TI devuelve el poder negociador a las empresas

2024: ¿Vendrá el esperado repunte para las 'startups' españolas?

Visión tecnológica 2024: perspectivas de los CIO ante la revolución digital

Retos y tendencias para el canal en 2024

“El peligro no es la evolución de la IA, sino la mala interpretación que los humanos hacen de ella”

España, tecnologías emergentes y la consolidación de la transformación digital

Hacia un 2024 aún más digital e 'inteligente' pero, ojalá, también humano

32 años de Linux y su comunidad

MareNostrum 5 conquista los 314.000 billones de cálculos por segundo

El gasto global en nube soberana llegará a 258.000 millones de dólares en 2027

Los 'CIO 100 Awards Spain 2023' distinguen los proyectos de innovación tecnológica del año

Gemini, de Google, a la conquista de las últimas capacidades de IA generativa

Por qué la mitad de los desarrolladores adoptarán software mejorado con inteligencia artificial

ChatGPT: 365 días después, el mundo parece otro

'Superapps': ¿La próxima gran novedad de las TI empresariales?

Las mujeres se hacen su camino en el ecosistema 'startupero' español

Grandes modelos lingüísticos: los cimientos de la IA generativa

Infraestructura como servicio: cómo implementar el 'cloud' sin caer en una gestión compleja

Redes modernas y fiables: lo que la Fórmula 1 y los negocios tienen en común

'SAP S/4HANA Cloud, public edition', la solución impulsora de la eficiencia y la innovación

Líderes de futuro: ingeniería de telecomunicación

Guía esencial de Microsoft 365