Big data y analítica | Noticias | 14 DIC 2015

Aspectos a tener en cuenta de Hadoop y Apache Spark

Pese a que son considerados competidores en el ecosistema big data, un consenso creciente entre la comunidad 'open source' afirma que prefiere verlos trabajando conjuntamente.
big data
Marga Verdú

Hablar de big data significa, en muchas ocasiones, hacer referencia a Hadoop o Apache Spark. Cinco aspectos fundamentales sobresalen en el momento de hacer comparaciones entre uno y otro.

1.- Realizan trabajos distintos. Aunque tanto Hadoop como Apache Spark son infraestructuras de big data, realizan tareas para diferentes propósitos. El primero es esencialmente una infraestructura de datos distribuida (asignando colecciones masivas de datos a través de múltiples nodos dentro de cluster de servidores), al tiempo que indexa y mantiene un seguimiento de los datos preparándolos para procesos de analítica. Mientras que Spark no realiza funciones de distribución de almacenamiento, sino que es una herramienta de procesamiento de datos que opera en las colecciones de datos distribuidos.

 

2.- Son aplicaciones independientes; por lo que una puede operar perfectamente sin necesidad de disponer de la otra. Hadoop incluye un componente de almacenamiento, llamado MapReduce, por lo que no es necesario emplear Spark para realizar las tareas de procesamiento. Spark, sin embargo, no incluye un fichero de gestión del sistema por lo que necesita la integración de uno de ellos; si no es HDFS, habría de abarcar otra plataforma de datos basada en cloud.

 

3.- Spark ejecuta con mayor velocidad, con respecto a MapReduce, gracias a su procedimiento de procesamiento de datos. Mientras que MapReduce opera paso a paso, Spark opera simultáneamente en todo el conjunto de los datos. Spark puede llegar a ser 10 veces más rápido que MapReduce en procesos batch, y 100 más veloz en funciones de analítica en memoria interna.

 

4.- Es probable que no todos necesiten la velocidad de Spark. El estilo de procesamiento de MapReduce puede satisfacer las necesidades relacionadas con operaciones de reporting, dado que los requerimientos son más estáticos a la hora de obtener un procesamiento en modo batch. Pero si el usuario necesita realizar el tipo de streaming o analítica de datos que realizan los sensores en una cadena de producción o disponer de aplicaciones que requieren múltiples operaciones, entonces la elección ha de ser Spark; el cual incluye campañas de marketing en tiempo real, recomendaciones a productos online, analítica para funciones de ciberseguridad y monitorización de carga de las máquinas.

 

5.- Distintos en recuperación de fallos, pero igualmente buenos. Hadoop es resistente de modo natural a errores y fallos del sistema ya que los datos se escriben en el disco tras cada operación; pero Spark dispone de una resistencia similar pero mantiene los datos en objetos que son almacenados en la zona de distribución de datasets, los cuales permanecen distribuidos por todo el cluster de datos.

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información