0% encontró este documento útil (0 votos)
78 vistas4 páginas

Modulo 4 - Caso Practico B

El documento compara las herramientas Spark y Hadoop para procesamiento de grandes volúmenes de datos. Explica que ambas usan procesamiento distribuido en cluster pero Spark es más rápido al procesar datos en memoria mientras que Hadoop usa procesamiento por lotes.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
78 vistas4 páginas

Modulo 4 - Caso Practico B

El documento compara las herramientas Spark y Hadoop para procesamiento de grandes volúmenes de datos. Explica que ambas usan procesamiento distribuido en cluster pero Spark es más rápido al procesar datos en memoria mientras que Hadoop usa procesamiento por lotes.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 4

Estudiante: Rosa Maria Porras Rojas.

Ing. en Computacion, actualmente realizando trabajos de ingenieria de datos en una empresa de


retail publicando informacion para usuarios internos y externos con Microsoft Power BI.

Introduccion
En este cuarto modulo del master se nos pide que analicemos de entre varias tematicas, esta en
particular relacionada con la comparacion de dos herramientas de las mas utilizadas en el ambito
del Big Data: Spark y Hadoop. Quisiera ver este articulo como una herramienta para proponer el
uso de herramientas de big data en mi contexto laboral actual, de manera que elevemos la calidad
de la informacion y se le brinde a los usuarios mayor seguridad con respecto al valor del dato
presentado cada dia en sus computadores.

Spark vs Hadoop: Comparativa de Herramientas


Ambas son herramientas de codigo abierto que permiten el procesamiento distribuido de grandes
volumenes de informacion en clusteres de computadoras. Son las mas utilizadas en el ambito del
BIG DATA y a continuacion se presentan las principales caracteristicas de cada una, detalles
tecnicos sobre sus arquitecturas y rendimientos y las diferencias claves entre ellas.

Hadoop Spark
 Procesamiento distribuido usando  Procesamiento distribuido usando
paralelizacion y clusteres paralelizacion y clusteres

 El procesamiento de los datos se hace  El procesamiento de los datos se hace


en lotes en tiempo real, por transmision de
datos o flujos de datos.

 Es mas tolerante a las fallas ya que  Usa conjunto de datos distribuidos


replica datos continuamente. resistentes (RDD) que a su vez se
basan en HDFS para manejar mayor
volumen de carga. Si un nodo falla,
“recuerda” como recuperar
 El procesamiento por lotes tiene informacion especifica del
salidas mas fiables, pero toma tiempo almacenamiento y puede reconstruir
relativamente largo. los datos si el almancen subyacente
falla.

 Se pueden utilizar maquinas ordinarias  Es mas eficiente gracias al


para procesar datos. procesamiento en memoria cache lo
que permite un mayor volumen de
datos procesados en el mismo periodo
de tiempo.

 Es mas costoso porque utiliza mucha


RAM para mantener su rendimiento.

Tanto Hadoop como Spark se componen de varios módulos de software que interactúan y
colaboran para hacer que el sistema funcione. (Amazon, n.d.)

Componentes de Hadoop
 El Sistema de archivos distribuido de Hadoop (HDFS) es un sistema de archivos especial
que almacena grandes conjuntos de datos en varios equipos. Estos equipos se denominan
clústeres de Hadoop.
 Yet Another Resource Negociator (YARN) programa las tareas y asigna los recursos a las
aplicaciones que se ejecutan en Hadoop.
 Hadoop MapReduce permite a los programas dividir grandes tareas de procesamiento de
datos en otras más pequeñas y ejecutarlas en paralelo en varios servidores.
 Hadoop Common, o Hadoop Core, proporciona las bibliotecas de software necesarias
para otros componentes de Hadoop.

Componentes de Spark
 Spark Core coordina las funciones básicas de Apache Spark. Estas funciones incluyen la
administración de memoria, el almacenamiento de datos, la programación de tareas y el
procesamiento de datos.
 Spark SQL le permite procesar datos en el almacenamiento distribuido de Spark.
 Spark Streaming y Structured Streaming permiten a Spark transmitir datos de manera
eficiente en tiempo real al separar los datos en pequeños bloques continuos.
 La biblioteca de machine learning (MLlib) proporciona varios algoritmos de machine
learning que se pueden aplicar a los macrodatos.
 GraphX permite visualizar y analizar datos con gráficos.

Diferencias clave: comparación entre Hadoop y Spark

Tanto Hadoop como Spark permiten procesar macrodatos de diferentes maneras.


Apache Hadoop se creó para delegar el procesamiento de datos a varios servidores en lugar de
ejecutar la carga de trabajo en una sola máquina.
Mientras tanto, Apache Spark es un sistema de procesamiento de datos más nuevo que supera las
principales limitaciones de Hadoop. A pesar de su capacidad para procesar grandes conjuntos de
datos, Hadoop solo lo hace en lotes y con un retraso considerable.
Arquitectura
Hadoop tiene un sistema de archivos nativo llamado Sistema de archivos distribuido de Hadoop
(HDFS). HDFS permite a Hadoop dividir grandes bloques de datos en múltiples bloques más
pequeños y uniformes. Luego, almacena los bloques de datos pequeños en grupos de servidores.
En cambio, Apache Spark no tiene su propio sistema de archivos nativo. Muchas organizaciones
ejecutan Spark en el sistema de archivos de Hadoop para almacenar, administrar y recuperar
datos.
Como alternativa, también puede usar Amazon Redshift o Amazon Simple Storage Service
(Amazon S3) como opciones de almacenamiento de datos para Spark.
Rendimiento
Hadoop puede procesar grandes conjuntos de datos en lotes, pero puede ser más lento. Para
procesar los datos, Hadoop lee la información del almacenamiento externo y luego analiza e
introduce los datos en algoritmos de software.
Para cada paso del procesamiento de datos, Hadoop vuelve a escribir los datos en el
almacenamiento externo, lo que aumenta la latencia. Por lo tanto, no resulta adecuado para tareas
de procesamiento en tiempo real, pero es ideal para cargas de trabajo con retrasos tolerables. Por
ejemplo, Hadoop es adecuado para analizar los registros de ventas mensuales. Sin embargo,
puede que no sea la mejor opción para determinar el sentimiento de marca en tiempo real a partir
de las fuentes de las redes sociales.
Apache Spark, por otro lado, está diseñado para procesar cantidades enormes de datos en tiempo
real.
En lugar de acceder a los datos del almacenamiento externo, Spark copia los datos en la RAM
antes de procesarlos. Solo vuelve a escribir los datos en un almacenamiento externo después de
completar una tarea específica. Escribir y leer desde la RAM es exponencialmente más rápido
que hacer lo mismo con un disco externo. Además, Spark reutiliza los datos recuperados para
numerosas operaciones.
Por lo tanto, Spark rinde mejor que Hadoop en diversos grados tanto para el procesamiento de
datos simples como complejos.
Conclusion
En el contexto actual de mi empleador, el proceso por lotes es lo que mas se asemeja a la realidad
con las diferencia de que no se usa el procesamiento distribuido. Si el servidor da fallo, la
informacion no esta disponible y los procesos se ven afectados: las compras de cada tienda,
pedidos de articulos que requieren importacion, etc. Por los costes y al complejidad actual,
Hadoop parece ser la herramienta ideal para mojar los pies en este mar del Big Data. Es muy
posible que el siguiente paso sea tener un esquema hibrido una vez que se requiera el analisis de
los datos de trafico de redes sociales en que interviene la compania, el uso de la app de compra,
informacion de ubicacion de usuarios/clientes por medio de la informacion de google maps, etc.
La Seguridad y la escalabilidad en Hadoop tambien son un factor influyente en la proposicion de
esta ultima como herramienta indicada para iniciar con el enfoque de Big Data en la compania.

Bibliography
Amazon. (n.d.). Retrieved from https://aws.amazon.com/es/compare/the-difference-between-
hadoop-vs-spark/

También podría gustarte