Modulo 4 - Caso Practico B

El documento compara las herramientas Spark y Hadoop para procesamiento de grandes volúmenes de datos. Explica que ambas usan procesamiento distribuido en cluster pero Spark es más rápido al procesar datos en memoria mientras que Hadoop usa procesamiento por lotes.

Cargado por

sacuanjochenica2021

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

78 vistas4 páginas

Modulo 4 - Caso Practico B

Cargado por

sacuanjochenica2021

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 4

Estudiante: Rosa Maria Porras Rojas.

Ing. en Computacion, actualmente realizando trabajos de ingenieria de datos en una empresa de

retail publicando informacion para usuarios internos y externos con Microsoft Power BI.

Introduccion
En este cuarto modulo del master se nos pide que analicemos de entre varias tematicas, esta en
particular relacionada con la comparacion de dos herramientas de las mas utilizadas en el ambito
del Big Data: Spark y Hadoop. Quisiera ver este articulo como una herramienta para proponer el
uso de herramientas de big data en mi contexto laboral actual, de manera que elevemos la calidad
de la informacion y se le brinde a los usuarios mayor seguridad con respecto al valor del dato
presentado cada dia en sus computadores.

Spark vs Hadoop: Comparativa de Herramientas

Ambas son herramientas de codigo abierto que permiten el procesamiento distribuido de grandes
volumenes de informacion en clusteres de computadoras. Son las mas utilizadas en el ambito del
BIG DATA y a continuacion se presentan las principales caracteristicas de cada una, detalles
tecnicos sobre sus arquitecturas y rendimientos y las diferencias claves entre ellas.

Hadoop Spark
 Procesamiento distribuido usando  Procesamiento distribuido usando
paralelizacion y clusteres paralelizacion y clusteres

 El procesamiento de los datos se hace  El procesamiento de los datos se hace

en lotes en tiempo real, por transmision de
datos o flujos de datos.

 Es mas tolerante a las fallas ya que  Usa conjunto de datos distribuidos

replica datos continuamente. resistentes (RDD) que a su vez se
basan en HDFS para manejar mayor
volumen de carga. Si un nodo falla,
“recuerda” como recuperar
 El procesamiento por lotes tiene informacion especifica del
salidas mas fiables, pero toma tiempo almacenamiento y puede reconstruir
relativamente largo. los datos si el almancen subyacente
falla.

 Se pueden utilizar maquinas ordinarias  Es mas eficiente gracias al

para procesar datos. procesamiento en memoria cache lo
que permite un mayor volumen de
datos procesados en el mismo periodo
de tiempo.

 Es mas costoso porque utiliza mucha

RAM para mantener su rendimiento.

Tanto Hadoop como Spark se componen de varios módulos de software que interactúan y
colaboran para hacer que el sistema funcione. (Amazon, n.d.)

Componentes de Hadoop
 El Sistema de archivos distribuido de Hadoop (HDFS) es un sistema de archivos especial
que almacena grandes conjuntos de datos en varios equipos. Estos equipos se denominan
clústeres de Hadoop.
 Yet Another Resource Negociator (YARN) programa las tareas y asigna los recursos a las
aplicaciones que se ejecutan en Hadoop.
 Hadoop MapReduce permite a los programas dividir grandes tareas de procesamiento de
datos en otras más pequeñas y ejecutarlas en paralelo en varios servidores.
 Hadoop Common, o Hadoop Core, proporciona las bibliotecas de software necesarias
para otros componentes de Hadoop.

Componentes de Spark
 Spark Core coordina las funciones básicas de Apache Spark. Estas funciones incluyen la
administración de memoria, el almacenamiento de datos, la programación de tareas y el
procesamiento de datos.
 Spark SQL le permite procesar datos en el almacenamiento distribuido de Spark.
 Spark Streaming y Structured Streaming permiten a Spark transmitir datos de manera
eficiente en tiempo real al separar los datos en pequeños bloques continuos.
 La biblioteca de machine learning (MLlib) proporciona varios algoritmos de machine
learning que se pueden aplicar a los macrodatos.
 GraphX permite visualizar y analizar datos con gráficos.

Diferencias clave: comparación entre Hadoop y Spark

Tanto Hadoop como Spark permiten procesar macrodatos de diferentes maneras.

Apache Hadoop se creó para delegar el procesamiento de datos a varios servidores en lugar de
ejecutar la carga de trabajo en una sola máquina.
Mientras tanto, Apache Spark es un sistema de procesamiento de datos más nuevo que supera las
principales limitaciones de Hadoop. A pesar de su capacidad para procesar grandes conjuntos de
datos, Hadoop solo lo hace en lotes y con un retraso considerable.
Arquitectura
Hadoop tiene un sistema de archivos nativo llamado Sistema de archivos distribuido de Hadoop
(HDFS). HDFS permite a Hadoop dividir grandes bloques de datos en múltiples bloques más
pequeños y uniformes. Luego, almacena los bloques de datos pequeños en grupos de servidores.
En cambio, Apache Spark no tiene su propio sistema de archivos nativo. Muchas organizaciones
ejecutan Spark en el sistema de archivos de Hadoop para almacenar, administrar y recuperar
datos.
Como alternativa, también puede usar Amazon Redshift o Amazon Simple Storage Service
(Amazon S3) como opciones de almacenamiento de datos para Spark.
Rendimiento
Hadoop puede procesar grandes conjuntos de datos en lotes, pero puede ser más lento. Para
procesar los datos, Hadoop lee la información del almacenamiento externo y luego analiza e
introduce los datos en algoritmos de software.
Para cada paso del procesamiento de datos, Hadoop vuelve a escribir los datos en el
almacenamiento externo, lo que aumenta la latencia. Por lo tanto, no resulta adecuado para tareas
de procesamiento en tiempo real, pero es ideal para cargas de trabajo con retrasos tolerables. Por
ejemplo, Hadoop es adecuado para analizar los registros de ventas mensuales. Sin embargo,
puede que no sea la mejor opción para determinar el sentimiento de marca en tiempo real a partir
de las fuentes de las redes sociales.
Apache Spark, por otro lado, está diseñado para procesar cantidades enormes de datos en tiempo
real.
En lugar de acceder a los datos del almacenamiento externo, Spark copia los datos en la RAM
antes de procesarlos. Solo vuelve a escribir los datos en un almacenamiento externo después de
completar una tarea específica. Escribir y leer desde la RAM es exponencialmente más rápido
que hacer lo mismo con un disco externo. Además, Spark reutiliza los datos recuperados para
numerosas operaciones.
Por lo tanto, Spark rinde mejor que Hadoop en diversos grados tanto para el procesamiento de
datos simples como complejos.
Conclusion
En el contexto actual de mi empleador, el proceso por lotes es lo que mas se asemeja a la realidad
con las diferencia de que no se usa el procesamiento distribuido. Si el servidor da fallo, la
informacion no esta disponible y los procesos se ven afectados: las compras de cada tienda,
pedidos de articulos que requieren importacion, etc. Por los costes y al complejidad actual,
Hadoop parece ser la herramienta ideal para mojar los pies en este mar del Big Data. Es muy
posible que el siguiente paso sea tener un esquema hibrido una vez que se requiera el analisis de
los datos de trafico de redes sociales en que interviene la compania, el uso de la app de compra,
informacion de ubicacion de usuarios/clientes por medio de la informacion de google maps, etc.
La Seguridad y la escalabilidad en Hadoop tambien son un factor influyente en la proposicion de
esta ultima como herramienta indicada para iniciar con el enfoque de Big Data en la compania.

Bibliography
Amazon. (n.d.). Retrieved from https://aws.amazon.com/es/compare/the-difference-between-
hadoop-vs-spark/

También podría gustarte

Actividad 1.1, Actividad 1.2 y Evidencia 1 Equipo 4
Aún no hay calificaciones
Actividad 1.1, Actividad 1.2 y Evidencia 1 Equipo 4
20 páginas
Diagnostico Grupal
Aún no hay calificaciones
Diagnostico Grupal
6 páginas
S02 ApacheSpark
Aún no hay calificaciones
S02 ApacheSpark
25 páginas
Ensayo Hadoop y Spark
Aún no hay calificaciones
Ensayo Hadoop y Spark
4 páginas
Completar en Los Campos Diseñados El Tema Propuesto
Aún no hay calificaciones
Completar en Los Campos Diseñados El Tema Propuesto
9 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
1.1 Introducción A Spark
0% (1)
1.1 Introducción A Spark
23 páginas
tema_spark
Aún no hay calificaciones
tema_spark
10 páginas
PDF Definido
Aún no hay calificaciones
PDF Definido
25 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
2020 - Clase Virtual 11 - Hadoop Vs Spark
Aún no hay calificaciones
2020 - Clase Virtual 11 - Hadoop Vs Spark
17 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Spark Hadoop
Aún no hay calificaciones
Spark Hadoop
7 páginas
CD - M8 AE1 Contenidos - 2023
Aún no hay calificaciones
CD - M8 AE1 Contenidos - 2023
12 páginas
Análisis de Datos Con Apache Spark
Aún no hay calificaciones
Análisis de Datos Con Apache Spark
66 páginas
Separata 04
Aún no hay calificaciones
Separata 04
23 páginas
Clase 9 - Base de Datos y Big Data
Aún no hay calificaciones
Clase 9 - Base de Datos y Big Data
28 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
Introduction To Spark - ES - Introduccion A Spark
Aún no hay calificaciones
Introduction To Spark - ES - Introduccion A Spark
53 páginas
Zaharia en Es
Aún no hay calificaciones
Zaharia en Es
7 páginas
Presentacion Curso Databricks
Aún no hay calificaciones
Presentacion Curso Databricks
27 páginas
PySpark_-_Sesion_1
100% (1)
PySpark_-_Sesion_1
29 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
2023.2-06a Aspectos Básicos de Spark
Aún no hay calificaciones
2023.2-06a Aspectos Básicos de Spark
27 páginas
Mod1 - Introducción Big Data y Python
Aún no hay calificaciones
Mod1 - Introducción Big Data y Python
9 páginas
1. Apache Spark
Aún no hay calificaciones
1. Apache Spark
24 páginas
Práctica 2.1 Investigación Sobre Hadoop
Aún no hay calificaciones
Práctica 2.1 Investigación Sobre Hadoop
6 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Apache Spark-Alejandro Palomino
Aún no hay calificaciones
Apache Spark-Alejandro Palomino
54 páginas
A1 - Mod2 - Unid5 - Procesamiento de Datos en Memoria. Spark Core
Aún no hay calificaciones
A1 - Mod2 - Unid5 - Procesamiento de Datos en Memoria. Spark Core
31 páginas
Caso de Estudio Framework Spark
Aún no hay calificaciones
Caso de Estudio Framework Spark
9 páginas
Big Data Analytics Spark
Aún no hay calificaciones
Big Data Analytics Spark
55 páginas
M4
Aún no hay calificaciones
M4
29 páginas
Entregable Aa1 Big Data
Aún no hay calificaciones
Entregable Aa1 Big Data
16 páginas
Qué Es BigData - Estudio
Aún no hay calificaciones
Qué Es BigData - Estudio
4 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Hadoop y Su Ecosistema
Aún no hay calificaciones
Hadoop y Su Ecosistema
9 páginas
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
Aún no hay calificaciones
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
1 página
Big Data
Aún no hay calificaciones
Big Data
6 páginas
Curso_Big+Data+con+Apache+Spark+3+y+Python+de+cero+a+experto
Aún no hay calificaciones
Curso_Big+Data+con+Apache+Spark+3+y+Python+de+cero+a+experto
28 páginas
Arquitectura Big Data
50% (2)
Arquitectura Big Data
18 páginas
Actividad de Transferencia - Arquitecturas Big Data, Apache Spark y Kafka Entrega
Aún no hay calificaciones
Actividad de Transferencia - Arquitecturas Big Data, Apache Spark y Kafka Entrega
3 páginas
Resumen Spark
Aún no hay calificaciones
Resumen Spark
2 páginas
Spark
Aún no hay calificaciones
Spark
20 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
Introducción A Spark
Aún no hay calificaciones
Introducción A Spark
14 páginas
Arquitectura de La Información
Aún no hay calificaciones
Arquitectura de La Información
18 páginas
Evidencia 1 BIG DATA-2
Aún no hay calificaciones
Evidencia 1 BIG DATA-2
17 páginas
Ecosistema Spark Intro
Aún no hay calificaciones
Ecosistema Spark Intro
87 páginas
Py Spark
Aún no hay calificaciones
Py Spark
32 páginas
UD4_ S05_ Big Data
Aún no hay calificaciones
UD4_ S05_ Big Data
24 páginas
Separata 05
Aún no hay calificaciones
Separata 05
25 páginas
Herramientas de Spark
Aún no hay calificaciones
Herramientas de Spark
20 páginas
6 - Spark
Aún no hay calificaciones
6 - Spark
28 páginas
Curso Big Data
Aún no hay calificaciones
Curso Big Data
11 páginas
Ponentes Core
Aún no hay calificaciones
Ponentes Core
21 páginas
1.2.1 Ecosistema Hadoop
Aún no hay calificaciones
1.2.1 Ecosistema Hadoop
33 páginas
Manual de Supervivencia del Administrador de Bases de Datos
De Everand
Manual de Supervivencia del Administrador de Bases de Datos
Miguel Ángel Benítez
Aún no hay calificaciones
DATABASE - Del modelo conceptual a la aplicación final en Access, Visual Basic, Pascal, Html y Php
De Everand
DATABASE - Del modelo conceptual a la aplicación final en Access, Visual Basic, Pascal, Html y Php
Olga Maria Stefania Cucaro
Aún no hay calificaciones
SESIÓN 1 - Leemos y Analizamos El Torito de La Piel Brillante de José María Arguedas - COM 1°
Aún no hay calificaciones
SESIÓN 1 - Leemos y Analizamos El Torito de La Piel Brillante de José María Arguedas - COM 1°
20 páginas
Actividad Virtual 25.04
Aún no hay calificaciones
Actividad Virtual 25.04
3 páginas
Planificación Filosofía 6° Año 2025 - Cuadro
Aún no hay calificaciones
Planificación Filosofía 6° Año 2025 - Cuadro
2 páginas
Examen - 1435 ESPAÑOL
Aún no hay calificaciones
Examen - 1435 ESPAÑOL
3 páginas
Ensayo 1 Pucp
Aún no hay calificaciones
Ensayo 1 Pucp
2 páginas
Act Rel. - Adán y Eva
Aún no hay calificaciones
Act Rel. - Adán y Eva
3 páginas
Ejercicios Resueltos de PL SQL
Aún no hay calificaciones
Ejercicios Resueltos de PL SQL
36 páginas
por qué nos enojamos
Aún no hay calificaciones
por qué nos enojamos
3 páginas
Anacronismo Silva
Aún no hay calificaciones
Anacronismo Silva
22 páginas
Curso. Diagnostico en PSP Clinica PDF
Aún no hay calificaciones
Curso. Diagnostico en PSP Clinica PDF
62 páginas
Bendita Eres Tú, María
Aún no hay calificaciones
Bendita Eres Tú, María
1 página
PLAN-TRABAJO-FERIA-CIENCIAS Iep 71001 Amg 2024
Aún no hay calificaciones
PLAN-TRABAJO-FERIA-CIENCIAS Iep 71001 Amg 2024
5 páginas
Idioma Oficial
Aún no hay calificaciones
Idioma Oficial
9 páginas
Antonimia II 5
Aún no hay calificaciones
Antonimia II 5
8 páginas
Qué Es La Barra de Tarea
100% (1)
Qué Es La Barra de Tarea
2 páginas
Palabras Reservadas
Aún no hay calificaciones
Palabras Reservadas
3 páginas
Cuadernillo Construye Algoritmos
Aún no hay calificaciones
Cuadernillo Construye Algoritmos
10 páginas
China
Aún no hay calificaciones
China
69 páginas
Mali2 U1 Ea Raic
100% (1)
Mali2 U1 Ea Raic
9 páginas
Un Padre Conforme Al Corazón de Dios
Aún no hay calificaciones
Un Padre Conforme Al Corazón de Dios
5 páginas
Piense 1
Aún no hay calificaciones
Piense 1
40 páginas
CUADERNILLO Noviembre 2020 4 Basico Final
Aún no hay calificaciones
CUADERNILLO Noviembre 2020 4 Basico Final
25 páginas
Biblia
Aún no hay calificaciones
Biblia
8 páginas
CCNA Practice Certification Exam
100% (1)
CCNA Practice Certification Exam
58 páginas
3213-Texto Del Artículo-16220-1-10-20190401
Aún no hay calificaciones
3213-Texto Del Artículo-16220-1-10-20190401
9 páginas
Audio GA3-240202501-AA2-EV02.
Aún no hay calificaciones
Audio GA3-240202501-AA2-EV02.
5 páginas
Examen de Educacion Civica I Parcial
80% (5)
Examen de Educacion Civica I Parcial
2 páginas
LENGUAJES 6º Estefanía Castañeda
Aún no hay calificaciones
LENGUAJES 6º Estefanía Castañeda
7 páginas