Modulo 4 - Caso Practico B
Modulo 4 - Caso Practico B
Introduccion
En este cuarto modulo del master se nos pide que analicemos de entre varias tematicas, esta en
particular relacionada con la comparacion de dos herramientas de las mas utilizadas en el ambito
del Big Data: Spark y Hadoop. Quisiera ver este articulo como una herramienta para proponer el
uso de herramientas de big data en mi contexto laboral actual, de manera que elevemos la calidad
de la informacion y se le brinde a los usuarios mayor seguridad con respecto al valor del dato
presentado cada dia en sus computadores.
Hadoop Spark
Procesamiento distribuido usando Procesamiento distribuido usando
paralelizacion y clusteres paralelizacion y clusteres
Tanto Hadoop como Spark se componen de varios módulos de software que interactúan y
colaboran para hacer que el sistema funcione. (Amazon, n.d.)
Componentes de Hadoop
El Sistema de archivos distribuido de Hadoop (HDFS) es un sistema de archivos especial
que almacena grandes conjuntos de datos en varios equipos. Estos equipos se denominan
clústeres de Hadoop.
Yet Another Resource Negociator (YARN) programa las tareas y asigna los recursos a las
aplicaciones que se ejecutan en Hadoop.
Hadoop MapReduce permite a los programas dividir grandes tareas de procesamiento de
datos en otras más pequeñas y ejecutarlas en paralelo en varios servidores.
Hadoop Common, o Hadoop Core, proporciona las bibliotecas de software necesarias
para otros componentes de Hadoop.
Componentes de Spark
Spark Core coordina las funciones básicas de Apache Spark. Estas funciones incluyen la
administración de memoria, el almacenamiento de datos, la programación de tareas y el
procesamiento de datos.
Spark SQL le permite procesar datos en el almacenamiento distribuido de Spark.
Spark Streaming y Structured Streaming permiten a Spark transmitir datos de manera
eficiente en tiempo real al separar los datos en pequeños bloques continuos.
La biblioteca de machine learning (MLlib) proporciona varios algoritmos de machine
learning que se pueden aplicar a los macrodatos.
GraphX permite visualizar y analizar datos con gráficos.
Bibliography
Amazon. (n.d.). Retrieved from https://aws.amazon.com/es/compare/the-difference-between-
hadoop-vs-spark/