SlideShare una empresa de Scribd logo
Big data
A través de una implementación
Lic. Diego Krauthamer
Profesor Adjunto Interino del Área Base de Datos
Universidad Abierta Interamericana – Facultad de Tecnología Informática
Buenos Aires. Argentina
Email: diego.Krauthamer@uai.edu.ar
Agenda
 ¿Cómo llegamos a Big Data?
 ¿Qué es Big Data?
 Hadoop
 ¿Qué es Hadoop?
 HDFS
 MapReduce
 Ecosistema Hadoop.
 Hive
 Pig
 Hbase
 Flume
 Big SQL
 Horton Works Data Platform
 Demostración
 Cierre
2
¿Cómo llegamos a Big Data/1?
 Bases de Datos Transaccionales (OLTP)
ERP
CRM
SCM
Base de datos (OLTP)
3
¿Cómo llegamos a Big Data/2?
 Datawarehousing (Bases de Datos OLAP)
Datawarehouse
(Base de Datos OLAP)
4
¿Cómo llegamos a Big Data/3?
 ¿Cuánta información y de que tipo se genera en la Web en un mínuto?
5
¿Qué es Big Data?
 “Toda aquella información que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales”.
6
Las tres “v” de Big data
Los proyectos de Big Data, involucran desde terabytes hasta petabytes de
información.
7
La tecnología Big Data fue diseñada para trabajar con diversos y distintos
orígenes de datos (Bases de Datos Relacionales, Bases de Datos NoSQL,
archivos planos, planillas de cálculo, etc.
Se refiere a “la velocidad con la que la información se carga, se analiza, y
se procesa”.
¿Qué es Hadoop?
 “Es un sistema de código abierto que se utiliza para almacenar, procesar, y
analizar grande volúmenes de datos, aislando a los desarrolladores de todas
las dificultades presentes en la programación paralela”
 Fue creado por Doug Coutting mientras trabaja para Yahoo.
 Se desarrolló con el objetivo del procesamiento de búsquedas e
indexaciones de las millones de páginas que constituyen la Web.
 El logo y el nombre”Hadoop” fue inspirado en uno de los juguetes del hijo
de Doug Coutting.
 Se implementa en distintas “distribuciones” (Apache, Cloudera,
Hortonworks, etc.)
8
HDFS (Hadoop Distributed File System)
 Es un sistema de archivos diseñado para almacenar archivos de gran tamaño, con
acceso a datos vía streaming, que se ejecuta en hardware existente.
9
 El funcionamiento básico de HDFS es procesar en forma paralela un archivo,
dividiéndolo en bloques (blocks), y ejecutándolo en varios equipos (nodos).
¿Que és MapReduce? 1/2
10
 “Es un modelo de programación para el procesamiento de datos”.
 Aprovecha las capacidades de la “programación en paralelo”, ideales para el
procesamiento de “Petabytes de información”.
 Hadoop ejecuta programas codificados en distintos lenguajes de
programación como Java, Python, C++, o C#.
 En Hadoop existen dos programas “Map” y “Reduce” que contienen las
“consultas” o “querys” a los datos y se ejecutan en una unidad de trabajo
que se denomina “Mapreduce Job”.
¿Cómo funciona MapReduce? 2/2
11
 Problema: Determinar la frecuencia de una palabra
 A partir de un archivo de texto, se necesita extraer cada palabra y contar las ocurrencias de cada una de
ellas.
Ecosistema Hadoop
12
Hive
13
 Hive es un “Datawarehouse Distribuido”.
 Fue creado por el equipo de desarrollo de Facebook y surgió de la necesidad de
la red social de administrar y analizar los miles de millos de datos que genera
diariamente.
 Permite realizar la explotación de los datos a través de un lenguaje de consulta
basado en SQL denominado “HiveQL” o “Hive Query Language”
 Posibilita analistas que tienen el “Know How” en Lenguaje SQL ejecutar consultas
de datos almacenados en HDFS.
 Hive no debe ser utilizado como Base de Datos OLTP.
 Si Hive no existiera “todos” deberíamos ser desarrolladores….
Pig
14
 Es una plataforma para el análisis de grandes conjuntos de datos que consta de un lenguaje de alto
nivel para expresar programas de análisis, junto con la infraestructura para la evaluación de los mismos.
 Fue creado por Yahoo en 2006 y a partir del 2007 fue adoptado por la apache software foundation.
 Es utilizado por empresas como Yahoo, Linkedin y Twitter.
 Pig Latin es un lenguaje de flujos de datos en paralelo, por este motivo es ideal para analistas de datos.
Caso contrario todos deberíamos ser desarrolladores para escribir programas “Map” y “Reduce”
 La filosofía detrás de Pig es:
 Pigs eat anything: Al igual que cualquier cerdo que come cualquier cosa, Pig puede operar con
cualquier tipo de dato, sea éste estructurado, semi-estructurado o no estructurado.
 Pigs live anywhere: A pesar de que Pig fue inicialmente implementado en Hadoop, no está
orientado solamente a esta plataforma. Su propósito es ser un lenguaje de procesamiento paralelo
 Pigs are domestic animals: Pig está diseñado para ser controlado y modificado fácilmente por sus
usuarios. Pig puede enriquecerse a través de funciones definidas por el usuario (UDF). Con el uso
de UDFs se puede extender Pig para un procesamiento personalizado.
 Pigs Fly: procesa datos rápidamente. La intención es mejorar el rendimiento y no las características,
lo que evita que demasiada funcionalidad le impida “volar”.
15
 Es una base de datos de código abierto, NoSQL y distribuida que ha sido desarrollada como un
subproyecto de Hadoop y que usa HDFS como su sistema de almacenamiento de archivos.
 Caracteristicas:
 Orientado a columnas. la información se almacena en celdas agrupadas en columnas que a su vez se
agrupan en familias de columnas, pudiendo ser las columnas creadas en tiempo de ejecución. Además
los registros se identifican mediante una clave que relaciona una o varias columnas, dando lugar a una
representación de los datos en forma de mapas. Las columnas permanecen siempre ordenadas.
 Distribuida. Los datos se particionan y fragmentan sobre múltiples servidores.
 Escalable. Se pueden añadir nuevos Region Servers que son añadidos al cluster de manera automática.
 Las tablas de HBase se pueden utilizar como input o como output de jobs MapReduce.
Flume
16
 Es una solución Java distribuida y de alta disponibilidad para recolectar, agregar y
mover grandes cantidades de datos desde diferentes orígenes de datos a un data
store centralizado de manera eficiente.
 En otras palabras permite “subir datos” al HDFS.
 Su Arquitectura se basa en flujos de streaming de datos, ofrece mecanismos para
asegurar la entrega y mecanismos de recuperación.
 Ofrece una gestión centralizada.
Big SQL
17
 Es una interface SQL desarrollada por IBM que facilita a los desarrolladores SQL la
explotación de datos utilizando sentencias de Lenguaje SQL.
 Si bien utiliza el lenguaje SQL standard , en ciertos casos se require el uso de extensiones
desarrolladas por IBM.
 Principal desventaja: no es una tecnología standard y en consecuencia funciona
solamente sobre la plataforma Big Data de IBM “Infosphere Biginsights”.
Hortonworks Data Platform(HDP)
18
 Es una de las “distribuciones” de Hadoop existentes en el mercado.
 HDInsight de Microsoft esta basada en HortonWorks.
 Hortonworks sandbox es una distribución de “Hadoop virtualizada” que permite testear el
producto en forma gratuita en una máquina virtual de “1 nodo” Hadoop.
Arquitectura – Hortonworks Data Platform
Referencias & Links
• Hadoop the Definitive Guide
White, T.
O’ Reilly /Yahoo Press (2011)
• Big Data Analytics Infrastructure for Dummies
Schoenborn, B.
Wiley (2014)
• Introducing Microsoft HDInsight
Chauhan, A., Fontama, V., Hart M, M.S .
Microsoft Press (2014)
• Hortonworks Data Platform
http://hortonworks.com/hdp/downloads/
• Tutorial de Hive
https://cwiki.apache.org/confluence/display/Hive/Home
• IBM BIG SQL
http://www.ibm.com/developerworks/library/bd-bigsql/
19
Publicidad

Más contenido relacionado

La actualidad más candente (16)

Hadoop
HadoopHadoop
Hadoop
Tomás Fernández Pena
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
Moisés Martínez Mateu
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
campus party
 
Hadoop
HadoopHadoop
Hadoop
Camilo Andrés Berrios Terreros
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
Marcos Ortiz Valmaseda
 
HDFS
HDFSHDFS
HDFS
Tomás Fernández Pena
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
Guillermo Alvarado Mejía
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
Francisco Javier Pulido Piñero
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
Tomás Fernández Pena
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
Ángel Rayo
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
Javier Gómez Santos
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
Tomás Fernández Pena
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
Tomás Fernández Pena
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
Fco. Javier Lahoz Sevilla
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Urko Zurutuza
 

Destacado (20)

"Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras"
"Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras""Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras"
"Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras"
Diego Krauthamer
 
Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con Hadoop
Software Guru
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
Victoria López
 
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IITECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
Christian Garcia Gamio
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
Jorge E. López de Vergara Méndez
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetos
Nanda Moran
 
Comparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De SocketsComparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De Sockets
mallita
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Felix Rodriguez
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
AMETIC
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
Eduardo Castro
 
nerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshopnerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshop
Restorando
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
Eduardo Castro
 
Polybase
PolybasePolybase
Polybase
SolidQ
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
Antonio Rodriguez
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
Socialmetrix
 
Introducción a Docker
Introducción a DockerIntroducción a Docker
Introducción a Docker
Nicolás Bello Camilletti
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
Stratebi
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Socialmetrix
 
"Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras"
"Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras""Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras"
"Campus Virtual de Ciencias Económicas Hacia un Sistema de Mejoras"
Diego Krauthamer
 
Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con Hadoop
Software Guru
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
Victoria López
 
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IITECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
Christian Garcia Gamio
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
Jorge E. López de Vergara Méndez
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetos
Nanda Moran
 
Comparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De SocketsComparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De Sockets
mallita
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Felix Rodriguez
 
Cómo implementar una solución Big Data
Cómo implementar una solución Big DataCómo implementar una solución Big Data
Cómo implementar una solución Big Data
AMETIC
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
Eduardo Castro
 
nerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshopnerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshop
Restorando
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
Eduardo Castro
 
Polybase
PolybasePolybase
Polybase
SolidQ
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
Antonio Rodriguez
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
Socialmetrix
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
Stratebi
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Socialmetrix
 
Publicidad

Similar a Big Data a traves de una implementación (20)

Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
SpanishPASSVC
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
Jeremi Sixto Perales
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
Arsys
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
Milner Dante Cortavitarte
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics Spain
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
Kevin Aaron Casaverde Roncal
 
Sgbd tecnologias de aplicaciones web
Sgbd tecnologias de aplicaciones webSgbd tecnologias de aplicaciones web
Sgbd tecnologias de aplicaciones web
Alexander Kolevic Aguayo
 
SGBD y Tecnologías usadas por la web 2.0
SGBD y Tecnologías usadas por la web 2.0SGBD y Tecnologías usadas por la web 2.0
SGBD y Tecnologías usadas por la web 2.0
Valeria Marita Rodriguez Palomino
 
Big Data en FaceBook
Big Data en FaceBookBig Data en FaceBook
Big Data en FaceBook
Juan Frias
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
ClikC
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
SolidQ
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
Sthefani Villanueva Cigaran
 
Sgbd
SgbdSgbd
Sgbd
Diego Francisco Trujillo Hidalgo
 
Motores de bases de datos
Motores de bases de datosMotores de bases de datos
Motores de bases de datos
still01
 
PHP
PHPPHP
PHP
jgbd127
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
Fabian David Palmera Cantillo
 
SGBD y tecnologías usadas por aplicaciones web 2.0
SGBD y tecnologías usadas por aplicaciones web 2.0SGBD y tecnologías usadas por aplicaciones web 2.0
SGBD y tecnologías usadas por aplicaciones web 2.0
Joseph Abad Güere Solorzano
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
SpanishPASSVC
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
Jeremi Sixto Perales
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
Arsys
 
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con HadoopOpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics 04/2015 - Data Analytics con Hadoop
OpenAnalytics Spain
 
Big Data en FaceBook
Big Data en FaceBookBig Data en FaceBook
Big Data en FaceBook
Juan Frias
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
ClikC
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
SolidQ
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
Sthefani Villanueva Cigaran
 
Motores de bases de datos
Motores de bases de datosMotores de bases de datos
Motores de bases de datos
still01
 
SGBD y tecnologías usadas por aplicaciones web 2.0
SGBD y tecnologías usadas por aplicaciones web 2.0SGBD y tecnologías usadas por aplicaciones web 2.0
SGBD y tecnologías usadas por aplicaciones web 2.0
Joseph Abad Güere Solorzano
 
Publicidad

Último (20)

pamodoro Presentación para estuadiantes
pamodoro  Presentación para estuadiantespamodoro  Presentación para estuadiantes
pamodoro Presentación para estuadiantes
LuisVictorQuisbert
 
Semana_08.pptx. Análisis sobre los ácidos esteres
Semana_08.pptx. Análisis sobre los ácidos esteresSemana_08.pptx. Análisis sobre los ácidos esteres
Semana_08.pptx. Análisis sobre los ácidos esteres
ddanerycordero
 
Presentación proyecto de literatura antigua académico vintage beis_20250429_1...
Presentación proyecto de literatura antigua académico vintage beis_20250429_1...Presentación proyecto de literatura antigua académico vintage beis_20250429_1...
Presentación proyecto de literatura antigua académico vintage beis_20250429_1...
hugovazquez123o
 
Procedimiento para el Ingreso y Salida de Vehículos FINAL.pptx
Procedimiento para el Ingreso y Salida de Vehículos FINAL.pptxProcedimiento para el Ingreso y Salida de Vehículos FINAL.pptx
Procedimiento para el Ingreso y Salida de Vehículos FINAL.pptx
KilmerCalderon
 
MEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptx
MEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptxMEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptx
MEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptx
yokolocolove1
 
amenorrea_gori.pptx..........yyhhhhhhhhhh
amenorrea_gori.pptx..........yyhhhhhhhhhhamenorrea_gori.pptx..........yyhhhhhhhhhh
amenorrea_gori.pptx..........yyhhhhhhhhhh
garciajhennyfer85
 
CARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptx
CARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptxCARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptx
CARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptx
josuepm025
 
ANALISIS_TERRENO_FINAL moche area de 30.102m2
ANALISIS_TERRENO_FINAL moche area de 30.102m2ANALISIS_TERRENO_FINAL moche area de 30.102m2
ANALISIS_TERRENO_FINAL moche area de 30.102m2
bjgamers18
 
Informe derrame de agua 01documento en word
Informe derrame de agua 01documento en wordInforme derrame de agua 01documento en word
Informe derrame de agua 01documento en word
FederRengifoGarro
 
estructuras de datos de python y sus deviravados
estructuras de datos de python y sus deviravadosestructuras de datos de python y sus deviravados
estructuras de datos de python y sus deviravados
oidorjuan790
 
Presentación_Monomios en la enseñanzahoy
Presentación_Monomios en la enseñanzahoyPresentación_Monomios en la enseñanzahoy
Presentación_Monomios en la enseñanzahoy
stalin94738
 
LA HISTORIA DESDE 1962 a 1963 en el VATICANO
LA HISTORIA DESDE 1962 a 1963 en el VATICANOLA HISTORIA DESDE 1962 a 1963 en el VATICANO
LA HISTORIA DESDE 1962 a 1963 en el VATICANO
aleprade
 
contextos_socialesssssssssssssssssssssss
contextos_socialessssssssssssssssssssssscontextos_socialesssssssssssssssssssssss
contextos_socialesssssssssssssssssssssss
enoa454
 
Diagnostico-Situacional-de-Leoncio-Prado-Final.pptx
Diagnostico-Situacional-de-Leoncio-Prado-Final.pptxDiagnostico-Situacional-de-Leoncio-Prado-Final.pptx
Diagnostico-Situacional-de-Leoncio-Prado-Final.pptx
roling1
 
PIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdf
PIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdfPIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdf
PIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdf
JC Díaz Herrera
 
Diferencias entre Eucariotas y procariotas.pptx
Diferencias entre Eucariotas y procariotas.pptxDiferencias entre Eucariotas y procariotas.pptx
Diferencias entre Eucariotas y procariotas.pptx
RodriguezDanielaAna
 
PRESENTACION UPTAEB RUTA UNIV 2025 (1).pptx
PRESENTACION UPTAEB RUTA UNIV 2025 (1).pptxPRESENTACION UPTAEB RUTA UNIV 2025 (1).pptx
PRESENTACION UPTAEB RUTA UNIV 2025 (1).pptx
GloriaColmenares
 
Introduccion-a-Ricardo-Palma.pptx historia
Introduccion-a-Ricardo-Palma.pptx historiaIntroduccion-a-Ricardo-Palma.pptx historia
Introduccion-a-Ricardo-Palma.pptx historia
MilagrosCcunoCalcina
 
Yo le caigo de una bebebe desde técnicas de disminuía.pptx
Yo le caigo de una bebebe desde técnicas de disminuía.pptxYo le caigo de una bebebe desde técnicas de disminuía.pptx
Yo le caigo de una bebebe desde técnicas de disminuía.pptx
Eegar1
 
Miedo escénico, como controlarlo para alcanzar el éxito
Miedo escénico, como controlarlo para alcanzar el éxitoMiedo escénico, como controlarlo para alcanzar el éxito
Miedo escénico, como controlarlo para alcanzar el éxito
MarycristTrejo
 
pamodoro Presentación para estuadiantes
pamodoro  Presentación para estuadiantespamodoro  Presentación para estuadiantes
pamodoro Presentación para estuadiantes
LuisVictorQuisbert
 
Semana_08.pptx. Análisis sobre los ácidos esteres
Semana_08.pptx. Análisis sobre los ácidos esteresSemana_08.pptx. Análisis sobre los ácidos esteres
Semana_08.pptx. Análisis sobre los ácidos esteres
ddanerycordero
 
Presentación proyecto de literatura antigua académico vintage beis_20250429_1...
Presentación proyecto de literatura antigua académico vintage beis_20250429_1...Presentación proyecto de literatura antigua académico vintage beis_20250429_1...
Presentación proyecto de literatura antigua académico vintage beis_20250429_1...
hugovazquez123o
 
Procedimiento para el Ingreso y Salida de Vehículos FINAL.pptx
Procedimiento para el Ingreso y Salida de Vehículos FINAL.pptxProcedimiento para el Ingreso y Salida de Vehículos FINAL.pptx
Procedimiento para el Ingreso y Salida de Vehículos FINAL.pptx
KilmerCalderon
 
MEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptx
MEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptxMEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptx
MEZCLAS Y METODOS DE SEPARACIÓN DE MEZCLAS.pptx
yokolocolove1
 
amenorrea_gori.pptx..........yyhhhhhhhhhh
amenorrea_gori.pptx..........yyhhhhhhhhhhamenorrea_gori.pptx..........yyhhhhhhhhhh
amenorrea_gori.pptx..........yyhhhhhhhhhh
garciajhennyfer85
 
CARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptx
CARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptxCARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptx
CARIES Y OTRAS ENFERMEDADES SEGUN CODIGO CIE 10.pptx
josuepm025
 
ANALISIS_TERRENO_FINAL moche area de 30.102m2
ANALISIS_TERRENO_FINAL moche area de 30.102m2ANALISIS_TERRENO_FINAL moche area de 30.102m2
ANALISIS_TERRENO_FINAL moche area de 30.102m2
bjgamers18
 
Informe derrame de agua 01documento en word
Informe derrame de agua 01documento en wordInforme derrame de agua 01documento en word
Informe derrame de agua 01documento en word
FederRengifoGarro
 
estructuras de datos de python y sus deviravados
estructuras de datos de python y sus deviravadosestructuras de datos de python y sus deviravados
estructuras de datos de python y sus deviravados
oidorjuan790
 
Presentación_Monomios en la enseñanzahoy
Presentación_Monomios en la enseñanzahoyPresentación_Monomios en la enseñanzahoy
Presentación_Monomios en la enseñanzahoy
stalin94738
 
LA HISTORIA DESDE 1962 a 1963 en el VATICANO
LA HISTORIA DESDE 1962 a 1963 en el VATICANOLA HISTORIA DESDE 1962 a 1963 en el VATICANO
LA HISTORIA DESDE 1962 a 1963 en el VATICANO
aleprade
 
contextos_socialesssssssssssssssssssssss
contextos_socialessssssssssssssssssssssscontextos_socialesssssssssssssssssssssss
contextos_socialesssssssssssssssssssssss
enoa454
 
Diagnostico-Situacional-de-Leoncio-Prado-Final.pptx
Diagnostico-Situacional-de-Leoncio-Prado-Final.pptxDiagnostico-Situacional-de-Leoncio-Prado-Final.pptx
Diagnostico-Situacional-de-Leoncio-Prado-Final.pptx
roling1
 
PIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdf
PIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdfPIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdf
PIB PPA por ingreso en zonas geográficas en porcentaje global (2025).pdf
JC Díaz Herrera
 
Diferencias entre Eucariotas y procariotas.pptx
Diferencias entre Eucariotas y procariotas.pptxDiferencias entre Eucariotas y procariotas.pptx
Diferencias entre Eucariotas y procariotas.pptx
RodriguezDanielaAna
 
PRESENTACION UPTAEB RUTA UNIV 2025 (1).pptx
PRESENTACION UPTAEB RUTA UNIV 2025 (1).pptxPRESENTACION UPTAEB RUTA UNIV 2025 (1).pptx
PRESENTACION UPTAEB RUTA UNIV 2025 (1).pptx
GloriaColmenares
 
Introduccion-a-Ricardo-Palma.pptx historia
Introduccion-a-Ricardo-Palma.pptx historiaIntroduccion-a-Ricardo-Palma.pptx historia
Introduccion-a-Ricardo-Palma.pptx historia
MilagrosCcunoCalcina
 
Yo le caigo de una bebebe desde técnicas de disminuía.pptx
Yo le caigo de una bebebe desde técnicas de disminuía.pptxYo le caigo de una bebebe desde técnicas de disminuía.pptx
Yo le caigo de una bebebe desde técnicas de disminuía.pptx
Eegar1
 
Miedo escénico, como controlarlo para alcanzar el éxito
Miedo escénico, como controlarlo para alcanzar el éxitoMiedo escénico, como controlarlo para alcanzar el éxito
Miedo escénico, como controlarlo para alcanzar el éxito
MarycristTrejo
 

Big Data a traves de una implementación

  • 1. Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana – Facultad de Tecnología Informática Buenos Aires. Argentina Email: [email protected]
  • 2. Agenda  ¿Cómo llegamos a Big Data?  ¿Qué es Big Data?  Hadoop  ¿Qué es Hadoop?  HDFS  MapReduce  Ecosistema Hadoop.  Hive  Pig  Hbase  Flume  Big SQL  Horton Works Data Platform  Demostración  Cierre 2
  • 3. ¿Cómo llegamos a Big Data/1?  Bases de Datos Transaccionales (OLTP) ERP CRM SCM Base de datos (OLTP) 3
  • 4. ¿Cómo llegamos a Big Data/2?  Datawarehousing (Bases de Datos OLAP) Datawarehouse (Base de Datos OLAP) 4
  • 5. ¿Cómo llegamos a Big Data/3?  ¿Cuánta información y de que tipo se genera en la Web en un mínuto? 5
  • 6. ¿Qué es Big Data?  “Toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales”. 6
  • 7. Las tres “v” de Big data Los proyectos de Big Data, involucran desde terabytes hasta petabytes de información. 7 La tecnología Big Data fue diseñada para trabajar con diversos y distintos orígenes de datos (Bases de Datos Relacionales, Bases de Datos NoSQL, archivos planos, planillas de cálculo, etc. Se refiere a “la velocidad con la que la información se carga, se analiza, y se procesa”.
  • 8. ¿Qué es Hadoop?  “Es un sistema de código abierto que se utiliza para almacenar, procesar, y analizar grande volúmenes de datos, aislando a los desarrolladores de todas las dificultades presentes en la programación paralela”  Fue creado por Doug Coutting mientras trabaja para Yahoo.  Se desarrolló con el objetivo del procesamiento de búsquedas e indexaciones de las millones de páginas que constituyen la Web.  El logo y el nombre”Hadoop” fue inspirado en uno de los juguetes del hijo de Doug Coutting.  Se implementa en distintas “distribuciones” (Apache, Cloudera, Hortonworks, etc.) 8
  • 9. HDFS (Hadoop Distributed File System)  Es un sistema de archivos diseñado para almacenar archivos de gran tamaño, con acceso a datos vía streaming, que se ejecuta en hardware existente. 9  El funcionamiento básico de HDFS es procesar en forma paralela un archivo, dividiéndolo en bloques (blocks), y ejecutándolo en varios equipos (nodos).
  • 10. ¿Que és MapReduce? 1/2 10  “Es un modelo de programación para el procesamiento de datos”.  Aprovecha las capacidades de la “programación en paralelo”, ideales para el procesamiento de “Petabytes de información”.  Hadoop ejecuta programas codificados en distintos lenguajes de programación como Java, Python, C++, o C#.  En Hadoop existen dos programas “Map” y “Reduce” que contienen las “consultas” o “querys” a los datos y se ejecutan en una unidad de trabajo que se denomina “Mapreduce Job”.
  • 11. ¿Cómo funciona MapReduce? 2/2 11  Problema: Determinar la frecuencia de una palabra  A partir de un archivo de texto, se necesita extraer cada palabra y contar las ocurrencias de cada una de ellas.
  • 13. Hive 13  Hive es un “Datawarehouse Distribuido”.  Fue creado por el equipo de desarrollo de Facebook y surgió de la necesidad de la red social de administrar y analizar los miles de millos de datos que genera diariamente.  Permite realizar la explotación de los datos a través de un lenguaje de consulta basado en SQL denominado “HiveQL” o “Hive Query Language”  Posibilita analistas que tienen el “Know How” en Lenguaje SQL ejecutar consultas de datos almacenados en HDFS.  Hive no debe ser utilizado como Base de Datos OLTP.  Si Hive no existiera “todos” deberíamos ser desarrolladores….
  • 14. Pig 14  Es una plataforma para el análisis de grandes conjuntos de datos que consta de un lenguaje de alto nivel para expresar programas de análisis, junto con la infraestructura para la evaluación de los mismos.  Fue creado por Yahoo en 2006 y a partir del 2007 fue adoptado por la apache software foundation.  Es utilizado por empresas como Yahoo, Linkedin y Twitter.  Pig Latin es un lenguaje de flujos de datos en paralelo, por este motivo es ideal para analistas de datos. Caso contrario todos deberíamos ser desarrolladores para escribir programas “Map” y “Reduce”  La filosofía detrás de Pig es:  Pigs eat anything: Al igual que cualquier cerdo que come cualquier cosa, Pig puede operar con cualquier tipo de dato, sea éste estructurado, semi-estructurado o no estructurado.  Pigs live anywhere: A pesar de que Pig fue inicialmente implementado en Hadoop, no está orientado solamente a esta plataforma. Su propósito es ser un lenguaje de procesamiento paralelo  Pigs are domestic animals: Pig está diseñado para ser controlado y modificado fácilmente por sus usuarios. Pig puede enriquecerse a través de funciones definidas por el usuario (UDF). Con el uso de UDFs se puede extender Pig para un procesamiento personalizado.  Pigs Fly: procesa datos rápidamente. La intención es mejorar el rendimiento y no las características, lo que evita que demasiada funcionalidad le impida “volar”.
  • 15. 15  Es una base de datos de código abierto, NoSQL y distribuida que ha sido desarrollada como un subproyecto de Hadoop y que usa HDFS como su sistema de almacenamiento de archivos.  Caracteristicas:  Orientado a columnas. la información se almacena en celdas agrupadas en columnas que a su vez se agrupan en familias de columnas, pudiendo ser las columnas creadas en tiempo de ejecución. Además los registros se identifican mediante una clave que relaciona una o varias columnas, dando lugar a una representación de los datos en forma de mapas. Las columnas permanecen siempre ordenadas.  Distribuida. Los datos se particionan y fragmentan sobre múltiples servidores.  Escalable. Se pueden añadir nuevos Region Servers que son añadidos al cluster de manera automática.  Las tablas de HBase se pueden utilizar como input o como output de jobs MapReduce.
  • 16. Flume 16  Es una solución Java distribuida y de alta disponibilidad para recolectar, agregar y mover grandes cantidades de datos desde diferentes orígenes de datos a un data store centralizado de manera eficiente.  En otras palabras permite “subir datos” al HDFS.  Su Arquitectura se basa en flujos de streaming de datos, ofrece mecanismos para asegurar la entrega y mecanismos de recuperación.  Ofrece una gestión centralizada.
  • 17. Big SQL 17  Es una interface SQL desarrollada por IBM que facilita a los desarrolladores SQL la explotación de datos utilizando sentencias de Lenguaje SQL.  Si bien utiliza el lenguaje SQL standard , en ciertos casos se require el uso de extensiones desarrolladas por IBM.  Principal desventaja: no es una tecnología standard y en consecuencia funciona solamente sobre la plataforma Big Data de IBM “Infosphere Biginsights”.
  • 18. Hortonworks Data Platform(HDP) 18  Es una de las “distribuciones” de Hadoop existentes en el mercado.  HDInsight de Microsoft esta basada en HortonWorks.  Hortonworks sandbox es una distribución de “Hadoop virtualizada” que permite testear el producto en forma gratuita en una máquina virtual de “1 nodo” Hadoop. Arquitectura – Hortonworks Data Platform
  • 19. Referencias & Links • Hadoop the Definitive Guide White, T. O’ Reilly /Yahoo Press (2011) • Big Data Analytics Infrastructure for Dummies Schoenborn, B. Wiley (2014) • Introducing Microsoft HDInsight Chauhan, A., Fontama, V., Hart M, M.S . Microsoft Press (2014) • Hortonworks Data Platform http://hortonworks.com/hdp/downloads/ • Tutorial de Hive https://cwiki.apache.org/confluence/display/Hive/Home • IBM BIG SQL http://www.ibm.com/developerworks/library/bd-bigsql/ 19