SlideShare una empresa de Scribd logo
Trucos en el procesamiento y análisis de
datos con Open Source
Ignacio Bustillo
@IgnacioBustillo
info@stratebi.com
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Business Analytics
Cómo hacer menos tonta
la empresa
Periodismo de datos
Periodismo de datos
Visualización
Mapas
Tablas
Gráficos
…
Fuga2: data.elperiodico.com
Dashboard Smartcities
Lo esencial al analizar
la información
Análisis eficiente de datos
Data Warehouse – Almacén de datos
Repositorio centralizado de datos. Permite correlacionar indicadores y
velocidad en consultas
Análisis eficiente de datos
Análisis eficiente de datos
Transaccional DW
Orientados a software Orientados a temas
Utilizados para el funcionamiento del negocio Utilizados para analizar negocio
Usados por empleados comunes Usados por ejecutivos y analistas
Contiene datos detallados Contiene datos resumidos y refinados
Contiene datos aislados Contiene datos integrados
Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas
No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
Análisis eficiente de datos
Análisis eficiente de datos
Análisis eficiente de datos
Análisis eficiente de datos
HECHOS
• Responden a la pregunta ¿Qué queremos medir?
• Euros gastados, ventas, edad, unidades, coste, litros, kilos….
• Se agrupan en una tabla: La tabla de hechos o Fact Table:
• Tabla central en un modelo multidimensional.
• Almacena datos numéricos e indicadores clave (PKIs)
• Están almacenados a un determinado nivel de detalle.
• La mayoría de las veces, contiene hechos aditivos.
• Las tablas de hechos tienden a crecen a “lo alto”
Clave del
Producto
Clave de la
tienda
Clave del
Tiempo
Euros Unidades
1 2 12 300 5
1 7 3 1000 7
2 9 5 227 2
Análisis eficiente de datos
DIMENSIONES
• Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos?
Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente …
• Contienen los descriptores textuales de los hechos.
• Están contenidas en tablas, cada dimensión en una tabla
• Las tablas de dimensión tienden a crecen a “lo ancho”
Clave_mes Mes
1 Enero
2 Febrero
Producto Clave_producto
1 Libros
2 DVD
Tienda Clave_tienda
7 Sevilla
2 Córdoba
Análisis eficiente de datos
Análisis eficiente de datos
VS
Canalizando los datos
Herramientas de Extracción, Transformación y
Carga (Load)
ETL
Periodismo de datos
Herramientas ETL
Software libre
Herramientas ETL
Herramientas ETL
Algunas fuentes…
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
Herramientas ETL
Problemas que surgen:
¿Sabemos programar?
SQL? Javascript? Java? Python? Php?
¿Tenemos paciencia?
…De procesar tantas miles de filas a mano….
…De procesar tantos archivos a mano…
¿Qué significan los datos?
¿Sabemos usar todas las tecnologías?
…Parseo JSON…
…Lectura XLS…
Periodismo de Datos y Visualización con herramientas Open Source
PENTAHO DATA INTEGRATION
PENTAHO DATA INTEGRATION
¿Qué es Pentaho Data Integration?
• PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser
ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
•Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
•Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir
desde y en distintos orígenes de datos.
•Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son
planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
PENTAHO DATA INTEGRATION
Características y beneficios
• Permite trabajar con un repositorio en Base de Datos o en Ficheros.
• Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos
modulares ya creados, conexiones con múltiples fuentes, etc...
• Distribución y combinación de diferentes fuentes, en diferentes hosts.
• Interfaz SQL y generador de código automático.
• Crear cálculos de una manera muy sencilla.
• Define qué quieres hacer, no como quieres hacerlo.
• Genera código XML y Java.
• Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version)
• Fácil de mantener, con alto rendimiento y escalabilidad.
• Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail).
• Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
PENTAHO DATA INTEGRATION
Spoon
• Menú principal (rojo)
• Pestaña vista (verde)
• Pestaña design (azul)
• Menú iconos (amarillo)
• Zona de Trabajo
PENTAHO DATA INTEGRATION
Pestañas
• Pestaña Vista (View):
• Orígenes de Datos.
• Pasos
• Saltos
• Esquemas
• Servidores Esclavos
• Esquemas en Cluster.
• Pestaña Diseño (Design):
• Entrada
• Salida
• Búsqueda
• Transformar
• Uniones
• Scripting
• Data Warehouse
• Mapeado
• Trabajo
• Embebido
• Experimental
PENTAHO DATA INTEGRATION
Menú de Iconos
Icono Descripción
Crear un nuevo trabajo o transformación o CNTRL - N
Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él.
Guardar el trabajo/transformación a un fichero o al repositorio
Guardar el trabajo/transformación con un nombre distinto.
Abrir la ventana de impresora.
Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio.
Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas
por el paso seleccionado
Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución.
Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input
y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular.
Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada.
Generar el SQL que es necesario para ejecutar la transformación.
Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
PENTAHO DATA INTEGRATION
Componentes de PDI (I)
• Los procesos ETL se dividen en dos componentes principales:
• Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel
más bajo de una ETL.
• Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
PENTAHO DATA INTEGRATION
Componentes de PDI (II)
• Transformaciones:
• Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en
el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....)
• Salto: es la representación gráfica del flujo de datos entre 2 pasos.
PENTAHO DATA INTEGRATION
Componentes de PDI (III)
• Trabajos:
• Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No
modifican el flujo de datos)
• Salto: representa el orden de ejecución de transformaciones y trabajos.
• Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras
transformaciones y/o trabajos para que sean ejecutadas.
• Un trabajo procesa todos los registros antes de continuar, en cambio, una
transformación es un flujo de datos continuo de manera que los registros avanzan
por los pasos según llegan.
Periodismo de Datos y Visualización con herramientas Open Source
A trabajar!
PASO 1: Download & Instalación
http://sourceforge.net/projects/pentaho/files/Data Integration/
Periodismo de Datos y Visualización con herramientas Open Source
PASO 2: Descomprimir & abrir
PASO 2: Desomprimir & abrir
PASO 2: Let’s play!
Ejercicios!
Charts for dummies
Generar Nombres aleatorios
1) Generar 10 filas
2) Generar aleatorios
3) Filtrar salida
4) Exportar Excel
Estadísticas de Paro
1) Abrir csv
2) Seleccionar valores
3) Agrupaciones
4) Pintar
Estadísticas de Paro
Estadísticas de Paro
EJERCICIO 2
1) Abrir Excel 1 y 2
2) Cruzar Excels
3) Agrupaciones
4) Pintar
Excel con índices de innovación por países Maestro paises EN y ES
+
EJERCICIO 2
Estadísticas innovación
Comentarios Twitter #jdp14
1) Parsear JSON de monitorización #jpd14
2) Pintar
Comentarios Twitter #jdp14

Más contenido relacionado

PPT
Open Source Business Intelligence 2013 (spanish)
PPT
Data Integration & Data Quality Open Source (spanish)
PPT
Suite de inteligencia de negocios pentaho
PDF
Aplicaciones de BI con Pentaho
PPTX
Herramientas de business intelligence
PPT
Inteligancia de negocios
PPTX
Tendencias en la integración de sistemas y desafíos en la integración móvil
PPT
Overview sap bo girona nib efimatica
Open Source Business Intelligence 2013 (spanish)
Data Integration & Data Quality Open Source (spanish)
Suite de inteligencia de negocios pentaho
Aplicaciones de BI con Pentaho
Herramientas de business intelligence
Inteligancia de negocios
Tendencias en la integración de sistemas y desafíos en la integración móvil
Overview sap bo girona nib efimatica

La actualidad más candente (20)

PDF
Data Visualization con Pentaho
PPTX
Porque Pentaho ?
PDF
Aplicaciones Big Data Marketing
DOCX
Unidad iii componentes de entorno de inteligencia de negocios
PDF
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
PPTX
SAP - PowerBI integration
PPT
Introducción al BI con pentaho
PPTX
066 como implementar un data warehouse de manera paulatina
PPT
Comparativa herramientas Business Intelligence
PPTX
Destinos turisticos inteligentes
PPSX
Herramientas de business intelligence
PDF
Charla Pentaho - UTN
ODP
Inteligencia De Negocios, en Software Libre
PPT
Presentacion Starting Pack BI Open Source
PDF
Sap Business Objects - Sector Banca
PDF
Big Data Architecture con Pentaho
PDF
Sesion 1 pentaho special-edition 2013
DOCX
Ciclo de vida de la inteligencia de negocios
PPT
Cursos Big Data Open Source
DOCX
Business Intelligence (B.I.). La Plataforma Pentaho
Data Visualization con Pentaho
Porque Pentaho ?
Aplicaciones Big Data Marketing
Unidad iii componentes de entorno de inteligencia de negocios
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
SAP - PowerBI integration
Introducción al BI con pentaho
066 como implementar un data warehouse de manera paulatina
Comparativa herramientas Business Intelligence
Destinos turisticos inteligentes
Herramientas de business intelligence
Charla Pentaho - UTN
Inteligencia De Negocios, en Software Libre
Presentacion Starting Pack BI Open Source
Sap Business Objects - Sector Banca
Big Data Architecture con Pentaho
Sesion 1 pentaho special-edition 2013
Ciclo de vida de la inteligencia de negocios
Cursos Big Data Open Source
Business Intelligence (B.I.). La Plataforma Pentaho
Publicidad

Destacado (9)

PPTX
Employing Google Refine to publish Linked Data
PPTX
A Quick Tour of OpenRefine
PDF
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
PPTX
Definición de un Modelo de Gestión Documental para la BNE
PPT
SmartCity Presentation
PPT
Smart City Analytics
PDF
Reutilización de datos gracias a la visualización de datos
PPTX
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
PPT
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
Employing Google Refine to publish Linked Data
A Quick Tour of OpenRefine
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Definición de un Modelo de Gestión Documental para la BNE
SmartCity Presentation
Smart City Analytics
Reutilización de datos gracias a la visualización de datos
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
Publicidad

Similar a Periodismo de Datos y Visualización con herramientas Open Source (20)

PDF
Integración de Datos sin límites con Pentaho
PPTX
Software Libre para la Toma de Decisiones
PDF
Grupo eGlu Bi
PPT
Dts y analysis services 2000
PDF
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
PPTX
powerby software educativo e interactivo muy práctico para eempresas intituci...
PPTX
Base de datos
PDF
Dts y analysis services 2000
PPTX
Presentacion1 convertido
PPT
Nuevas Herramientas De Bi De Oracle
PDF
Base de datos
PDF
Curso introduccion microsoft_sql_server_business_intelligence
DOCX
Manual Analysis Services
PPTX
PLANTILLA ACTUALIZADA COMPENSAR POWER BI
PDF
Operations & Data Graph
PDF
Business Analytics 101
PDF
BusinessIntelligence Introduction
PDF
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
PDF
Analisis multidemensional.pdf
PPTX
Big Data - Desarrollando soluciones efectivas
Integración de Datos sin límites con Pentaho
Software Libre para la Toma de Decisiones
Grupo eGlu Bi
Dts y analysis services 2000
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
powerby software educativo e interactivo muy práctico para eempresas intituci...
Base de datos
Dts y analysis services 2000
Presentacion1 convertido
Nuevas Herramientas De Bi De Oracle
Base de datos
Curso introduccion microsoft_sql_server_business_intelligence
Manual Analysis Services
PLANTILLA ACTUALIZADA COMPENSAR POWER BI
Operations & Data Graph
Business Analytics 101
BusinessIntelligence Introduction
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Analisis multidemensional.pdf
Big Data - Desarrollando soluciones efectivas

Más de Stratebi (20)

PDF
Azure Synapse
PPTX
Options for Dashboards with Python
PPTX
Dashboards with Python
PDF
PowerBI Tips y buenas practicas
PDF
Machine Learning Meetup Spain
PPTX
LinceBI IIoT (Industrial Internet of Things)
PDF
A federated information infrastructure that works
PPTX
9 problemas en proyectos Data Analytics
PPTX
PowerBI: Soluciones, Aplicaciones y Cursos
PPTX
Sports Analytics
PPTX
Vertica Extreme Analysis
PDF
Businesss Intelligence con Vertica y PowerBI
PDF
Vertica Analytics Database general overview
PDF
Talend Cloud en detalle
PDF
Master Data Management (MDM) con Talend
PDF
Talend Introducion
PDF
Talent Analytics
PPTX
El Futuro del Business Intelligence
PPTX
Talend Solutions
PPTX
PowerBI Salesforce integration
Azure Synapse
Options for Dashboards with Python
Dashboards with Python
PowerBI Tips y buenas practicas
Machine Learning Meetup Spain
LinceBI IIoT (Industrial Internet of Things)
A federated information infrastructure that works
9 problemas en proyectos Data Analytics
PowerBI: Soluciones, Aplicaciones y Cursos
Sports Analytics
Vertica Extreme Analysis
Businesss Intelligence con Vertica y PowerBI
Vertica Analytics Database general overview
Talend Cloud en detalle
Master Data Management (MDM) con Talend
Talend Introducion
Talent Analytics
El Futuro del Business Intelligence
Talend Solutions
PowerBI Salesforce integration

Último (20)

DOCX
DUA 2025 para maestros especiales del área de español
PPTX
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
PPTX
Milder Antoni quirhuayo segura trabajo de investigación .pptx
PPTX
Presentacion Capacitacion RC y RG (5).pptx
PDF
REPORTE DE VICTIMAS POR HOMICIDIO DOLOSO IRAPUATO JULIO 2025
PDF
001-Semana1-Tema1_Calculo-demandas-ACS-Parte1.pdf
PPTX
Propuesta macroeconomia Precio_Libre_Divisas.pptx
PDF
Analisis-Tecnico-de-la-Planta-de-Tratamiento-de-Aguas-Residuales-PTAR-Covicor...
PDF
RISST 2024-Actualizado.pdf REGLAMENTO INTERNO DE SEGURIDAD Y SALUD EN EL TRABAJO
PPTX
gamarra-......seminario.pptx laboratorio
PPTX
Plantilla Presentación MBTI Analístas.pptx
PDF
Jenofanes_de_Colofon_presentacion.pptx_20250724_155759_0000.pdf
PDF
Ingreso por grupo racial en los años (2025, 2030, 2040 y 2050).pdf
PPTX
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
PPTX
Diapositivas de Macro sobre Chi Hung Chu.pptx
PPTX
Proceso actualización QRA mayo 2025 Proceso actualización QRA mayo 2025
PPTX
ESTRADA ORDEN INTERNO 111111111111111111
PDF
Pobreza porcentual en el mundo y sistemas socioeconómicos (1945-2030).pdf
PPTX
Práctica 2 desarrollada DE INGENIERIA QUIMICA AMBIENTAL
PPTX
PresentaciónMODEhhhhhhhhhhhhhhhhhhhhhhhhhhSTO.pptx
DUA 2025 para maestros especiales del área de español
TICS EN HONDURAS, PAIS DE CENTROAMERICA.pptx
Milder Antoni quirhuayo segura trabajo de investigación .pptx
Presentacion Capacitacion RC y RG (5).pptx
REPORTE DE VICTIMAS POR HOMICIDIO DOLOSO IRAPUATO JULIO 2025
001-Semana1-Tema1_Calculo-demandas-ACS-Parte1.pdf
Propuesta macroeconomia Precio_Libre_Divisas.pptx
Analisis-Tecnico-de-la-Planta-de-Tratamiento-de-Aguas-Residuales-PTAR-Covicor...
RISST 2024-Actualizado.pdf REGLAMENTO INTERNO DE SEGURIDAD Y SALUD EN EL TRABAJO
gamarra-......seminario.pptx laboratorio
Plantilla Presentación MBTI Analístas.pptx
Jenofanes_de_Colofon_presentacion.pptx_20250724_155759_0000.pdf
Ingreso por grupo racial en los años (2025, 2030, 2040 y 2050).pdf
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
Diapositivas de Macro sobre Chi Hung Chu.pptx
Proceso actualización QRA mayo 2025 Proceso actualización QRA mayo 2025
ESTRADA ORDEN INTERNO 111111111111111111
Pobreza porcentual en el mundo y sistemas socioeconómicos (1945-2030).pdf
Práctica 2 desarrollada DE INGENIERIA QUIMICA AMBIENTAL
PresentaciónMODEhhhhhhhhhhhhhhhhhhhhhhhhhhSTO.pptx

Periodismo de Datos y Visualización con herramientas Open Source

  • 1. Trucos en el procesamiento y análisis de datos con Open Source Ignacio Bustillo @IgnacioBustillo [email protected]
  • 4. Business Analytics Cómo hacer menos tonta la empresa
  • 10. Lo esencial al analizar la información
  • 11. Análisis eficiente de datos Data Warehouse – Almacén de datos Repositorio centralizado de datos. Permite correlacionar indicadores y velocidad en consultas
  • 13. Análisis eficiente de datos Transaccional DW Orientados a software Orientados a temas Utilizados para el funcionamiento del negocio Utilizados para analizar negocio Usados por empleados comunes Usados por ejecutivos y analistas Contiene datos detallados Contiene datos resumidos y refinados Contiene datos aislados Contiene datos integrados Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
  • 17. Análisis eficiente de datos HECHOS • Responden a la pregunta ¿Qué queremos medir? • Euros gastados, ventas, edad, unidades, coste, litros, kilos…. • Se agrupan en una tabla: La tabla de hechos o Fact Table: • Tabla central en un modelo multidimensional. • Almacena datos numéricos e indicadores clave (PKIs) • Están almacenados a un determinado nivel de detalle. • La mayoría de las veces, contiene hechos aditivos. • Las tablas de hechos tienden a crecen a “lo alto” Clave del Producto Clave de la tienda Clave del Tiempo Euros Unidades 1 2 12 300 5 1 7 3 1000 7 2 9 5 227 2
  • 18. Análisis eficiente de datos DIMENSIONES • Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos? Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente … • Contienen los descriptores textuales de los hechos. • Están contenidas en tablas, cada dimensión en una tabla • Las tablas de dimensión tienden a crecen a “lo ancho” Clave_mes Mes 1 Enero 2 Febrero Producto Clave_producto 1 Libros 2 DVD Tienda Clave_tienda 7 Sevilla 2 Córdoba
  • 21. Canalizando los datos Herramientas de Extracción, Transformación y Carga (Load) ETL
  • 35. Herramientas ETL Problemas que surgen: ¿Sabemos programar? SQL? Javascript? Java? Python? Php? ¿Tenemos paciencia? …De procesar tantas miles de filas a mano…. …De procesar tantos archivos a mano… ¿Qué significan los datos? ¿Sabemos usar todas las tecnologías? …Parseo JSON… …Lectura XLS…
  • 38. PENTAHO DATA INTEGRATION ¿Qué es Pentaho Data Integration? • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 39. PENTAHO DATA INTEGRATION Características y beneficios • Permite trabajar con un repositorio en Base de Datos o en Ficheros. • Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos modulares ya creados, conexiones con múltiples fuentes, etc... • Distribución y combinación de diferentes fuentes, en diferentes hosts. • Interfaz SQL y generador de código automático. • Crear cálculos de una manera muy sencilla. • Define qué quieres hacer, no como quieres hacerlo. • Genera código XML y Java. • Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version) • Fácil de mantener, con alto rendimiento y escalabilidad. • Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail). • Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
  • 40. PENTAHO DATA INTEGRATION Spoon • Menú principal (rojo) • Pestaña vista (verde) • Pestaña design (azul) • Menú iconos (amarillo) • Zona de Trabajo
  • 41. PENTAHO DATA INTEGRATION Pestañas • Pestaña Vista (View): • Orígenes de Datos. • Pasos • Saltos • Esquemas • Servidores Esclavos • Esquemas en Cluster. • Pestaña Diseño (Design): • Entrada • Salida • Búsqueda • Transformar • Uniones • Scripting • Data Warehouse • Mapeado • Trabajo • Embebido • Experimental
  • 42. PENTAHO DATA INTEGRATION Menú de Iconos Icono Descripción Crear un nuevo trabajo o transformación o CNTRL - N Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él. Guardar el trabajo/transformación a un fichero o al repositorio Guardar el trabajo/transformación con un nombre distinto. Abrir la ventana de impresora. Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio. Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas por el paso seleccionado Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución. Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular. Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada. Generar el SQL que es necesario para ejecutar la transformación. Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
  • 43. PENTAHO DATA INTEGRATION Componentes de PDI (I) • Los procesos ETL se dividen en dos componentes principales: • Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel más bajo de una ETL. • Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
  • 44. PENTAHO DATA INTEGRATION Componentes de PDI (II) • Transformaciones: • Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....) • Salto: es la representación gráfica del flujo de datos entre 2 pasos.
  • 45. PENTAHO DATA INTEGRATION Componentes de PDI (III) • Trabajos: • Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No modifican el flujo de datos) • Salto: representa el orden de ejecución de transformaciones y trabajos. • Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras transformaciones y/o trabajos para que sean ejecutadas. • Un trabajo procesa todos los registros antes de continuar, en cambio, una transformación es un flujo de datos continuo de manera que los registros avanzan por los pasos según llegan.
  • 48. PASO 1: Download & Instalación http://sourceforge.net/projects/pentaho/files/Data Integration/
  • 55. Generar Nombres aleatorios 1) Generar 10 filas 2) Generar aleatorios 3) Filtrar salida 4) Exportar Excel
  • 56. Estadísticas de Paro 1) Abrir csv 2) Seleccionar valores 3) Agrupaciones 4) Pintar
  • 59. EJERCICIO 2 1) Abrir Excel 1 y 2 2) Cruzar Excels 3) Agrupaciones 4) Pintar Excel con índices de innovación por países Maestro paises EN y ES +
  • 62. Comentarios Twitter #jdp14 1) Parsear JSON de monitorización #jpd14 2) Pintar