Oficina de Pentaho


 Wesley Seidel Carvalho
    wesley.seidel@gmail.com
    www.ime.usp.br/~wesleys
O que é BI?
●   São muitos os conceitos.

●   Vamos falar da idéia:
●   A idéia é que um sistema de BI possua, dentre
    outras as seguintes características [Caiçara
    Júnior]:
    ●   Fornecer informações relevantes para auxiliar na
        tomada de decisão;
    ●   Disponíveis a qualquer momento;
    ●   Fácil utilização.
BI possui muitos nomes:
●   Para empresários:
    ●   busca de mercado;
    ●   Inteligência competitiva;


●   Para outros:
    ●   relatório;
    ●   análises;
    ●   análise do negócio;
    ●   suporte a decisão.
OLTP
●   On-Line Transactional Processing
Ué? Mas eu não consigo gerar esses dados e
 análises direto de um sistema transacional?
Sim, só que...
●   As organizações geralmente possuem:
    ●   Mais de um sistema;
    ●   Sistemas armazenam em fontes distintas;
         –   MySql, SQL Server, Texto, XML ...
    ●   Existencia de planilhas;
    ●   Diferença entre representações de um mesma
        informação;
         –   M/F, 0/1, H/M ...
    ●   Etc...
E agora? Quem poderá me Salvar?
Opssss... Bem... Que tal:
●   Sistemas de apoio à decisão (SAD)


    ou

●   Sistemas OLAP (On-Line Analytical
    Processing);
O que é OLAP ?
●   Sistema de informação utilizado para viabilizar
    a análise da empresa e auxiliar na tomada de
    decisão. [Segundo Machado (2004)]
OLTP vs OLAP
                OLTP                           OLAP
Origem dos      Dados operacionais             Dados consolidados
dados                                          Vários Sistemas OLTP's
Propósito dos   Controlar e executar tarefas   Auxiliar o planejamento, resolução
dados           fundamentais do negócio        de problemas e suporte a decisão
Organização     Entidade Relacionamento;       Modelagem Multi-dimensional;
dos dados       Normalizado                    De-normalizado
Idade dos       Presente                       Histórico, Atual e Projetado
dados
Velocidade de   Geralmente muito rápido;       Depende da quantidade de dados;
processamento                                  cargas podem levar horas
Consultas       Relativamente simples;         Mais complexas;
                Retorna “poucos” registros;    Envolvem agregações;



                                       ...
Mais sobre OLAP:
●   Sistemas OLAP oferecem:
    ●   Diferentes perspectivas, n-dimensões;
        –   visão multidimensional das informações
    ●   De forma rápida;
    ●   Consistente;
    ●   Normalmente na forma de CUBOS OLAP's.
CUBOS OLAP's ?
CUBOS OLAP's ?
●   Cubos é uma forma de representação dos
    dados em um formato Multi-dimensional.
CUBOS OLAP's ?




          http://msdn.microsoft.com/pt-br/library/ms175449.aspx
CUBOS OLAP's
      ●   Cada face representa um
          aspecto do assunto que se
          deseja analisar
          ●   ( Dimensão );


      ●   Cada célula é representada
          por uma medida;
          ●   (Campo da tabela de Fatos );


      ●   É possível observar várias
          visões do dado que está
          sendo apresentado.
Composição de um CUBO

                ou

composição modelo multidimensional:
Composição de um CUBO
●   Fatos ou Tabela Fato:
    ●   Eventos que nos interessam avaliar;


●   Dimensões:
    ●   São os elementos que compõe um fato;
        –   Ex:
             ●   Produtos, períodos ( dia, mês, trimestre, ano ... ), segmento de clientes,
                 fornecedores, ...;


    ●   Hierarquias da dimensão:
        –   Período: Ano → Mês → Dia
        –   Localização: País → Estados → Cidades → Bairros
Composição de um CUBO
●   Métricas:
    ●   São os valores que estamos interessados em
        medir.

        –   Ex:
             ●   Qnt de produtos vendidos;
             ●   Lucro obtido (R$);
             ●   Quantidade de votos;
Representação lógica de um CUBO:
●   Baseada no modelo relacional;
●   Esquemas:
    ●   Estrela (star schema)
        –   A Tabela Fato no centro e as Dimensões ao seu redor;


    ●   Floco de Neve (snowflake)
        –   Parecido o esquema estrela, porém normaliza as
            hierarquias das dimensões;
Esquema Estrela
Esquema Estrela
Snowflake
Snowflake
Operações Básica de um sistema
               OLAP:
●   Dril-Down:
    ●   Nível mais detalhados;
●   Dril-Up ou Roll-up:
    ●   Nível mais agregados;
●   Slice:
    ●   Redução de escopo e mantendo a mesma perspectiva;
●   Dice:
    ●   Mudança de perspectiva;
●   Pivoting:
    ●   Alterar eixos de visualização.
E o Datawarehouse? O que é ?
●   Um conjunto de dados para apoio a decisão e
    possui as características [Inmon]:
    ●   -Orientado a assuntos
        –   Ao invés de aplicações;
    ●   -Integrado
        –   Adaptação e padronização dos dados vindos de diferentes
            sistemas;
    ●   -Não volátil:
        –   Sem atualizações, e sim carga inicial ou incremental e
            modo de acesso apenas leitura ;
    ●   -Variável em relação ao tempo.
ETL
●   É a etapa do processo de construção de um
    DW que consiste em:
●   Extract:
    ●   Dados dos OLTP's
●   Transformation:
    ●   Limpeza e Transformação ( padronização )
●   Load:
    ●   “Alimentar” o DW.
Como tudo isso funciona junto ?
Data
E   Warehouse
                  Sistema
T                    BI
L
    DM1 DM2 DM3
A Pentaho BI Suite.




      O que é?
A Pentaho BI Suite.
●   Pentaho BI Suite é uma plataforma Open
    Source para desenvolvimento de Soluções em
    Business Intelligence.



●   Mantida pela Empresa Pentaho ela é suportada
    por comunidades de usuários e
    desenvolvedores ao redor do mundo
A Pentaho BI Suite.
●   Composta por diversas ferramentas:
    ●   Para analistas e Gestores:




    ●   Para a equipe de desenvolvimento do projeto de BI
Arquitetura
Servidor BI




Responsável pelo gerenciamento dos indicadores,
compartilhamento entre os usuários, controle de
acesso, origem dos dados, entre outras coisas.
Servidor BI
PAC( Pentaho Administrator Console)
PRD (Pentaho Report Designer)
PDI (Pentaho Data Integration)
PSW (Pentaho Schema Workbench)
PME (Pentaho Metadata Editor)
Weka
???????
          PDI
                               PSW
                  ???????               PRD



                  Data
            E   Warehouse                 PME
                              Sistema     (Ad-Hoc)
            T                    BI
            L
                DM1 DM2 DM3




                Weka
Nossa Oficina!
Efetuar um pequeno ETL
●   Origem:
    ●   extras/dados/candidatos_2008.csv

can_id;                                    nomecand;
ano;                                       nomeurna;
turno;                                     data_nasc;
codmun;                                    codnasc;
                                           sexo;
codibge6;
                                           estciv;
codcargo;                                  inst;
codcand;                                   ocup;
codpart;                                   cpf;
siglapart;                                 leg;
nomepart;                                  sit_pos;
PDI (Pentaho Data Integration)
Esquema Estrela.

 DIM_Cargos                       DIM_Partidos




                    FATO_Candidatos




DIM_Municipios
                                      DIM_Pessoas
PSW (Pentaho Schema Workbench)
Mãos à Obra.
Referências
●   INMON. W. H., Como construir um Data warehouse (tradução da
    segunda edição), editora campus, 1997.
●   KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: O guia completo
    para modelagem dimensional.
●   LIMA, Thalles da Silva, CARVALHO, Wesley Seidel, Montando um cubo
    Olap com o MS Analisys Services, 2007.
●   SOUZA, Caio Moreno, Integração de ferramentas de código aberto (java,
    pentaho e android) e mapas, aplicada a projetos de inteligência de
    negócios, 2010 (Monografia).
●   BOBSIN, Juliana Bitello, Uma solução bi utilizando ferramentas open
    source, 2010 (Monografia).
●   CARNIEL, Anderson, BJIN OLAP: Uma ferramenta OLAP baseada no
    índice bitmap de junção, 2012 (TCC).
●   Suíte Pentaho. <http://www.pentaho.com>.
Obrigado !

Oficina Pentaho

  • 1.
    Oficina de Pentaho Wesley Seidel Carvalho [email protected] www.ime.usp.br/~wesleys
  • 2.
    O que éBI? ● São muitos os conceitos. ● Vamos falar da idéia: ● A idéia é que um sistema de BI possua, dentre outras as seguintes características [Caiçara Júnior]: ● Fornecer informações relevantes para auxiliar na tomada de decisão; ● Disponíveis a qualquer momento; ● Fácil utilização.
  • 3.
    BI possui muitosnomes: ● Para empresários: ● busca de mercado; ● Inteligência competitiva; ● Para outros: ● relatório; ● análises; ● análise do negócio; ● suporte a decisão.
  • 4.
    OLTP ● On-Line Transactional Processing
  • 5.
    Ué? Mas eunão consigo gerar esses dados e análises direto de um sistema transacional?
  • 6.
    Sim, só que... ● As organizações geralmente possuem: ● Mais de um sistema; ● Sistemas armazenam em fontes distintas; – MySql, SQL Server, Texto, XML ... ● Existencia de planilhas; ● Diferença entre representações de um mesma informação; – M/F, 0/1, H/M ... ● Etc...
  • 7.
    E agora? Quempoderá me Salvar?
  • 8.
    Opssss... Bem... Quetal: ● Sistemas de apoio à decisão (SAD) ou ● Sistemas OLAP (On-Line Analytical Processing);
  • 9.
    O que éOLAP ? ● Sistema de informação utilizado para viabilizar a análise da empresa e auxiliar na tomada de decisão. [Segundo Machado (2004)]
  • 10.
    OLTP vs OLAP OLTP OLAP Origem dos Dados operacionais Dados consolidados dados Vários Sistemas OLTP's Propósito dos Controlar e executar tarefas Auxiliar o planejamento, resolução dados fundamentais do negócio de problemas e suporte a decisão Organização Entidade Relacionamento; Modelagem Multi-dimensional; dos dados Normalizado De-normalizado Idade dos Presente Histórico, Atual e Projetado dados Velocidade de Geralmente muito rápido; Depende da quantidade de dados; processamento cargas podem levar horas Consultas Relativamente simples; Mais complexas; Retorna “poucos” registros; Envolvem agregações; ...
  • 11.
    Mais sobre OLAP: ● Sistemas OLAP oferecem: ● Diferentes perspectivas, n-dimensões; – visão multidimensional das informações ● De forma rápida; ● Consistente; ● Normalmente na forma de CUBOS OLAP's.
  • 12.
  • 13.
    CUBOS OLAP's ? ● Cubos é uma forma de representação dos dados em um formato Multi-dimensional.
  • 14.
    CUBOS OLAP's ? http://msdn.microsoft.com/pt-br/library/ms175449.aspx
  • 15.
    CUBOS OLAP's ● Cada face representa um aspecto do assunto que se deseja analisar ● ( Dimensão ); ● Cada célula é representada por uma medida; ● (Campo da tabela de Fatos ); ● É possível observar várias visões do dado que está sendo apresentado.
  • 16.
    Composição de umCUBO ou composição modelo multidimensional:
  • 17.
    Composição de umCUBO ● Fatos ou Tabela Fato: ● Eventos que nos interessam avaliar; ● Dimensões: ● São os elementos que compõe um fato; – Ex: ● Produtos, períodos ( dia, mês, trimestre, ano ... ), segmento de clientes, fornecedores, ...; ● Hierarquias da dimensão: – Período: Ano → Mês → Dia – Localização: País → Estados → Cidades → Bairros
  • 18.
    Composição de umCUBO ● Métricas: ● São os valores que estamos interessados em medir. – Ex: ● Qnt de produtos vendidos; ● Lucro obtido (R$); ● Quantidade de votos;
  • 19.
    Representação lógica deum CUBO: ● Baseada no modelo relacional; ● Esquemas: ● Estrela (star schema) – A Tabela Fato no centro e as Dimensões ao seu redor; ● Floco de Neve (snowflake) – Parecido o esquema estrela, porém normaliza as hierarquias das dimensões;
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
    Operações Básica deum sistema OLAP: ● Dril-Down: ● Nível mais detalhados; ● Dril-Up ou Roll-up: ● Nível mais agregados; ● Slice: ● Redução de escopo e mantendo a mesma perspectiva; ● Dice: ● Mudança de perspectiva; ● Pivoting: ● Alterar eixos de visualização.
  • 25.
    E o Datawarehouse?O que é ? ● Um conjunto de dados para apoio a decisão e possui as características [Inmon]: ● -Orientado a assuntos – Ao invés de aplicações; ● -Integrado – Adaptação e padronização dos dados vindos de diferentes sistemas; ● -Não volátil: – Sem atualizações, e sim carga inicial ou incremental e modo de acesso apenas leitura ; ● -Variável em relação ao tempo.
  • 26.
    ETL ● É a etapa do processo de construção de um DW que consiste em: ● Extract: ● Dados dos OLTP's ● Transformation: ● Limpeza e Transformação ( padronização ) ● Load: ● “Alimentar” o DW.
  • 27.
    Como tudo issofunciona junto ?
  • 28.
    Data E Warehouse Sistema T BI L DM1 DM2 DM3
  • 29.
    A Pentaho BISuite. O que é?
  • 30.
    A Pentaho BISuite. ● Pentaho BI Suite é uma plataforma Open Source para desenvolvimento de Soluções em Business Intelligence. ● Mantida pela Empresa Pentaho ela é suportada por comunidades de usuários e desenvolvedores ao redor do mundo
  • 31.
    A Pentaho BISuite. ● Composta por diversas ferramentas: ● Para analistas e Gestores: ● Para a equipe de desenvolvimento do projeto de BI
  • 32.
  • 33.
    Servidor BI Responsável pelogerenciamento dos indicadores, compartilhamento entre os usuários, controle de acesso, origem dos dados, entre outras coisas.
  • 34.
  • 35.
  • 36.
  • 37.
    PDI (Pentaho DataIntegration)
  • 38.
  • 39.
  • 40.
  • 42.
    ??????? PDI PSW ??????? PRD Data E Warehouse PME Sistema (Ad-Hoc) T BI L DM1 DM2 DM3 Weka
  • 43.
  • 44.
    Efetuar um pequenoETL ● Origem: ● extras/dados/candidatos_2008.csv can_id; nomecand; ano; nomeurna; turno; data_nasc; codmun; codnasc; sexo; codibge6; estciv; codcargo; inst; codcand; ocup; codpart; cpf; siglapart; leg; nomepart; sit_pos;
  • 45.
    PDI (Pentaho DataIntegration)
  • 46.
    Esquema Estrela. DIM_Cargos DIM_Partidos FATO_Candidatos DIM_Municipios DIM_Pessoas
  • 47.
  • 48.
  • 49.
    Referências ● INMON. W. H., Como construir um Data warehouse (tradução da segunda edição), editora campus, 1997. ● KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: O guia completo para modelagem dimensional. ● LIMA, Thalles da Silva, CARVALHO, Wesley Seidel, Montando um cubo Olap com o MS Analisys Services, 2007. ● SOUZA, Caio Moreno, Integração de ferramentas de código aberto (java, pentaho e android) e mapas, aplicada a projetos de inteligência de negócios, 2010 (Monografia). ● BOBSIN, Juliana Bitello, Uma solução bi utilizando ferramentas open source, 2010 (Monografia). ● CARNIEL, Anderson, BJIN OLAP: Uma ferramenta OLAP baseada no índice bitmap de junção, 2012 (TCC). ● Suíte Pentaho. <http://www.pentaho.com>.
  • 50.