SlideShare uma empresa Scribd logo
Python 3 +
Apache Hadoop
Eduardo Mendes (z4r4tu5tr4)
z4r4tu5tr4@Babbage: whoami
● Eduardo Mendes
● Fatec Americana
● github.com/z4r4tu5tr4
● mendesxeduardo@gmail.com
Estrutura
● Problemas
○ Metereologia
○ Linguística de Corpus
● Soluções
○ Celery + NFS
○ Python + Mongo
○ Disco
○ Hadoop
Problemas
Metereologia e Linguística de Corpus
Metereologia
● Cruzamento de duas bases de dados
● Atualizadas de 15 em 15 minutos
● Durante 100 anos
● Tabelas xls
● Mudança de padrão com o passar dos anos
Linguística de Corpus [0]
Linguística de corpus ocupa-se ela da coleta e da exploração de corpora, ou
conjutos de dados linguísticos textuais coletados criteriosamente, com o
propósito de servirem para a pesquisa de uma língua ou variedade linguística.
Como tal, dedica-se à exploração da linguagem por meio de evidências
empíricas, extraídas de computadores
(Sardinha, 2014)
Linguística de Corpus [1]
● O que esperar?
○ Não é PLN
○ Não é mineração de dados
○ Não é aprendizado de máquina
Linguística de Corpus [2]
Operações básicas esperadas LC (Mike Scott):
● Contagem de palavras (WordList)
● Concordância (Concord)
● Comparação (KeyWords)
● Etiquetagem (Tagging)
“Soluções”
Parciais
Celery + NFS
● Complexibilidade de código
● Problemas com logs
● NFS não particiona arquivos
○ Problemas de leitura e armazenamento
Python + Mongo
● Uma solução excelente com metereologia e
péssima com Linguística.
Soluções
O que deu certo
Sistema de arquivos distribuído
● Google File System
○ Particiona arquivos em partes de 64mb
○ Três cópias de cada replicação
○ Arquitetura ‘Master - slave’
Sistema de arquivos distribuído
MapReduce
Disco
● Framework para processamento distribuído
● Feito em Python
● Projeto ‘Jovem’
● “Não tem a melhor documentação do
mundo”
Apache Hadoop [0]
● Framework livre
● Escrito em Java
● Adaptação do Google File System (GFS)
● Adaptação do algorítimo de MapReduce
● “Pode ser programado em qualquer
linguagem” - Streaming
Apache Hadoop [1]
● Tolerância a falhas
● Interface amigável
● Boa documentação
● YARN
Apache Hadoop [2]
MapReduceLib [1]
Hadoop Streaming [0]
● Boa interface para se trabalhar com
qualquer linguagem quando usamos shell
script
● Código ‘simples’
Python 3 + apache hadoop
Python 3 + apache hadoop
Python + Hadoop [0]
● Pydoop (CRS4)
● Hadoopy
● MrJob (Yelp)
● Dumbo (LastFm)
Nenhuma funciona com Python 3+
Python + Hadoop [1]
MapReduceLib [0]
● Uma maneira de não mexer mais com Shell e
Java
● Uma abstração simples com um único import
● Funcionar bem com o modo interativo
● Acessar o sistema de arquivos distribuído
● Executar funções administrativas
● Fosse compatível com Spark
Python 3 + apache hadoop
Python 3 + apache hadoop
Obrigado
mendesxeduardo@gmail.com
github.com/z4r4tu5tr4
Anúncio

Mais conteúdo relacionado

Destaque (14)

Precipitación, heliofania, nubosidad
Precipitación, heliofania,  nubosidadPrecipitación, heliofania,  nubosidad
Precipitación, heliofania, nubosidad
Verónica Yadira
 
Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIA
Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIAReciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIA
Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIA
Aaron Alex Huillcas Sullcaray
 
6 precipitacion
6 precipitacion6 precipitacion
6 precipitacion
Juan Soto
 
Climatologia
ClimatologiaClimatologia
Climatologia
Duvan Esteban Reyes Gutierrez
 
Mapas conceptuales de Metereología
Mapas conceptuales de MetereologíaMapas conceptuales de Metereología
Mapas conceptuales de Metereología
Wido Mf
 
Climatologia geral ( luiz andré)
Climatologia geral ( luiz andré)Climatologia geral ( luiz andré)
Climatologia geral ( luiz andré)
Luiz André Dias Tavares
 
Precipitacion
PrecipitacionPrecipitacion
Precipitacion
Ruly J Quiroz Lopz
 
Climatologia geográfica
Climatologia geográficaClimatologia geográfica
Climatologia geográfica
Gustavo Silva de Souza
 
What's new in hadoop 3.0
What's new in hadoop 3.0What's new in hadoop 3.0
What's new in hadoop 3.0
Heiko Loewe
 
Learn Hadoop Administration
Learn Hadoop AdministrationLearn Hadoop Administration
Learn Hadoop Administration
Edureka!
 
Hadoop Administration pdf
Hadoop Administration pdfHadoop Administration pdf
Hadoop Administration pdf
Edureka!
 
Como se forma la lluvia
Como se forma la lluviaComo se forma la lluvia
Como se forma la lluvia
enoc gomez
 
Apache Hadoop 3.0 What's new in YARN and MapReduce
Apache Hadoop 3.0 What's new in YARN and MapReduceApache Hadoop 3.0 What's new in YARN and MapReduce
Apache Hadoop 3.0 What's new in YARN and MapReduce
DataWorks Summit/Hadoop Summit
 
FENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑAFENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑA
danielvare
 
Precipitación, heliofania, nubosidad
Precipitación, heliofania,  nubosidadPrecipitación, heliofania,  nubosidad
Precipitación, heliofania, nubosidad
Verónica Yadira
 
6 precipitacion
6 precipitacion6 precipitacion
6 precipitacion
Juan Soto
 
Mapas conceptuales de Metereología
Mapas conceptuales de MetereologíaMapas conceptuales de Metereología
Mapas conceptuales de Metereología
Wido Mf
 
What's new in hadoop 3.0
What's new in hadoop 3.0What's new in hadoop 3.0
What's new in hadoop 3.0
Heiko Loewe
 
Learn Hadoop Administration
Learn Hadoop AdministrationLearn Hadoop Administration
Learn Hadoop Administration
Edureka!
 
Hadoop Administration pdf
Hadoop Administration pdfHadoop Administration pdf
Hadoop Administration pdf
Edureka!
 
Como se forma la lluvia
Como se forma la lluviaComo se forma la lluvia
Como se forma la lluvia
enoc gomez
 
FENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑAFENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑA
danielvare
 

Semelhante a Python 3 + apache hadoop (20)

Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6
William Colen
 
Hadoop
HadoopHadoop
Hadoop
Gustavo De Lima Rosolen
 
Hadoop
HadoopHadoop
Hadoop
Gustavo De Lima Rosolen
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
Ambiente Livre
 
Linguagem Python
Linguagem PythonLinguagem Python
Linguagem Python
Alexandre Machado
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
Desenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando PythonDesenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando Python
Flávio Ribeiro
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
Alessandro Binhara
 
MEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupMEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon Meetup
André Cruz
 
Doctrine 2 camada de persistência para php
Doctrine 2   camada de persistência para phpDoctrine 2   camada de persistência para php
Doctrine 2 camada de persistência para php
Fabio B. Silva
 
Explorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open SourceExplorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open Source
Rafael Jaques
 
PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011
Evaldo Junior
 
Open ldap criando e explorando um overlay
Open ldap   criando e explorando um overlayOpen ldap   criando e explorando um overlay
Open ldap criando e explorando um overlay
Marcelo Fleury
 
OpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlayOpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlay
Diego Santos
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
Alexandre Uehara
 
Intro linux
Intro linuxIntro linux
Intro linux
Luis Duli
 
Postgres, a "Metamorfose Ambulante"
Postgres, a "Metamorfose Ambulante"Postgres, a "Metamorfose Ambulante"
Postgres, a "Metamorfose Ambulante"
Fabio Telles Rodriguez
 
Hadoop - TDC 2012
Hadoop - TDC 2012Hadoop - TDC 2012
Hadoop - TDC 2012
wchevreuil
 
Drupal + Rex
Drupal + RexDrupal + Rex
Drupal + Rex
paulo_graca
 
Extreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe DelphiExtreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe Delphi
Mario Guedes
 
Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6
William Colen
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
Ambiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
Desenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando PythonDesenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando Python
Flávio Ribeiro
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
Alessandro Binhara
 
MEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupMEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon Meetup
André Cruz
 
Doctrine 2 camada de persistência para php
Doctrine 2   camada de persistência para phpDoctrine 2   camada de persistência para php
Doctrine 2 camada de persistência para php
Fabio B. Silva
 
Explorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open SourceExplorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open Source
Rafael Jaques
 
PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011
Evaldo Junior
 
Open ldap criando e explorando um overlay
Open ldap   criando e explorando um overlayOpen ldap   criando e explorando um overlay
Open ldap criando e explorando um overlay
Marcelo Fleury
 
OpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlayOpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlay
Diego Santos
 
Hadoop - TDC 2012
Hadoop - TDC 2012Hadoop - TDC 2012
Hadoop - TDC 2012
wchevreuil
 
Extreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe DelphiExtreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe Delphi
Mario Guedes
 
Anúncio

Python 3 + apache hadoop