Python 3 + apache hadoop

18 de dez. de 20150 gostou394 visualizações

Este documento discute problemas de processamento de grandes volumes de dados em meteorologia e linguística de corpus e propõe soluções usando Apache Hadoop. Ele descreve desafios com bases de dados meteorológicas atualizadas frequentemente e operações comuns em linguística de corpus. Também analisa porque soluções anteriores como Celery + NFS e Python + Mongo não funcionaram bem e propõe que o Apache Hadoop é uma boa alternativa por causa de sua tolerância a falhas, interface amigável e boa documentação.

Python 3 +
Apache Hadoop
Eduardo Mendes (z4r4tu5tr4)

z4r4tu5tr4@Babbage: whoami
● Eduardo Mendes
● Fatec Americana
● github.com/z4r4tu5tr4
● mendesxeduardo@gmail.com

Estrutura
● Problemas
○ Metereologia
○ Linguística de Corpus
● Soluções
○ Celery + NFS
○ Python + Mongo
○ Disco
○ Hadoop

Problemas
Metereologia e Linguística de Corpus

Metereologia
● Cruzamento de duas bases de dados
● Atualizadas de 15 em 15 minutos
● Durante 100 anos
● Tabelas xls
● Mudança de padrão com o passar dos anos

Linguística de Corpus [0]
Linguística de corpus ocupa-se ela da coleta e da exploração de corpora, ou
conjutos de dados linguísticos textuais coletados criteriosamente, com o
propósito de servirem para a pesquisa de uma língua ou variedade linguística.
Como tal, dedica-se à exploração da linguagem por meio de evidências
empíricas, extraídas de computadores
(Sardinha, 2014)

Linguística de Corpus [1]
● O que esperar?
○ Não é PLN
○ Não é mineração de dados
○ Não é aprendizado de máquina

Linguística de Corpus [2]
Operações básicas esperadas LC (Mike Scott):
● Contagem de palavras (WordList)
● Concordância (Concord)
● Comparação (KeyWords)
● Etiquetagem (Tagging)

Celery + NFS
● Complexibilidade de código
● Problemas com logs
● NFS não particiona arquivos
○ Problemas de leitura e armazenamento

Python + Mongo
● Uma solução excelente com metereologia e
péssima com Linguística.

Sistema de arquivos distribuído
● Google File System
○ Particiona arquivos em partes de 64mb
○ Três cópias de cada replicação
○ Arquitetura ‘Master - slave’

Disco
● Framework para processamento distribuído
● Feito em Python
● Projeto ‘Jovem’
● “Não tem a melhor documentação do
mundo”

Apache Hadoop [0]
● Framework livre
● Escrito em Java
● Adaptação do Google File System (GFS)
● Adaptação do algorítimo de MapReduce
● “Pode ser programado em qualquer
linguagem” - Streaming

Apache Hadoop [1]
● Tolerância a falhas
● Interface amigável
● Boa documentação
● YARN

Hadoop Streaming [0]
● Boa interface para se trabalhar com
qualquer linguagem quando usamos shell
script
● Código ‘simples’

Python + Hadoop [0]
● Pydoop (CRS4)
● Hadoopy
● MrJob (Yelp)
● Dumbo (LastFm)
Nenhuma funciona com Python 3+

MapReduceLib [0]
● Uma maneira de não mexer mais com Shell e
Java
● Uma abstração simples com um único import
● Funcionar bem com o modo interativo
● Acessar o sistema de arquivos distribuído
● Executar funções administrativas
● Fosse compatível com Spark

Obrigado
mendesxeduardo@gmail.com
github.com/z4r4tu5tr4

Recomendados

Primeiros passos machine learning PostgreSQLDickson S. Guedes

Seja DinâMico Com PythonCampus Party Brasil

Mongodb: agregaçãoLuciano Ramalho

Treinamento com SphinxTrainGabriel Araujo

MongoDBGabriel Feitosa Vilar

Arduino: hardware hacking & coding dojoLuciano Ramalho

Ruby versus PythonPriscila Mayumi

Hadoop 3.0 featuresanand murari

Precipitación, heliofania, nubosidadVerónica Yadira

El documento describe los parámetros climáticos como precipitación, nubosidad y horas de sol en las ciudades de Quito y Medellín. En Quito, la precipitación anual en 2012 fue de 1081.5 mm y la nubosidad media fue de 6 octas. La precipitación entre 2015-2016 fue de 1191 mm y la heliofania es de 4-5 horas por día. En Medellín, la precipitación anual es de 1650 mm y se concentra de mayo a junio y de agosto a noviembre. Los gráficos muestran la precip

Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIAAaron Alex Huillcas Sullcaray

6 precipitacionJuan Soto

Este documento proporciona información sobre precipitación, incluyendo su definición, formación, tipos, medición y análisis. Brevemente resume: 1) La precipitación se refiere a agua que cae de la atmósfera en forma de lluvia, nieve u otros tipos. 2) Se forma a través de la condensación de vapor de agua en gotas de agua en las nubes. 3) Los tipos incluyen lluvia, granizo y nieve, y su medición se realiza con pluviómetros.

ClimatologiaDuvan Esteban Reyes Gutierrez

El documento describe el clima y sus componentes, factores que lo afectan como la latitud, terreno y altitud. Explica el concepto de microclima y su importancia para la arquitectura bioclimática. Luego describe el sistema de clasificación de zonas de vida de Holdridge basado en biotemperatura, precipitación y evapotranspiración. Finalmente, analiza la relación entre clima y otros factores ambientales como suelos, relieve e hidrografía.

Mapas conceptuales de MetereologíaWido Mf

El documento habla sobre la rosa de los vientos, que es una herramienta de navegación que guía a los marineros mostrando la orientación de los ocho vientos principales. Registra la dirección y velocidad del viento, la temperatura y la presión atmosférica. También describe el ciclo hidrológico y los diferentes estados del agua, como sólido, líquido y gaseoso, asi como las clases de agua como natural, potable, mineral y destilada.

Climatologia geral ( luiz andré)Luiz André Dias Tavares

PrecipitacionRuly J Quiroz Lopz

Este documento describe los diferentes tipos de precipitación, incluyendo lluvia, nieve, granizo y escarcha. Explica cómo se forman las nubes y la precipitación a través de la condensación del vapor de agua en la atmósfera y los mecanismos de enfriamiento del aire, como la elevación orográfica o convectiva. También clasifica la precipitación según sus características físicas y su mecanismo de formación, e introduce conceptos como pluviometría y estaciones meteorológicas para medir la

Climatologia geográficaGustavo Silva de Souza

O documento discute diversos tópicos relacionados à climatologia geográfica, incluindo: 1) A camada de ozônio protege a Terra dos raios UV; 2) Clima é definido como os padrões atmosféricos em uma região ao longo de anos, enquanto tempo refere-se às condições atmosféricas de curto prazo; 3) Fatores como latitude, altitude e continentalidade influenciam variáveis climáticas como temperatura, pressão e ventos.

What's new in hadoop 3.0Heiko Loewe

Learn Hadoop AdministrationEdureka!

The Hadoop Cluster Administration course at Edureka starts with the fundamental concepts of Apache Hadoop and Hadoop Cluster. It covers topics to deploy, manage, monitor, and secure a Hadoop Cluster. You will learn to configure backup options, diagnose and recover node failures in a Hadoop Cluster. The course will also cover HBase Administration. There will be many challenging, practical and focused hands-on exercises for the learners. Software professionals new to Hadoop can quickly learn the cluster administration through technical sessions and hands-on labs. By the end of this six week Hadoop Cluster Administration training, you will be prepared to understand and solve real world problems that you may come across while working on Hadoop Cluster.

Hadoop Administration pdfEdureka!

This document provides an overview of a Hadoop administration course offered on the edureka.in website. It describes the course topics which include understanding big data, Hadoop components, Hadoop configuration, different server roles, and data processing flows. It also outlines how the course works, with live classes, recordings, quizzes, assignments, and certification. The document then provides more detail on specific topics like what is big data, limitations of existing solutions, how Hadoop solves these problems, and introductions to Hadoop, MapReduce, and the roles of a Hadoop cluster administrator.

Como se forma la lluviaenoc gomez

La lluvia se forma a través de un proceso de evaporación, condensación y precipitación. Primero, el sol calienta el agua y la evapora en forma de vapor invisible. Luego, el vapor de agua se condensa en las nubes. Finalmente, la precipitación ocurre cuando las gotas de agua en las nubes se vuelven lo suficientemente pesadas y caen a la tierra como lluvia. Parte del agua de lluvia se evapora de nuevo, mientras que otra parte forma ríos y es absorbida por el suelo para ser utilizada por las plantas

Apache Hadoop 3.0 What's new in YARN and MapReduceDataWorks Summit/Hadoop Summit

This document summarizes a presentation about new features in Apache Hadoop 3.0 related to YARN and MapReduce. It discusses major evolutions like the re-architecture of the YARN Timeline Service (ATS) to address scalability, usability, and reliability limitations. Other evolutions mentioned include improved support for long-running native services in YARN, simplified REST APIs, service discovery via DNS, scheduling enhancements, and making YARN more cloud-friendly with features like dynamic resource configuration and container resizing. The presentation estimates the timeline for Apache Hadoop 3.0 releases with alpha, beta, and general availability targeted throughout 2017.

FENOMENO DEL NIÑO Y LA NIÑAdanielvare

El Niño es un fenómeno climático cíclico que provoca cambios en las corrientes marinas del Pacífico, causando estragos a nivel mundial debido a las lluvias e inundaciones, afectando principalmente a América del Sur. Se detecta mediante boyas, satélites y análisis del nivel del mar, y se caracteriza por el calentamiento de las aguas del Pacífico y el desplazamiento de la zona de convergencia intertropical.

Processamento Automático da Língua Portuguesa - Campus Party Br 6William Colen

HadoopGustavo De Lima Rosolen

O documento discute o Hadoop, uma plataforma de software de código aberto para processamento de grandes volumes de dados. Apresenta suas principais características como sistema de arquivos distribuído HDFS, modelo de programação MapReduce e framework YARN para gerenciamento de recursos. Também descreve onde é usado na prática por empresas como Yahoo, Facebook e LinkedIn para análises de big data.

HadoopGustavo De Lima Rosolen

Hadoop é uma plataforma de software de código aberto para processamento distribuído de grandes conjuntos de dados através de clusters de computadores. Ele permite o armazenamento e análise de petabytes de dados em clusters com hardware comum e de baixo custo, e escala horizontalmente conforme os dados e as necessidades de processamento aumentam. Hadoop consiste em HDFS para armazenamento de dados e MapReduce para processamento paralelo e distribuído.

Big Data Open Source com HadoopAmbiente Livre

Linguagem PythonAlexandre Machado

Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira

Desenvolvimento de aplicações embarcadas utilizando PythonFlávio Ribeiro

Filesystem distribuído com hadoop!!! Alessandro Binhara

O documento discute o sistema de arquivos distribuído Hadoop para processamento de grandes volumes de dados. Ele explica como o Hadoop permite armazenar e processar petabytes de dados em hardware comum e tolera falhas de forma transparente para as aplicações. Também descreve os principais componentes do Hadoop como HDFS, MapReduce e como eles trabalham juntos para fornecer escalabilidade e confiabilidade.

Anúncio

Mais conteúdo relacionado

Destaque (14)

Precipitación, heliofania, nubosidadVerónica Yadira

Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIAAaron Alex Huillcas Sullcaray

6 precipitacionJuan Soto

ClimatologiaDuvan Esteban Reyes Gutierrez

Mapas conceptuales de MetereologíaWido Mf

Climatologia geral ( luiz andré)Luiz André Dias Tavares

PrecipitacionRuly J Quiroz Lopz

Climatologia geográficaGustavo Silva de Souza

What's new in hadoop 3.0Heiko Loewe

Learn Hadoop AdministrationEdureka!

Hadoop Administration pdfEdureka!

Como se forma la lluviaenoc gomez

Apache Hadoop 3.0 What's new in YARN and MapReduceDataWorks Summit/Hadoop Summit

FENOMENO DEL NIÑO Y LA NIÑAdanielvare

Precipitación, heliofania, nubosidadVerónica Yadira

Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIAAaron Alex Huillcas Sullcaray

6 precipitacionJuan Soto

ClimatologiaDuvan Esteban Reyes Gutierrez

Mapas conceptuales de MetereologíaWido Mf

Climatologia geral ( luiz andré)Luiz André Dias Tavares

PrecipitacionRuly J Quiroz Lopz

Climatologia geográficaGustavo Silva de Souza

What's new in hadoop 3.0Heiko Loewe

Learn Hadoop AdministrationEdureka!

Hadoop Administration pdfEdureka!

Como se forma la lluviaenoc gomez

Apache Hadoop 3.0 What's new in YARN and MapReduceDataWorks Summit/Hadoop Summit

FENOMENO DEL NIÑO Y LA NIÑAdanielvare

Semelhante a Python 3 + apache hadoop (20)

Processamento Automático da Língua Portuguesa - Campus Party Br 6William Colen

HadoopGustavo De Lima Rosolen

Big Data Open Source com HadoopAmbiente Livre

Linguagem PythonAlexandre Machado

Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira

Desenvolvimento de aplicações embarcadas utilizando PythonFlávio Ribeiro

Filesystem distribuído com hadoop!!! Alessandro Binhara

MEO Cloud - Python Lisbon MeetupAndré Cruz

O documento descreve o serviço de armazenamento na nuvem MEO Cloud, incluindo sua arquitetura backend, aplicativos de desktop e API pública. A arquitetura backend usa Cassandra para armazenamento de metadados e Swift para armazenamento de arquivos. Os aplicativos de desktop são desenvolvidos para Windows, macOS e Linux usando Python, C++ e Objective-C. A API pública oferece mais de 40 operações para acesso aos dados do usuário.

Doctrine 2 camada de persistência para phpFabio B. Silva

O documento apresenta o ORM Doctrine 2, descrevendo-o como uma camada de persistência para PHP que mapeia objetos para bancos de dados relacionais. Resume alguns dos principais recursos do Doctrine 2, como mapeamento de objetos, relacionamentos, herança, DQL e cache para melhorar o desempenho. Conclui afirmando que o Doctrine 2 simplifica o desenvolvimento e é uma opção madura e estável para ORM em PHP.

Explorando O Potencial Das Linguagens De Programação Open SourceRafael Jaques

PHP Turbinado com CodeIgniter - Conisli 2011Evaldo Junior

Este documento apresenta o framework PHP CodeIgniter. Resume as seguintes informações essenciais: 1) Apresenta a história do PHP e como o CodeIgniter ajuda a resolver problemas comuns em projetos PHP grandes; 2) Explica os principais recursos e benefícios do CodeIgniter como MVC, facilidade de uso, documentação, entre outros; 3) Demonstra como o CodeIgniter organiza controllers, models, views e URLs de forma simples e padronizada.

Open ldap criando e explorando um overlayMarcelo Fleury

OpenLDAP, criando e explorando um overlayDiego Santos

Treinamento hadoop - dia4Alexandre Uehara

Intro linuxLuis Duli

Postgres, a "Metamorfose Ambulante"Fabio Telles Rodriguez

Hadoop - TDC 2012wchevreuil

Drupal + Rexpaulo_graca

Extreme Experience 2018 | Python para quem sabe DelphiMario Guedes

Processamento Automático da Língua Portuguesa - Campus Party Br 6William Colen

HadoopGustavo De Lima Rosolen

Big Data Open Source com HadoopAmbiente Livre

Linguagem PythonAlexandre Machado

Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira

Desenvolvimento de aplicações embarcadas utilizando PythonFlávio Ribeiro

Filesystem distribuído com hadoop!!! Alessandro Binhara

MEO Cloud - Python Lisbon MeetupAndré Cruz

Doctrine 2 camada de persistência para phpFabio B. Silva

Explorando O Potencial Das Linguagens De Programação Open SourceRafael Jaques

PHP Turbinado com CodeIgniter - Conisli 2011Evaldo Junior

Open ldap criando e explorando um overlayMarcelo Fleury

OpenLDAP, criando e explorando um overlayDiego Santos

Treinamento hadoop - dia4Alexandre Uehara

Intro linuxLuis Duli

Postgres, a "Metamorfose Ambulante"Fabio Telles Rodriguez

Hadoop - TDC 2012wchevreuil

Drupal + Rexpaulo_graca

Extreme Experience 2018 | Python para quem sabe DelphiMario Guedes

Anúncio

Python 3 + apache hadoop

1. Python 3 + Apache Hadoop Eduardo Mendes (z4r4tu5tr4)

2. z4r4tu5tr4@Babbage: whoami ● Eduardo Mendes ● Fatec Americana ● github.com/z4r4tu5tr4 ● [email protected]

3. Estrutura ● Problemas ○ Metereologia ○ Linguística de Corpus ● Soluções ○ Celery + NFS ○ Python + Mongo ○ Disco ○ Hadoop

4. Problemas Metereologia e Linguística de Corpus

5. Metereologia ● Cruzamento de duas bases de dados ● Atualizadas de 15 em 15 minutos ● Durante 100 anos ● Tabelas xls ● Mudança de padrão com o passar dos anos

6. Linguística de Corpus [0] Linguística de corpus ocupa-se ela da coleta e da exploração de corpora, ou conjutos de dados linguísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas de computadores (Sardinha, 2014)

7. Linguística de Corpus [1] ● O que esperar? ○ Não é PLN ○ Não é mineração de dados ○ Não é aprendizado de máquina

8. Linguística de Corpus [2] Operações básicas esperadas LC (Mike Scott): ● Contagem de palavras (WordList) ● Concordância (Concord) ● Comparação (KeyWords) ● Etiquetagem (Tagging)

9. “Soluções” Parciais

10. Celery + NFS ● Complexibilidade de código ● Problemas com logs ● NFS não particiona arquivos ○ Problemas de leitura e armazenamento

11. Python + Mongo ● Uma solução excelente com metereologia e péssima com Linguística.

12. Soluções O que deu certo

13. Sistema de arquivos distribuído ● Google File System ○ Particiona arquivos em partes de 64mb ○ Três cópias de cada replicação ○ Arquitetura ‘Master - slave’

14. Sistema de arquivos distribuído

15. MapReduce

16. Disco ● Framework para processamento distribuído ● Feito em Python ● Projeto ‘Jovem’ ● “Não tem a melhor documentação do mundo”

17. Apache Hadoop [0] ● Framework livre ● Escrito em Java ● Adaptação do Google File System (GFS) ● Adaptação do algorítimo de MapReduce ● “Pode ser programado em qualquer linguagem” - Streaming

18. Apache Hadoop [1] ● Tolerância a falhas ● Interface amigável ● Boa documentação ● YARN

19. Apache Hadoop [2]

20. MapReduceLib [1]

21. Hadoop Streaming [0] ● Boa interface para se trabalhar com qualquer linguagem quando usamos shell script ● Código ‘simples’

24. Python + Hadoop [0] ● Pydoop (CRS4) ● Hadoopy ● MrJob (Yelp) ● Dumbo (LastFm) Nenhuma funciona com Python 3+

25. Python + Hadoop [1]

26. MapReduceLib [0] ● Uma maneira de não mexer mais com Shell e Java ● Uma abstração simples com um único import ● Funcionar bem com o modo interativo ● Acessar o sistema de arquivos distribuído ● Executar funções administrativas ● Fosse compatível com Spark

29. Obrigado [email protected] github.com/z4r4tu5tr4