2019/08/23 第21回 Tokyo Jazug Night
https://jazug.connpass.com/event/139300/
動画: https://www.youtube.com/watch?v=YMAV8aqb9pk
MyRocks is an open source LSM based MySQL database, created by Facebook. This slides introduce MyRocks overview and how we deployed at Facebook, as of 2017.
2019/08/23 第21回 Tokyo Jazug Night
https://jazug.connpass.com/event/139300/
動画: https://www.youtube.com/watch?v=YMAV8aqb9pk
MyRocks is an open source LSM based MySQL database, created by Facebook. This slides introduce MyRocks overview and how we deployed at Facebook, as of 2017.
Simplify and Secure your Hadoop Environment with Hortonworks and CentrifyHortonworks
Join this webinar to explore Hadoop security challenges and trends, learn how to simply the connection of your Hortonworks Data Platform to your existing Active Directory infrastructure and hear about real world examples of organizations that are achieving the following benefits:
- Secured Hortonworks environments thanks to Active Directory infrastructure for identity and authentication.
- Increased productivity and security via single sign-on for IT admins and Hadoop users.
- Least privilege and session monitoring for privileged access to Hortonworks clusters.
Webinar URL: http://hortonworks.com/webinar/simplify-and-secure-your-hadoop-environment-with-hortonworks-and-centrify/
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Nagato Kasaki
現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。
Hadoop / Spark Conference Japan 2016
http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-20809016328
Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。
Cloudera World Tokyo 2014 のライトニングセッションで使用したスライドです。
Cloudera World Tokyo 2014: http://www.cloudera.co.jp/jpevents/cwt2014
前回のスライド
http://www.slideshare.net/Cloudera_jp/hadoopgui-hue
This document discusses Hortonworks Data Platform (HDP) updates and releases. It notes that HDP will have more frequent releases of components like Spark, Hive, and Ambari, while having longer release cycles for core Hadoop components. HDP 2.5 is highlighted as including interactive Hive queries using LLAP, enterprise Spark support in Zeppelin notebooks, real-time applications support in Storm and HBase/Phoenix, streamlined operations using Ambari, and dynamic security with Atlas and Ranger integration.
This document discusses the evolution of Hadoop and its use cases in the adtech industry. It describes how Hadoop was initially used primarily for batch processing via Hive and MapReduce. Over time, improvements like Tez, Presto, and Impala enabled faster interactive SQL queries on big data. The document also outlines how the Hadoop ecosystem is now used for real-time log collection, reporting, model generation, and more across the entire adtech stack. Key recent developments discussed include improvements in Hive like LLAP that enable sub-second SQL and ACID transactions, as well as tools like Cloudbreak for deploying Hadoop clusters in the cloud.
Dynamic Resource Allocation in Apache SparkYuta Imai
Dynamic resource allocation in Apache Spark allows executors to be dynamically added or removed based on the workload of applications. Extra executors are added when applications have pending tasks to help balance workload, and idle executors are removed to free resources for other applications. The dynamic allocation policies control when executors are requested or removed based on factors like pending tasks and executor idle time. An external shuffle service is also used to improve shuffle performance.
今回のウェビナーでは、Hadoop1.xからみなさまに深く親しまれてきたApache Hiveが昨今、どのような形で高速化されてきたかについて話します。MapReduceからTezに変わった実行エンジン、インデックスを持ったカラムナーファイルフォーマットであるORC、モダンなCPUを最大限に活用するVectorization、Apache Calciteを利用したCost Based Optimizerによる実行計画の最適化、そして1秒以下のクエリレスポンスを実現するLLAPについて説明します。いずれの機能も数行の設定やコマンドで活用可能なものばかりですが、今回はそれらの背景でどんな仕組みが動いているのか、どんな仕組みで実現されているのかということについて話します。
The story about how to figure out what to measure, and how you can benchmark that. This slide deck tells the idea of benchmarking and does not tell actual commercial/open source benchmark tools.