SlideShare a Scribd company logo
Опыт внедрения Greenplum db
в Aviasales
Айнур Тимербаев
at@aviasales.ru
Проблема
Поиск решения
Архитектура
Инсталляция
Эксплуатация
Что имеем
Большое количество данных (3 TB)
Долгое построение отчетов
3 сервера (64 Ram x 1TB SSD)
Поиск решения
MPP архитектура
Адекватная стоимость/Open source
Простота работы и администрирования
Адекватный язык запросов
Наличие готовых BI инструментов
Open source
MPP architecture
Extension (not fork)
cstore_fdw + pg_shard
No DML
Limited joins
No CTE
Amazon dwh
PostgreSQL 8.2
Column store
MPP architecture
$13k per year (TB)
Open source
MPP architecture
Hybrid row/column store
PostgreSQL 8.2 (8.3)
PostgreSQL 8.2 (8.3)
8.3 Full text search (Apache SOLR)
8.4 Analytics functions (sum(baz) OVER (PARTITION BY foo))
8.4 CTE (WITH foo AS select * from bar)
9.5 GROUPING SETS/CUBE/ ROLLUP
9.6 parallel seq scan/aggregate (by design)
Fast
Very fast
Open source
Very specific SQL
Yandex ClickHouse
Horrible joins
Cant delete data(*)
Александр Зайцев. «Переезжаем на Yandex ClickHouse»
Tests
25M rows
0
50
100
150
200
1 week 1 month 3 month
Redshift Greenplum
Time in seconds (lower is better)
Time in seconds (lower is better)
0
17.5
35
52.5
70
Test 1 Test 2 Test 3
Yandex Clickhouse Greenplum
Архитектура
SQL
Master Node
Segment host Segment host
Segment host
Подробнее в блоге компании Тинькофф на Хабре
Beginners guide
Greenplum installation guide
10G interconnect
More disks (RAID 10)
swapoff
gpfdist — parallel file distribution program (more than 100GB)
s3 external tables (read/write/gzip)
COPY on master node (less than 100GB)
Don’t forget about VACUUM
Data loading
Data loading
No JSON type
pl/python + ujson
Don’t use JSON, please
Make columns from json fields (schema)
Default Monitoring
Greenplum command center
Basic charts and metrics
Query monitor
Historic data
Опыт внедрения Greenplum в Aviasales.ru
Monitoring in Aviasales
CPU+RAM+IO+LOCKS and other PostgreSQL stuff
Resource queues
Spilling queries gp_toolkit.gp_workfile* view
Telegraf — collect metrics
Grafana dashboards (4.0 alerts)
Опыт внедрения Greenplum в Aviasales.ru
Опыт внедрения Greenplum в Aviasales.ru
5TB compressed data (14TB uncompressed)
No aggregates
Near realtime BI
Questions?
Айнур Тимербаев
at@aviasales.ru

More Related Content

PPTX
"Многомерные индексы в РСУБД с открытым кодом" Бородин Андрей , Октоника, УрФУ
PDF
Criteo 1TiB Benchmark
PDF
Autoscaling for fun and profit
PPT
ADD2010: Обработка большого объема данных на платформеApache Hadoop
PDF
PostgreSQL + PostGIS + TimescaleDB - storage for monitoring systems
PDF
Доклад Антона Поварова на Tarantool Meetup. "Tarantool в Badoo: хранение исто...
PPTX
Технологии хранения для больших проектов / Сергей Платонов (RAIDIX)
PDF
Анализ данных и машинное обучение
"Многомерные индексы в РСУБД с открытым кодом" Бородин Андрей , Октоника, УрФУ
Criteo 1TiB Benchmark
Autoscaling for fun and profit
ADD2010: Обработка большого объема данных на платформеApache Hadoop
PostgreSQL + PostGIS + TimescaleDB - storage for monitoring systems
Доклад Антона Поварова на Tarantool Meetup. "Tarantool в Badoo: хранение исто...
Технологии хранения для больших проектов / Сергей Платонов (RAIDIX)
Анализ данных и машинное обучение

Viewers also liked (14)

PPTX
как сделать свой кластер на postgresql 95
PPTX
3Com 3C16456B
PDF
Equity Research Report 20 March 2017 Ways2Capital
PPTX
Task 4 niche
PPTX
Seo services in chandigarh
PPT
Ивентинг
PPTX
Frank Maene: pitching a business to private investors
PDF
Oferta y demanda
PDF
If You Hate Assessment You're Doing it Wrong
PDF
131111使いやすさ評価 - ミニEVカーシェアリング「チョイモビ チョコハマ」
PDF
Assegnazione agevolata dei beni ai soci e trasformazioni agevolate in società...
PDF
None More Black - the Dark Side of SEO
PPTX
Gli ordini di protezione tra diritto civile e penale
PDF
Details Of Traffic Police Spot Fine in TamilNadu
как сделать свой кластер на postgresql 95
3Com 3C16456B
Equity Research Report 20 March 2017 Ways2Capital
Task 4 niche
Seo services in chandigarh
Ивентинг
Frank Maene: pitching a business to private investors
Oferta y demanda
If You Hate Assessment You're Doing it Wrong
131111使いやすさ評価 - ミニEVカーシェアリング「チョイモビ チョコハマ」
Assegnazione agevolata dei beni ai soci e trasformazioni agevolate in società...
None More Black - the Dark Side of SEO
Gli ordini di protezione tra diritto civile e penale
Details Of Traffic Police Spot Fine in TamilNadu
Ad

Similar to Опыт внедрения Greenplum в Aviasales.ru (20)

PDF
Работа с Big Data
PDF
Android Telegram S Optimizations
PDF
Денис Колошко, Пример нагруженной системы на базе продуктов Microsoft, Amazon...
PPTX
2014.12.23 Александр Андреев, Parallels
PDF
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
PDF
Android: Как написать приложение, которое не тормозит
PDF
Эксперименты с Postgres в Docker и облаках — оптимизация настроек и схемы ва...
PDF
Машины баз данных: концентрированное обозрение
PPT
XML Native Database на примере SednaXML
PPT
phpConf 2010 Классификация систем хранения
PDF
20111002 information retrieval raskovalov_lecture3
PPTX
DSL без купюр
PDF
Hadoop -> Cascading -> Cascalog
PDF
Hadoop > cascading -> cascalog (short version)
PDF
Модернизация хранилища данных для использования передовой аналитики
PDF
Tarantool_qs
PPTX
Сервисы Azure для научных исследований
PDF
Использование ленточных технологий для сокращения стоимости файловых хранилищ
PPTX
High Load 2009 Dimaa Rus Ready 16 9
PDF
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
Работа с Big Data
Android Telegram S Optimizations
Денис Колошко, Пример нагруженной системы на базе продуктов Microsoft, Amazon...
2014.12.23 Александр Андреев, Parallels
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
Android: Как написать приложение, которое не тормозит
Эксперименты с Postgres в Docker и облаках — оптимизация настроек и схемы ва...
Машины баз данных: концентрированное обозрение
XML Native Database на примере SednaXML
phpConf 2010 Классификация систем хранения
20111002 information retrieval raskovalov_lecture3
DSL без купюр
Hadoop -> Cascading -> Cascalog
Hadoop > cascading -> cascalog (short version)
Модернизация хранилища данных для использования передовой аналитики
Tarantool_qs
Сервисы Azure для научных исследований
Использование ленточных технологий для сокращения стоимости файловых хранилищ
High Load 2009 Dimaa Rus Ready 16 9
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
Ad

Опыт внедрения Greenplum в Aviasales.ru