SlideShare a Scribd company logo
FAKTY KONTRA MITY
CZYLI BIG DATA W PORTALU INTERNETOWYM
Andrzej Litewka
Grupa Interia
1,16	
  mld	
  	
  
PV	
  /	
  m-­‐c	
  
38	
  mln	
  	
  
Unique	
  Visitors	
  
Ponad	
  200	
  usług	
  
Źródło: Gemius Megapanel, Grudzień 2014
Fakty i mity, czyli big data w portalu internetowym
rok 2011
Interia
Kokpit/Target
ClickMapa
²  Coraz	
  więcej	
  danych	
  
²  Coraz	
  więcej	
  wskaźników	
  
²  Ograniczenia	
  relacyjnych	
  baz	
  danych	
  
Jakie	
  problemy	
  napotykają	
  firmy	
  przy	
  wdrażaniu	
  big	
  data?	
  
Źródlło: IDG, Raport Computerworld Polska Big Data+, Wrzesień 2014
7 serwerów
2-4 GB RAM; 6-12 TB; 1x CPU 2-4 core
2 serwery
8 GB RAM; 12 TB; 2x CPU 4 core
Jak	
  podeszliśmy	
  do	
  Big	
  Data	
  
Hardware
Ludzie
programista, administrator, analityk
Pomysł
Click	
  
stream	
  
`	
  
Logi	
  
aplikacji	
  
Dane	
  
markeUngowe	
  
Wnioski	
  z	
  pilota	
  
•  Jest	
  moc	
  J	
  
•  Wskazany	
  lepszy	
  sprzęt	
  
•  Weryfikacja	
  podejścia	
  
realizacji	
  
– applicaUon	
  management	
  
– DevOps	
  
•  Wdrożenie	
  i	
  użytkowanie	
  
Big	
  Data	
  należy	
  traktować	
  
jako	
  proces	
  
•  Szukać	
  praktycznego	
  użycia	
  
w	
  produktach	
  
Oozie	
  
Impala	
  Pig	
   Hive	
   HBase	
   Spark	
  
YARN	
  
HDFS	
  
Flume	
   Kaba	
   Sqoop	
   HUE	
   Statsman	
  
Storm	
  
MongoDB	
  
couchebase	
  
Node.JS	
  
60	
  
serwerów	
  
	
  
500	
  TB	
  
ponad	
  
	
  
Dostępna	
  przestrzeń	
  	
  
Cloudera	
  
CDH	
  5	
  
Clickstream	
  
Logi	
  
MarkeUng	
  
Dane	
  z	
  usług	
  
DANE	
  
	
  ~10	
  GB	
  	
  
na	
  godzinę	
  
	
  250	
  GB	
  
dziennie	
  	
  
7	
  TB	
  
Miesięczny	
  przyrost	
  danych	
  	
  
Fakty i mity, czyli big data w portalu internetowym
Dzienny	
  strumień	
  danych	
  
~15	
  -­‐20	
  mln	
  rekordów	
  
>450	
  mln	
  rekordów	
  
miesięcznie	
  
Udział	
  ruchu	
  mobilnego	
  –	
  święta	
  Bożego	
  Narodzenia	
  2014	
  
Informacyjne	
   magazyny	
  
Udział	
  robotów	
  w	
  ilości	
  requestów	
  
Rozkład	
  ilości	
  zakładek	
  ze	
  stronami	
  Interii	
  w	
  oknie	
  przeglądarki	
  
Fakty i mity, czyli big data w portalu internetowym
Ask

See

Ask

Develop

See

Refine

x

 Learn

x

Data

Discovery

Traditional

BI
Fakty i mity, czyli big data w portalu internetowym
Analiza	
  Real	
  Time	
  
Guarana	
  
Identyfikacja	
  
użytkownika	
  
Przypisanie	
  do	
  
segmentu	
  
Tabele	
  
scoringowe	
  
CMS	
  
Moduł	
  	
  
PragmaUc	
  Web	
  
Generacja	
  
Strony	
  
Fakty i mity, czyli big data w portalu internetowym

More Related Content

PDF
Azure - Duże zbiory w chmurze
Data Science Warsaw
 
PDF
Big Data +
Maciej Mroczek
 
PPTX
Big data w strategii marketingowej
grey tree sp z o.o.
 
PPTX
Big data big mystery ?
Paweł Ociepka
 
PDF
Making data work, czyli jak przemienić Big Data w Smart Data?
Beyond.pl
 
PDF
Wyklad inauguracyjny
Radoslaw Kita
 
PDF
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Data Science Warsaw
 
PPTX
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka
 
Azure - Duże zbiory w chmurze
Data Science Warsaw
 
Big Data +
Maciej Mroczek
 
Big data w strategii marketingowej
grey tree sp z o.o.
 
Big data big mystery ?
Paweł Ociepka
 
Making data work, czyli jak przemienić Big Data w Smart Data?
Beyond.pl
 
Wyklad inauguracyjny
Radoslaw Kita
 
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Data Science Warsaw
 
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka
 

More from Evention (20)

PDF
The Factorization Machines algorithm for building recommendation system - Paw...
Evention
 
PDF
A/B testing powered by Big data - Saurabh Goyal, Booking.com
Evention
 
PDF
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
Evention
 
PDF
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
Evention
 
PDF
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
Evention
 
PDF
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
Evention
 
PDF
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
Evention
 
PDF
Privacy by Design - Lars Albertsson, Mapflat
Evention
 
PDF
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
Evention
 
PDF
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
Evention
 
PDF
Enhancing Spark - increase streaming capabilities of your applications - Kami...
Evention
 
PDF
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
Evention
 
PDF
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
Evention
 
PDF
Stream processing with Apache Flink - Maximilian Michels Data Artisans
Evention
 
PDF
Scaling Cassandra in all directions - Jimmy Mardell Spotify
Evention
 
PDF
Big Data for unstructured data Dariusz Śliwa
Evention
 
PDF
Elastic development. Implementing Big Data search Grzegorz Kołpuć
Evention
 
PDF
H2 o deep water making deep learning accessible to everyone -jo-fai chow
Evention
 
PDF
That won’t fit into RAM - Michał Brzezicki
Evention
 
PDF
Stream Analytics with SQL on Apache Flink - Fabian Hueske
Evention
 
The Factorization Machines algorithm for building recommendation system - Paw...
Evention
 
A/B testing powered by Big data - Saurabh Goyal, Booking.com
Evention
 
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
Evention
 
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
Evention
 
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
Evention
 
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
Evention
 
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
Evention
 
Privacy by Design - Lars Albertsson, Mapflat
Evention
 
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
Evention
 
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
Evention
 
Enhancing Spark - increase streaming capabilities of your applications - Kami...
Evention
 
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
Evention
 
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
Evention
 
Stream processing with Apache Flink - Maximilian Michels Data Artisans
Evention
 
Scaling Cassandra in all directions - Jimmy Mardell Spotify
Evention
 
Big Data for unstructured data Dariusz Śliwa
Evention
 
Elastic development. Implementing Big Data search Grzegorz Kołpuć
Evention
 
H2 o deep water making deep learning accessible to everyone -jo-fai chow
Evention
 
That won’t fit into RAM - Michał Brzezicki
Evention
 
Stream Analytics with SQL on Apache Flink - Fabian Hueske
Evention
 
Ad

Fakty i mity, czyli big data w portalu internetowym