Each month, join us as we highlight and discuss hot topics ranging from the future of higher education to wearable technology, best productivity hacks and secrets to hiring top talent. Upload your SlideShares, and share your expertise with the world!
Not sure what to share on SlideShare?
SlideShares that inform, inspire and educate attract the most views. Beyond that, ideas for what you can upload are limitless. We’ve selected a few popular examples to get your creative juices flowing.
SlideShare is a global platform for sharing presentations, infographics, videos and documents. It has over 18 million pieces of professional content uploaded by experts like Eric Schmidt and Guy Kawasaki. The document provides tips for setting up an account on SlideShare, uploading content, optimizing it for searchability, and sharing it on social media to build an audience and reputation as a subject matter expert.
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серыйVladislav Morgun
SEO Team-lead в ЛУН & Flatfy. Куратор курса «Product SEO» в Projector. SEO-консультант
Серое SEO - баланс во вселенной.
Сын маминой подруги автоматизирует процессы. А вы?
Продвижение по белому, где все по чёрному.
Что делать, чтобы Google не укусил за бочок?
Как вам такое?
8-го ноября на Sempro.Club мы посмотрим на Google, как на продукт и узнаем как создать синергию между поиском и Вашим проектом. Обсудим цели и ограничения поисковых систем. Вектор их развития. Рассмотрим примеры поисковой оптимизации направленной на продукт и пользователя с использованием "серых" техник. Поделимся наработками по автоматизации процессов.
У нас в гостях Владислав Моргун SEO Team-lead в ЛУН & Flatfy. Вы знаете еще кого-то, кто имеет опыт продвижения долгосрочных белых проектов на 37+ стран?
Мероприятие Must know для SEO-специалистов, которые работают в продуктовых компаниях. Junior/Middle SEO.
Основы машинного обучения, базовые понятия (например переобучение и способы его предотвращения), различные архитектуры сетей, и, в частности, сверточные сети. Так же рассмотрены методы оптимизации вычислений в подобных архитектурах: quantization, binary-net и другие.
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
"Контекстная реклама в Avito: что под капотом?"
Вадим Аюев и Андрей Остапец (Avito)
Из этого доклада вы узнаете об основных этапах создания и обучения моделей, на основе которых работает контекстная реклама в Avito: как собираем и готовим данные, обучаем модели, как реализовано тестирование и внедрение.
Python Data Science meetup @ Avito 13.08.2016
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
Публикуем небольшую часть раздаточных материалов нашего семинара «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ», который прошел 24-25 апреля 2014 г. в Москве. Подробнее о семинаре, отзывы участников семинара см. здесь: http://analytikaplus.ru/?page_id=2122
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Yandex
2 июля 2011, Я.Субботник в Екатеринбурге
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
О докладе:
Про Python и Django: зачем нужна красота и простота перфекционистам с дедлайнами, на примере Яндекс.Погоды.
Когда число сервисов, которые делаются в Яндексе, стало возрастать, дедлайны — поджимать, а от процесса разработки требовалось стать более гибким, возникла потребность в свежих решениях. В докладе на примере Яндекс.Погоды рассказывается, как в Яндексе делают сервисы с помощью языка Python и веб-фреймворка Django.
The document discusses the "three body problem" in data science when integrating science, engineering, and product work. It describes four types of problems: optimizing existing products, iterating over existing algorithms, building new products, and applying new science to new products. Each type has good and bad aspects related to integration, uncertainty, and impact. Managing uncertainty is key, especially when starting simply and learning from experience. The overall goal is finding the right balance between these disciplines on a given project.
As a leading travel marketplace, Skyscanner is serving a daily load of up to a dozen billion flight itineraries to its users across the globe. The distribution of travel quotes at such a scale requires caching mechanisms optimized for minimizing the load on the partners (airlines and travel agencies) and maximizing the relevance and comprehensiveness of the itineraries to the travelers. This talk is focused on using data mining approaches for optimizing dynamic content distribution at scale and Skyscanner's efforts in this direction.
Ad
More Related Content
Similar to BigData и Data Science: методы и инструменты (20)
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серыйVladislav Morgun
SEO Team-lead в ЛУН & Flatfy. Куратор курса «Product SEO» в Projector. SEO-консультант
Серое SEO - баланс во вселенной.
Сын маминой подруги автоматизирует процессы. А вы?
Продвижение по белому, где все по чёрному.
Что делать, чтобы Google не укусил за бочок?
Как вам такое?
8-го ноября на Sempro.Club мы посмотрим на Google, как на продукт и узнаем как создать синергию между поиском и Вашим проектом. Обсудим цели и ограничения поисковых систем. Вектор их развития. Рассмотрим примеры поисковой оптимизации направленной на продукт и пользователя с использованием "серых" техник. Поделимся наработками по автоматизации процессов.
У нас в гостях Владислав Моргун SEO Team-lead в ЛУН & Flatfy. Вы знаете еще кого-то, кто имеет опыт продвижения долгосрочных белых проектов на 37+ стран?
Мероприятие Must know для SEO-специалистов, которые работают в продуктовых компаниях. Junior/Middle SEO.
Основы машинного обучения, базовые понятия (например переобучение и способы его предотвращения), различные архитектуры сетей, и, в частности, сверточные сети. Так же рассмотрены методы оптимизации вычислений в подобных архитектурах: quantization, binary-net и другие.
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
"Контекстная реклама в Avito: что под капотом?"
Вадим Аюев и Андрей Остапец (Avito)
Из этого доклада вы узнаете об основных этапах создания и обучения моделей, на основе которых работает контекстная реклама в Avito: как собираем и готовим данные, обучаем модели, как реализовано тестирование и внедрение.
Python Data Science meetup @ Avito 13.08.2016
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
Публикуем небольшую часть раздаточных материалов нашего семинара «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ», который прошел 24-25 апреля 2014 г. в Москве. Подробнее о семинаре, отзывы участников семинара см. здесь: http://analytikaplus.ru/?page_id=2122
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"Yandex
2 июля 2011, Я.Субботник в Екатеринбурге
Руслан Гроховецкий "Как Python стал делать погоду в Яндексе"
О докладе:
Про Python и Django: зачем нужна красота и простота перфекционистам с дедлайнами, на примере Яндекс.Погоды.
Когда число сервисов, которые делаются в Яндексе, стало возрастать, дедлайны — поджимать, а от процесса разработки требовалось стать более гибким, возникла потребность в свежих решениях. В докладе на примере Яндекс.Погоды рассказывается, как в Яндексе делают сервисы с помощью языка Python и веб-фреймворка Django.
The document discusses the "three body problem" in data science when integrating science, engineering, and product work. It describes four types of problems: optimizing existing products, iterating over existing algorithms, building new products, and applying new science to new products. Each type has good and bad aspects related to integration, uncertainty, and impact. Managing uncertainty is key, especially when starting simply and learning from experience. The overall goal is finding the right balance between these disciplines on a given project.
As a leading travel marketplace, Skyscanner is serving a daily load of up to a dozen billion flight itineraries to its users across the globe. The distribution of travel quotes at such a scale requires caching mechanisms optimized for minimizing the load on the partners (airlines and travel agencies) and maximizing the relevance and comprehensiveness of the itineraries to the travelers. This talk is focused on using data mining approaches for optimizing dynamic content distribution at scale and Skyscanner's efforts in this direction.
Take-away TV: Recharging Work Commutes with Greedy and Predictive Preloading ...Dima Karamshuk
Mobile data offloading can greatly decrease the load on and usage of cellular data networks by exploiting opportunistic and frequent access to Wi- Fi connectivity. Unfortunately, Wi-Fi access from mobile devices can be difficult during typical work commutes, e.g., via trains or cars on highways. In this paper, we propose a new approach: to preload the mobile device with content that a user might be interested in, and thereby avoid the need for cellular data access. We demonstrate the feasibility of this approach by developing a supervised machine learning model that learns from user preferences for different types of content, and propensity to be guided by the UI of the player, and predictively preload entire TV shows. Testing on a dataset of nearly 3.9 million sessions from all over the UK to BBC TV shows, we find that predictive preloading can save significant share of the mobile data for an average user.
Identifying Partisan Slant in News Articles and Twitter during Political CrisesDima Karamshuk
In this paper, we are interested in understanding the interrelationships between mainstream and social media in forming public opinion during mass crises, specifically in regards to how events are framed in the mainstream news and on social networks and to how the language used in those frames may allow to infer political slant and partisanship. We study the lingual choices for political agenda setting in mainstream and social media by analyzing a dataset of more than 40M tweets and more than 4M news articles from the mass protests in Ukraine during 2013-2014 — known as "Euromaidan" — and the post-Euromaidan conflict between Russian, pro-Russian and Ukrainian forces in eastern Ukraine and Crimea. We design a natural language processing algorithm to analyze at scale the linguistic markers which point to a particular political leaning in online media and show that political slant in news articles and Twitter posts can be inferred with a high level of accuracy. These findings allow us to better understand the dynamics of partisan opinion formation during mass crises and the interplay between mainstream and social media in such circumstances.
ISP-friendly Peer-assisted On-demand Streaming of Long Duration Content in BB...Dima Karamshuk
This document summarizes research on using peer-assisted content delivery to improve streaming of BBC iPlayer content. There are three key obstacles to peer-assisted delivery: 1) Increased traffic outside an ISP's network increases bandwidth costs, 2) Content is streamed in different bitrates which stratifies sharing, and 3) Low participation rates in peer-to-peer networks limit swarm sizes. Despite these obstacles, simulations show that traffic savings can still be high for popular content due to large swarm sizes. Caching recently viewed content can further boost savings. While peer assistance is most effective for top content, it has limited benefits for unpopular or long-tail content due to small swarm sizes.
On Factors Affecting the Usage and Adoption of a Nation-wide TV Streaming Ser...Dima Karamshuk
Using nine months of access logs comprising 1.9
Billion sessions to BBC iPlayer, we survey the UK ISP ecosystem to understand the factors affecting adoption and usage of a high bandwidth TV streaming application across different providers. We find evidence that connection speeds are important and that external events can have a huge impact for live TV usage. Then, through a temporal analysis of the access logs, we demonstrate that data usage caps imposed by mobile ISPs significantly affect usage patterns, and look for solutions. We show that product bundle discounts with a related fixed-line ISP, a strategy already employed by some mobile providers, can better support user needs and capture a bigger share of accesses. We observe that users regularly split their sessions between mobile and fixed-line connections, suggesting a straightforward strategy for offloading by speculatively pre-fetching content from a fixed-line ISP before access on mobile devices.
On Factors Affecting the Usage and Adoption of a Nation-wide TV Streaming Ser...Dima Karamshuk
Using nine months of access logs comprising 1.9
Billion sessions to BBC iPlayer, we survey the UK ISP ecosystem
to understand the factors affecting adoption and usage of a high bandwidth
TV streaming application across different providers.
We find evidence that connection speeds are important and that
external events can have a huge impact for live TV usage. Then,
through a temporal analysis of the access logs, we demonstrate
that data usage caps imposed by mobile ISPs significantly affect
usage patterns, and look for solutions. We show that product
bundle discounts with a related fixed-line ISP, a strategy already
employed by some mobile providers, can better support user
needs and capture a bigger share of accesses. We observe that
users regularly split their sessions between mobile and fixed-line
connections, suggesting a straightforward strategy for offloading
by speculatively pre-fetching content from a fixed-line ISP before
access on mobile devices.
CD-GAIN: Content Delivery Through the Analysis of Users' Access Patterns, ta...Dima Karamshuk
Using nine months of access logs comprising 1.9Billion sessions to BBC iPlayer, we survey the UK ISP ecosystem to understand the factors affecting adoption and usage of a high bandwidth TV streaming application across different providers. We find evidence that connection speeds are important and that external events can have a huge impact for live TV usage. Then, through a temporal analysis of the access logs, we demonstrate that data usage caps imposed by mobile ISPs significantly affect usage patterns, and look for solutions. We show that product bundle discounts with a related fixed-line ISP, a strategy already employed by some mobile providers, can better support user needs and capture a bigger share of accesses.
To effectively serve massive volumes of video traffic content delivery networks (CDNs) are turning to clients for assistance, creating hybrid peer-assisted content delivery systems. We analyze how peer-assisted CDNs are affected by a number of design obstacles which include: the need of localizing peer-to-peer traffic within ISPs (isp-friendliness), reluctance of users to participate in redistributing the content (partial participation) and necessity to match users with similar bitrate requirements (bitrate stratification).
Locations and Networks at scale: From insights to predictive models, workshop...Dima Karamshuk
Dmytro Karamshuk is a researcher at the Centre of Telecommunications Research within the Department of Informatics at King's College London. His research focuses on analyzing large datasets to develop predictive models regarding user behavior for applications like TV streaming services, social media platforms, and optimal retail store placement. He has published papers on these topics in various journals and conferences, including IEEE INFOCOM and the World Wide Web Conference.
Geo-Spotting: Mining Online Location-based Services for Optimal Retail Store ...Dima Karamshuk
The problem of identifying the optimal location for a new retail store has been the focus of past research,
especially in the field of land economy, due to its importance in the success of a business. Traditional approaches to the problem have factored in demographics, revenue and aggregated human flow statistics from nearby or remote areas. However, the acquisition of relevant data is usually expensive. With the growth of location-based social networks, fine grained data describing user mobility and popularity of places has recently become attainable.
In this paper we study the predictive power of various machine learning features on the popularity of retail
stores in the city through the use of a dataset collected from Foursquare in New York. The features we mine are
based on two general signals: geographic, where features are formulated according to the types and density of nearby
places, and user mobility, which includes transitions between venues or the incoming flow of mobile users from distant areas. Our evaluation suggests that the best performing features are common across the three different commercial chains considered in the analysis, although variations may exist too, as explained by heterogeneities in the way retail facilities attract users. We also show that performance improves significantly when combining multiple features in supervised learning algorithms, suggesting that the retail success of a business may depend on multiple factors.
Modeling the Social, Spatial, and Temporal dimensions of Human Mobility in a ...Dima Karamshuk
This document proposes a framework for modeling human mobility that unifies the social, spatial, and temporal dimensions. It summarizes existing models and their limitations in capturing all dimensions. The proposed framework models visits as sequences rather than trajectories. It takes a social graph and arrival processes as input and outputs contact statistics. Case studies show it can generate different inter-contact time distributions by varying the arrival rates. The framework is customizable and allows analytical analysis of temporal dependencies. It was tested on a real mobility dataset.
This document discusses human mobility models for opportunistic networks. It examines the spatial, temporal, and social properties of human mobility and different types of mobility models. The key models discussed include those based on maps of preferred locations, personal agendas, and "social" models that use social graphs. The document proposes a new arrival-based mobility framework that models visit sequences and can incorporate different temporal patterns. It describes applying this framework to generate synthetic mobility from social graphs and analyzing the resulting inter-contact time distributions.
1. BigData и Data Science: методы и инструменты
Dmytro Karamshuk
2. Эра Больших Данных (BigData)
Что понимают под Большими Данными (Big Data)?
● “Big data is data that exceeds the processing capacity of conventional database
systems. The data is too big, moves too fast, or doesn’t fit the structure of your
database architectures.”, O'Reilly Strata Conference
● “Every day, we create 2.5 quintillion bytes of data — so much that 90% of the
data in the world today has been created in the last two years alone. This data
comes from everywhere: sensors used to gather climate information, posts to
social media sites, digital pictures and videos, purchase transaction records,
and cell phone GPS signals to name a few. This data is big data.”, IBM
Шум вокруг BigData очень напоминает Web 2.0 в 2004-ом
3. Пример
Данные
всего - 2.5B чекинов, 10М мест, 25М юзеров
доступные через Twitter - 70М чекинов, 7M мест, 5М юзеров
Задачи
● Рекомендация друзей
● Рекомендация мест
● Кластеризация людей на группы
● Определение влиятельных пользователей
● Определение границ районов города
● Прогнозирование событий
4. Что необходимо
● Инструменты и инфраструктура
– хранение больших данных
– паралельная обработка
– иттеративная обработка
● Методы и алгоритмы
– самообучение
– эффективность при больших данных
– возможность паралельная и иттеративной
обработки
10. Считаем Page Rank с MapReduce
Шаг повторяется пока алгоритм не сойдется:
разница между итерациями будет меньше
указаной погрешности
11. Считаем Page Rank с MapReduce
Материал взят из
http://www.cs.toronto.edu/~jasper/PageRankForMapReduceSmall.pdf
12. Практическое использование
Hadoop - cамая популярная имплементация MapReduce
● написан на Java
● Apache project
● множество доп. инстр.
Elastic Map Reduce – одна из самых популярных инфраструктур
● реализовано на Hadoop
● минимальные затраты на конфигурацию, удобная система логов
● гибкая система оплаты, относительно не дорого
14. На что обратить внимание
● тестим hadoop в standalone
● не все алгоритмы подходят для MapReduce
● требует подготовки данных
● традиционные (реляционные) базы данных не
подходят
16. Machine Learning
ДАННЫЕ ЗАДАЧА
Объект 1: [x11, x12, x13, x14, ..., x1n], y1 предпологая что yi = f(xij) необходимо
определить f
Объект 2: [x21, x22, x23, x24, ..., x2n], yn
............................................................. при этом предусматривается что f
пренадлежит определенному классу
Объект M: [xm1, xm2, xm3, xm4, ..., xmn], ym функций
xij – feature оптимальная функция подбирается
yi – class (или label)
путем минимизации определенной
Features и label могут быть разных типов ошибки
(бинарный, числовой, перечесляемый)
Пример:
- линейная функция yi = Ʃaj*xij +
b
- decision tree
19. Зачем нужен Machine Learning?
● Задача: рекомендация друзей
● Метод: основанные на близости в графа; основанные на
сходстве профайлов (включаю историю); комбинация обоих
20. Зачем нужен Machine Learning?
● Задача: кластеризация сошиал графа, определение влиятельных
пользователей
IMT
CNR
Cambridge
Методы: методы на графах, спектральные методы, методы
основанные на похожести (similarity)
21. Зачем нужен Machine Learning?
● Задача: определение районов связанных мест в городе
основываясь на сошиал медиа
● Методы: любые методы кластеризации, важно определить
связи между местами
22. Пример – Retail Location Problem
● Задача: среди X предложенных районов в городе определить
наиболее привлекательные с точки зрения будущей
популярности
23. Популярность ресторанов
● мы определяем популярность как количество чекинов в месте
● активность пользователей варируется между разными местами
– но примерно одинаковая среди одной сети ресторанов
● популярность разных ресторанов
варируется в зависимости от
района
● популярность ресторана является
функцией характеристик района
P = f(x)
24. Метод анализа
● определяем район – как круг радиусом R вокруг ресторана
● определяем различные характеристики района x :
географические - плотность, конкуренция, разнообразие окружающих мест,
привлекательность окружающих объектов и т.д.
мобильность – общий трафик, входящий трафик, количество потенциальных
клиентов и т.д.
● обучаем функцию P = f(x)
● вычисляем Pi для всех районов i
● сортируем районы по Pi
25. Интересные метрики
Наиболее привлекательные категории Jensen's coefficients
объектов для каждой сети
● определенные на основе анализа частоты
совместного расположение объектов двух
категорий - Jensen's coefficients
Transition probabilities
● определенные на основе анализа
переходов между объектами
разных категорий - Transition probabilities
26. Обучение и валидация
Обучение функции P = f(x) выполняется на существующих ресторанах с помощью
supervised learning алгоритмов.
● алгоритмы: linear regression, support vector
machine, model trees
● для обучение выбираем случайным образом
66% ресторанов (training set), валидацию
проводим на оставшихся 33% (testing set);
эксперимент повторяем N=1000 раз
● для валидации проверяем вероятность
попадания наиболее популярное место из
testing set в top-X% предсказанного рейтинга,
результат обобщаем среди всех
экспериментов Mean Accuracy@X%
● используются реализации алгоритмов из
WEKA machine learning framework
27. Что почерпнуть из сказанного
● делать Data Science и работать с Большими Данными просто!
● но, нужно освоить некоторые инструменты и методы
● самые популярные инструменты: MapReduce, Hadoop, Amazon
EMR
● методы зависят от приложения, хороший метод – который
решают проблему и делает ее быстро и эффективно
● WEKA – хороший инструмент для практического machine
learning'а
28. Спасибо за внимание
Dmytro Karamshuk
PhD student @ IMT Lucca
Research Associate @ IIT CNR di Pisa
Visiting Researcher @ Computer Lab, University of Cambridge
email: [email protected]
follow me on Twitter: @karamshuk