SlideShare a Scribd company logo
Лекция 6
Линейные модели
для классификации и регрессии
Николай Анохин
29 октября 2014 г.
План занятия
Линейная регрессия
Логистическая регрессия
Обобщенные линейные модели
1 / 32
Постановка задачи
Пусть дан набор объектов D = {(xi , yi )}, xi ∈ X, yi ∈ Y, i ∈ 1, . . . , N,
полученный из неизвестной закономерности y = f (x). Необходимо
выбрать из семейства параметрических функций
H = {h(x, θ) : X × Θ → Y}
такую h∗
(x) = h(x, θ∗
), которая наиболее точно апроксимирует f (x).
Задачи
Регрессия: Y = [a, b] ⊂ R
Классификация: |Y| < C
2 / 32
Линейная регрессия
3 / 32
Модель
y = h(x, θ) + ,
где – гауссовский шум
p( ) = N( |0, β−1
),
откуда
p(y|x, θ, β) = N(y|h(x, θ), β−1
).
Предсказание
E[y|x] = yp(y|x)dy = h(x, θ).
4 / 32
Линейная модель
простейшая модель
h(x, w) = w0+w1x1+. . .+wM xM =
M
j=0
wj xj
улучшенная модель
h(x, w) =
M
j=0
wj φj (x) = wT
φ(x),
φj (x) – базисные функции, φ0(x) = 1
примеры
ϕj (x) = xj
, ϕj (x) = exp −
(x − µj )2
2s2
5 / 32
ML – функция правдоподобия
Дана обучающая выборка D = (X, Y ) из N объектов (xn, yn)
Функция правдоподобия
log p(Y |X, w, β) =
N
n=1
log N(y|wT
φ(xn), β−1
) =
=
N
2
log β −
N
2
log 2π −
β
2
N
n=1
{yn − wT
φ(xn)}2
→ max
w,β
Квадратичная функция потерь
ED(w) =
1
2
N
n=1
{yn − wT
φ(xn)}2
→ min
w
6 / 32
ML – решение
log p(Y |X, w, β) =
N
2
log β −
N
2
log 2π −
β
2
N
n=1
{yn − wT
φ(xn)}2
→ max
w,β
Градиент
β
N
n=1
{yn − wT
φ(xn)}φ(xn)T
= 0
Решение
wML = Φ†
Y = (ΦT
Φ)−1
ΦT
Y ,
1
βML
=
1
N
N
n=1
{yn − wT
MLφ(xn)}2
,
где
Φ =




φ0(x1) . . . φM (x1)
φ0(x2) . . . φM (x2)
. . . . . . . . .
φ0(xN) . . . φM (xN)




7 / 32
Регуляризация
Функция потерь
E(w, λ) = ED(w) + λEW (w),
где (как и раньше)
ED(w) =
1
2
N
n=1
{yn − wT
φ(xn)}2
→ min
w
,
плюс регуляризация
EW (w) = Eq(w) =
M
j=1
|wj |q
Зоопарк
q = 1 – Lasso
q = 2 – Ridge (байесовский вывод: p(w|α) = N(w|0, α−1
I))
EW (w) = ρE1(w) + (1 − ρ)E2(w) – Elastic Net
8 / 32
Логистическая регрессия
9 / 32
Ирисы Фишера
Setosa Versicolor Virginica
Задача
Определить вид ириса на основании длины чашелистика, ширины
чашелистика, длины лепестка и ширины лепестка.
10 / 32
Ирисы Фишера
11 / 32
Многомерное нормальное распределение
N(x|µ, Σ) =
1
(2π)D/2
1
|Σ|1/2
exp −
1
2
(x − µ)T
Σ−1
(x − µ)
Параметры
D-мерный вектор средних D × D-мерная матрица ковариации
µ = xp(x)dx Σ = E[(x − µ)(x − µ)T
]
12 / 32
Генеративная модель
Рассматриваем 2 класса
p(y1|x) =
p(x|y1)p(y1)
p(x|y1)p(y1) + p(x|y2)p(y2)
=
1
1 + e−a
= σ(a)
a = ln
p(x|y1)p(y1)
p(x|y2)p(y2)
σ(a) – сигмоид-функция, a = ln(σ/(1 − σ))
13 / 32
Случай нормальных распределений
Пусть
p(x|yk ) = N(x|µk , Σ),
тогда
p(y1|x) = σ(wT
x + w0),
где
w = Σ−1
(µ1 − µ2)
w0 = −
1
2
µT
1 Σ−1
µ1 +
1
2
µT
2 Σ−1
µ2 + ln
p(y1)
p(y2)
Аналогичный результат для любых распределений из
экспоненциального семейства
14 / 32
Maximum Likelihood
p(y1, x) = p(y1)p(x|y1) = πN(x|µ1, Σ)
p(y2, x) = p(y2)p(x|y2) = (1 − π)N(x|µ2, Σ)
Функция правдоподобия
p(Y , X|π, µ1, µ2, Σ) =
N
n=1
[πN(x|µ1, Σ)]
yn
[(1 − π)N(x|µ2, Σ)]
1−yn
Максимизируя log p(Y , X|π, µ1, µ2, Σ), имеем
π =
1
N
N
n=1
yn =
N1
N1 + N2
,
µ1 =
1
N1
N
n=1
ynxn, µ2 =
1
N2
N
n=1
(1 − yn)xn,
аналогично для Σ
15 / 32
Обобщенная линеная модель
Базисные функции φn(x)
φn(x) = exp −
(x − µn)2
2s2
Функция активации f (a)
f (a) = σ(a)
(Совсем) обобщенная линейная
модель
y(x, w) = f (w φ(x))
16 / 32
Логистическая регрессия
Дано.
D = {φn = φ(xn), yn}, yn ∈ {0, 1}, n = 1 . . . N
Модель.
p(y = 1|φ) = σ(w φ)
функция правдоподобия (кросс-энтропия)
l(w) = log
N
n=1
pyn
(y = 1|φn)(1 − p(y = 1|φn))1−yn
=
=
N
n=1
yn log p(y = 1|φn) + (1 − yn) log(1 − p(y = 1|φn)) = −Jc (w) → max
w
Градиент
Jc (w) =
N
n=1
(p(y = 1|φn) − yn)φn
Гессиан
2
Jc (w) =
N
n=1
p(y = 1|φn)(1 − p(y = 1|φn))φnφT
n
17 / 32
Градиентный спуск
1 function gd(grad, a0, epsilon):
2 initialise eta(k)
3 k = 0
4 a = a0
5 do:
6 k = k + 1
7 a = a - eta(k) grad(a)
8 until eta(k) grad(a) < epsilon
9 return a
Добавление момента: ak+1 = ak − ηk J(ak ) + µk (ak − ak−1)
18 / 32
Метод Ньютона
J(a) ≈ J(ak ) + J(ak )T
(a − ak ) +
1
2
(a − ak )T 2
J(ak )(a − ak ) → min
a
a = ak − 2
J(ak )−1
J(ak )
1 function newton(grad, hessian, a0, epsilon):
2 initialise eta(k)
3 k = 0
4 a = a0
5 do:
6 k = k + 1
7 g = grad(a)
8 H = hessian(a)
9 d = solve(H * d = -g) # find d = - inv(H) * g
10 a = a + eta(k) d
11 until convergence
12 return a
BFGS – использовать приближение 2
J(ak ) или 2
J(ak )−1
19 / 32
Iterative Reweighted Least Squares
Градиент и Гессиан логистической регрессии в матричной форме
Jc (w) = XT
(σ − Y )
2
Jc (w) = XT
SX = XT
diag{σn(1 − σn)}X
Обновление весов
wk+1 = wk − (XT
Sk X)−1
XT
Sk zk ,
zk = Xwk + S−1
k (Y − σk )
Минимизация
N
n=1
Skn(zkn − wT
xn)2
20 / 32
Логистическая регрессия: результаты
21 / 32
Обобщенные линейные модели
22 / 32
Линейные модели
Рассматривается случай 2 классов
Функция принятия решения
y(x) = w x + w0
Регионы принятия решения
R1 = {x : y(x) > 0}
R2 = {x : y(x) < 0}
Задача
найти параметры модели w, w0
23 / 32
Линейные модели: наблюдения
Разделяющая поверхность
D = {x : w x + w0 = 0}
1. w – нормаль к D
2. d = − w0
w – расстояние от
центра координат до D
3. r(x) = y(x)
w – расстояние от D
до x
Положим x0 ≡ 1, получим модель
y(˜x) = ˜w ˜x
24 / 32
Обобщенные линейные модели
Линейная модель
y(x) = w0 + wi xi
Квадратичная модель
y(x) = w0 + wi xi + wij xi xj
Обобщенная линейная модель
g(x) = ai φi (x) = a y
25 / 32
Случай линейно разделимых классов
Обобщенная линейная модель
g(x) = ai φi (x) = a y
Дана обучающая выборка Y = {y1, . . . , yN }
Идея
Преобразовать объекты второго класса в обратные им и решать
задачу оптимизации в области aT
yi > 0, ∀i
26 / 32
Задача оптимизации
Задача
Минимизируем критерий J(a) при условиях aT
yi > 0, ∀i
Пусть Y – множество неправильно проклассифицированных
объектов
Je(a) = y∈Y 1
Jp(a) = y∈Y −a y
Jq(a) = y∈Y (a y)2
Jr (a) = y∈Y
(a y)2
−b
y
Улучшение: добавить отступы
27 / 32
Случай линейно неразделимых классов
Использовать η(k) → 0 при k → ∞
От системы неравенств перейти к системе линейных уравнений
Линейное программирование
28 / 32
Снова переобучение
Оптимизируем критерий с регуляризацией
J1(a) = J(a) + λJR (a)
λ – коэффициент регуляризации
JR (a) = |aj |q
29 / 32
Перцептрон: результаты
30 / 32
Задача: Мультикласс классификация
one-vs-rest
Строим K моделей, каждая соответствует одному классу
one-vs-one
Строим K(K − 1)/2 моделей, каждая соответствует паре классов
Задача
Скачать шаблон кода http://bit.ly/1DvG6hh
Реализовать схему one-vs-one
Нарисовать раздляющие поверхности на графиках
Посчитать итоговую accuracy
31 / 32
Вопросы
32 / 32

More Related Content

What's hot (18)

PPTX
RandomForestとR package
Shuma Ishigami
 
PDF
Лекция №11 "Основы нейронных сетей"
Technosphere1
 
PDF
自動定理証明の紹介
Masahiro Sakai
 
PPTX
십분딥러닝_16_WGAN (Wasserstein GANs)
HyunKyu Jeon
 
PDF
決定木学習
Mitsuo Shimohata
 
PPTX
forestFloorパッケージを使ったrandomForestの感度分析
Satoshi Kato
 
PDF
多人数演奏楽譜から連弾譜への自動編曲
kthrlab
 
KEY
Haskell Day2012 - 参照透過性とは何だったのか
Kousuke Ruichi
 
PDF
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
MITSUNARI Shigeo
 
PDF
Scikit learnで学ぶ機械学習入門
Takami Sato
 
PDF
数値計算結果のPythonによる後処理について(1次元データのピーク値およびその位置の推定)
智啓 出川
 
PDF
Deep Learning: Recurrent Neural Network (Chapter 10)
Larry Guo
 
ZIP
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
 
PDF
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
Masatoshi Yoshida
 
PDF
Chapter6.4
Takuya Minagawa
 
PDF
統計的学習の基礎 3章前半
Kazunori Miyanishi
 
PDF
[PR12] intro. to gans jaejun yoo
JaeJun Yoo
 
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
 
RandomForestとR package
Shuma Ishigami
 
Лекция №11 "Основы нейронных сетей"
Technosphere1
 
自動定理証明の紹介
Masahiro Sakai
 
십분딥러닝_16_WGAN (Wasserstein GANs)
HyunKyu Jeon
 
決定木学習
Mitsuo Shimohata
 
forestFloorパッケージを使ったrandomForestの感度分析
Satoshi Kato
 
多人数演奏楽譜から連弾譜への自動編曲
kthrlab
 
Haskell Day2012 - 参照透過性とは何だったのか
Kousuke Ruichi
 
ペアリングベースの効率的なレベル2準同型暗号(SCIS2018)
MITSUNARI Shigeo
 
Scikit learnで学ぶ機械学習入門
Takami Sato
 
数値計算結果のPythonによる後処理について(1次元データのピーク値およびその位置の推定)
智啓 出川
 
Deep Learning: Recurrent Neural Network (Chapter 10)
Larry Guo
 
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
 
「アクティブビジョンと フリストン自由エネルギー原理」@北大20170111
Masatoshi Yoshida
 
Chapter6.4
Takuya Minagawa
 
統計的学習の基礎 3章前半
Kazunori Miyanishi
 
[PR12] intro. to gans jaejun yoo
JaeJun Yoo
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
 

Viewers also liked (7)

PDF
Лекция №3 "Различные алгоритмы кластеризации"
Technosphere1
 
PDF
Лекция №4 "Задача классификации"
Technosphere1
 
PDF
L10: Алгоритмы кластеризации
Technosphere1
 
PDF
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Technosphere1
 
PDF
Лекция №7 "Машина опорных векторов"
Technosphere1
 
PDF
Лекция №5 "Обработка текстов, Naive Bayes"
Technosphere1
 
PDF
Введение в машинное обучение
Anton Anokhin
 
Лекция №3 "Различные алгоритмы кластеризации"
Technosphere1
 
Лекция №4 "Задача классификации"
Technosphere1
 
L10: Алгоритмы кластеризации
Technosphere1
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Technosphere1
 
Лекция №7 "Машина опорных векторов"
Technosphere1
 
Лекция №5 "Обработка текстов, Naive Bayes"
Technosphere1
 
Введение в машинное обучение
Anton Anokhin
 
Ad

Similar to Лекция №6 "Линейные модели для классификации и регрессии" (20)

PDF
L3: Линейная и логистическая регрессия
Technosphere1
 
PDF
L2: Задача классификации и регрессии. Метрики ошибок
Technosphere1
 
PDF
Изучайте Machine Learning во имя добра или Teach my shiny metal ass
AnjLab
 
PDF
К.В. Воронцов "Линейные методы классификации"
Yandex
 
PDF
L6: Метод опорных векторов
Technosphere1
 
PDF
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
Anton Konushin
 
PDF
CV2011 Lecture 7. Recognition
Anton Konushin
 
PDF
CV2011 Lecture 6. Fitting
Anton Konushin
 
PDF
Machine Learning. Курс лекций
Zolotykh
 
PPT
Истинная модель парной линейной регрессии
loganesan43
 
PPT
Михаил Александров. Индуктивное моделирование.
Lidia Pivovarova
 
PPT
Михаил Александров. Индуктивное моделирование.
Lidia Pivovarova
 
PPT
Линейная регрессия
DEVTYPE
 
PPT
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Gleb Zakhodiakin
 
PDF
Анализ данных. Лекция 2
Sergey Khlebnikov
 
PPT
Конкурс презентаций - Малашенко
galkina
 
PPTX
!Predictive analytics part_2
Vladimir Krylov
 
PDF
ИТМО Machine Learning. Рекомендательные системы — часть 2
Andrey Danilchenko
 
PDF
логистическая регрессия
Natalia Smirnova
 
PDF
Методы обучения линейных моделей
Alex
 
L3: Линейная и логистическая регрессия
Technosphere1
 
L2: Задача классификации и регрессии. Метрики ошибок
Technosphere1
 
Изучайте Machine Learning во имя добра или Teach my shiny metal ass
AnjLab
 
К.В. Воронцов "Линейные методы классификации"
Yandex
 
L6: Метод опорных векторов
Technosphere1
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
Anton Konushin
 
CV2011 Lecture 7. Recognition
Anton Konushin
 
CV2011 Lecture 6. Fitting
Anton Konushin
 
Machine Learning. Курс лекций
Zolotykh
 
Истинная модель парной линейной регрессии
loganesan43
 
Михаил Александров. Индуктивное моделирование.
Lidia Pivovarova
 
Михаил Александров. Индуктивное моделирование.
Lidia Pivovarova
 
Линейная регрессия
DEVTYPE
 
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Gleb Zakhodiakin
 
Анализ данных. Лекция 2
Sergey Khlebnikov
 
Конкурс презентаций - Малашенко
galkina
 
!Predictive analytics part_2
Vladimir Krylov
 
ИТМО Machine Learning. Рекомендательные системы — часть 2
Andrey Danilchenko
 
логистическая регрессия
Natalia Smirnova
 
Методы обучения линейных моделей
Alex
 
Ad

More from Technosphere1 (19)

PDF
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
 
PDF
Лекция №13 "Глубокие нейронные сети"
Technosphere1
 
PDF
Лекция №12 "Ограниченная машина Больцмана"
Technosphere1
 
PDF
Лекция №9 "Алгоритмические композиции. Начало"
Technosphere1
 
PDF
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
 
PDF
L13: Заключительная
Technosphere1
 
PDF
Л9: Взаимодействие веб-приложений
Technosphere1
 
PDF
Л8 Django. Дополнительные темы
Technosphere1
 
PDF
Webdev7 (2)
Technosphere1
 
PDF
L11: Метод ансамблей
Technosphere1
 
PDF
Мастер-класс: Особенности создания продукта для мобильного веб
Technosphere1
 
PDF
Web лекция 1
Technosphere1
 
PDF
Мастер-класс: "Интеграция в промышленную разработку"
Technosphere1
 
PDF
Webdev7: Обработка HTTP запросов. Django Views
Technosphere1
 
PDF
L8: Л7 Em-алгоритм
Technosphere1
 
PDF
L7:Задача кластеризации. Метрики качества
Technosphere1
 
PDF
L5: Л5 Байесовские алгоритмы
Technosphere1
 
PDF
L4: Решающие деревья
Technosphere1
 
PDF
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Technosphere1
 
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
 
Лекция №13 "Глубокие нейронные сети"
Technosphere1
 
Лекция №12 "Ограниченная машина Больцмана"
Technosphere1
 
Лекция №9 "Алгоритмические композиции. Начало"
Technosphere1
 
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
 
L13: Заключительная
Technosphere1
 
Л9: Взаимодействие веб-приложений
Technosphere1
 
Л8 Django. Дополнительные темы
Technosphere1
 
Webdev7 (2)
Technosphere1
 
L11: Метод ансамблей
Technosphere1
 
Мастер-класс: Особенности создания продукта для мобильного веб
Technosphere1
 
Web лекция 1
Technosphere1
 
Мастер-класс: "Интеграция в промышленную разработку"
Technosphere1
 
Webdev7: Обработка HTTP запросов. Django Views
Technosphere1
 
L8: Л7 Em-алгоритм
Technosphere1
 
L7:Задача кластеризации. Метрики качества
Technosphere1
 
L5: Л5 Байесовские алгоритмы
Technosphere1
 
L4: Решающие деревья
Technosphere1
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Technosphere1
 

Лекция №6 "Линейные модели для классификации и регрессии"

  • 1. Лекция 6 Линейные модели для классификации и регрессии Николай Анохин 29 октября 2014 г.
  • 2. План занятия Линейная регрессия Логистическая регрессия Обобщенные линейные модели 1 / 32
  • 3. Постановка задачи Пусть дан набор объектов D = {(xi , yi )}, xi ∈ X, yi ∈ Y, i ∈ 1, . . . , N, полученный из неизвестной закономерности y = f (x). Необходимо выбрать из семейства параметрических функций H = {h(x, θ) : X × Θ → Y} такую h∗ (x) = h(x, θ∗ ), которая наиболее точно апроксимирует f (x). Задачи Регрессия: Y = [a, b] ⊂ R Классификация: |Y| < C 2 / 32
  • 5. Модель y = h(x, θ) + , где – гауссовский шум p( ) = N( |0, β−1 ), откуда p(y|x, θ, β) = N(y|h(x, θ), β−1 ). Предсказание E[y|x] = yp(y|x)dy = h(x, θ). 4 / 32
  • 6. Линейная модель простейшая модель h(x, w) = w0+w1x1+. . .+wM xM = M j=0 wj xj улучшенная модель h(x, w) = M j=0 wj φj (x) = wT φ(x), φj (x) – базисные функции, φ0(x) = 1 примеры ϕj (x) = xj , ϕj (x) = exp − (x − µj )2 2s2 5 / 32
  • 7. ML – функция правдоподобия Дана обучающая выборка D = (X, Y ) из N объектов (xn, yn) Функция правдоподобия log p(Y |X, w, β) = N n=1 log N(y|wT φ(xn), β−1 ) = = N 2 log β − N 2 log 2π − β 2 N n=1 {yn − wT φ(xn)}2 → max w,β Квадратичная функция потерь ED(w) = 1 2 N n=1 {yn − wT φ(xn)}2 → min w 6 / 32
  • 8. ML – решение log p(Y |X, w, β) = N 2 log β − N 2 log 2π − β 2 N n=1 {yn − wT φ(xn)}2 → max w,β Градиент β N n=1 {yn − wT φ(xn)}φ(xn)T = 0 Решение wML = Φ† Y = (ΦT Φ)−1 ΦT Y , 1 βML = 1 N N n=1 {yn − wT MLφ(xn)}2 , где Φ =     φ0(x1) . . . φM (x1) φ0(x2) . . . φM (x2) . . . . . . . . . φ0(xN) . . . φM (xN)     7 / 32
  • 9. Регуляризация Функция потерь E(w, λ) = ED(w) + λEW (w), где (как и раньше) ED(w) = 1 2 N n=1 {yn − wT φ(xn)}2 → min w , плюс регуляризация EW (w) = Eq(w) = M j=1 |wj |q Зоопарк q = 1 – Lasso q = 2 – Ridge (байесовский вывод: p(w|α) = N(w|0, α−1 I)) EW (w) = ρE1(w) + (1 − ρ)E2(w) – Elastic Net 8 / 32
  • 11. Ирисы Фишера Setosa Versicolor Virginica Задача Определить вид ириса на основании длины чашелистика, ширины чашелистика, длины лепестка и ширины лепестка. 10 / 32
  • 13. Многомерное нормальное распределение N(x|µ, Σ) = 1 (2π)D/2 1 |Σ|1/2 exp − 1 2 (x − µ)T Σ−1 (x − µ) Параметры D-мерный вектор средних D × D-мерная матрица ковариации µ = xp(x)dx Σ = E[(x − µ)(x − µ)T ] 12 / 32
  • 14. Генеративная модель Рассматриваем 2 класса p(y1|x) = p(x|y1)p(y1) p(x|y1)p(y1) + p(x|y2)p(y2) = 1 1 + e−a = σ(a) a = ln p(x|y1)p(y1) p(x|y2)p(y2) σ(a) – сигмоид-функция, a = ln(σ/(1 − σ)) 13 / 32
  • 15. Случай нормальных распределений Пусть p(x|yk ) = N(x|µk , Σ), тогда p(y1|x) = σ(wT x + w0), где w = Σ−1 (µ1 − µ2) w0 = − 1 2 µT 1 Σ−1 µ1 + 1 2 µT 2 Σ−1 µ2 + ln p(y1) p(y2) Аналогичный результат для любых распределений из экспоненциального семейства 14 / 32
  • 16. Maximum Likelihood p(y1, x) = p(y1)p(x|y1) = πN(x|µ1, Σ) p(y2, x) = p(y2)p(x|y2) = (1 − π)N(x|µ2, Σ) Функция правдоподобия p(Y , X|π, µ1, µ2, Σ) = N n=1 [πN(x|µ1, Σ)] yn [(1 − π)N(x|µ2, Σ)] 1−yn Максимизируя log p(Y , X|π, µ1, µ2, Σ), имеем π = 1 N N n=1 yn = N1 N1 + N2 , µ1 = 1 N1 N n=1 ynxn, µ2 = 1 N2 N n=1 (1 − yn)xn, аналогично для Σ 15 / 32
  • 17. Обобщенная линеная модель Базисные функции φn(x) φn(x) = exp − (x − µn)2 2s2 Функция активации f (a) f (a) = σ(a) (Совсем) обобщенная линейная модель y(x, w) = f (w φ(x)) 16 / 32
  • 18. Логистическая регрессия Дано. D = {φn = φ(xn), yn}, yn ∈ {0, 1}, n = 1 . . . N Модель. p(y = 1|φ) = σ(w φ) функция правдоподобия (кросс-энтропия) l(w) = log N n=1 pyn (y = 1|φn)(1 − p(y = 1|φn))1−yn = = N n=1 yn log p(y = 1|φn) + (1 − yn) log(1 − p(y = 1|φn)) = −Jc (w) → max w Градиент Jc (w) = N n=1 (p(y = 1|φn) − yn)φn Гессиан 2 Jc (w) = N n=1 p(y = 1|φn)(1 − p(y = 1|φn))φnφT n 17 / 32
  • 19. Градиентный спуск 1 function gd(grad, a0, epsilon): 2 initialise eta(k) 3 k = 0 4 a = a0 5 do: 6 k = k + 1 7 a = a - eta(k) grad(a) 8 until eta(k) grad(a) < epsilon 9 return a Добавление момента: ak+1 = ak − ηk J(ak ) + µk (ak − ak−1) 18 / 32
  • 20. Метод Ньютона J(a) ≈ J(ak ) + J(ak )T (a − ak ) + 1 2 (a − ak )T 2 J(ak )(a − ak ) → min a a = ak − 2 J(ak )−1 J(ak ) 1 function newton(grad, hessian, a0, epsilon): 2 initialise eta(k) 3 k = 0 4 a = a0 5 do: 6 k = k + 1 7 g = grad(a) 8 H = hessian(a) 9 d = solve(H * d = -g) # find d = - inv(H) * g 10 a = a + eta(k) d 11 until convergence 12 return a BFGS – использовать приближение 2 J(ak ) или 2 J(ak )−1 19 / 32
  • 21. Iterative Reweighted Least Squares Градиент и Гессиан логистической регрессии в матричной форме Jc (w) = XT (σ − Y ) 2 Jc (w) = XT SX = XT diag{σn(1 − σn)}X Обновление весов wk+1 = wk − (XT Sk X)−1 XT Sk zk , zk = Xwk + S−1 k (Y − σk ) Минимизация N n=1 Skn(zkn − wT xn)2 20 / 32
  • 24. Линейные модели Рассматривается случай 2 классов Функция принятия решения y(x) = w x + w0 Регионы принятия решения R1 = {x : y(x) > 0} R2 = {x : y(x) < 0} Задача найти параметры модели w, w0 23 / 32
  • 25. Линейные модели: наблюдения Разделяющая поверхность D = {x : w x + w0 = 0} 1. w – нормаль к D 2. d = − w0 w – расстояние от центра координат до D 3. r(x) = y(x) w – расстояние от D до x Положим x0 ≡ 1, получим модель y(˜x) = ˜w ˜x 24 / 32
  • 26. Обобщенные линейные модели Линейная модель y(x) = w0 + wi xi Квадратичная модель y(x) = w0 + wi xi + wij xi xj Обобщенная линейная модель g(x) = ai φi (x) = a y 25 / 32
  • 27. Случай линейно разделимых классов Обобщенная линейная модель g(x) = ai φi (x) = a y Дана обучающая выборка Y = {y1, . . . , yN } Идея Преобразовать объекты второго класса в обратные им и решать задачу оптимизации в области aT yi > 0, ∀i 26 / 32
  • 28. Задача оптимизации Задача Минимизируем критерий J(a) при условиях aT yi > 0, ∀i Пусть Y – множество неправильно проклассифицированных объектов Je(a) = y∈Y 1 Jp(a) = y∈Y −a y Jq(a) = y∈Y (a y)2 Jr (a) = y∈Y (a y)2 −b y Улучшение: добавить отступы 27 / 32
  • 29. Случай линейно неразделимых классов Использовать η(k) → 0 при k → ∞ От системы неравенств перейти к системе линейных уравнений Линейное программирование 28 / 32
  • 30. Снова переобучение Оптимизируем критерий с регуляризацией J1(a) = J(a) + λJR (a) λ – коэффициент регуляризации JR (a) = |aj |q 29 / 32
  • 32. Задача: Мультикласс классификация one-vs-rest Строим K моделей, каждая соответствует одному классу one-vs-one Строим K(K − 1)/2 моделей, каждая соответствует паре классов Задача Скачать шаблон кода http://bit.ly/1DvG6hh Реализовать схему one-vs-one Нарисовать раздляющие поверхности на графиках Посчитать итоговую accuracy 31 / 32