Лекция №6 "Линейные модели для классификации и регрессии"

Лекция 6
Линейные модели
для классификации и регрессии
Николай Анохин
29 октября 2014 г.

План занятия
Линейная регрессия
Логистическая регрессия
Обобщенные линейные модели
1 / 32

Постановка задачи
Пусть дан набор объектов D = {(xi , yi )}, xi ∈ X, yi ∈ Y, i ∈ 1, . . . , N,
полученный из неизвестной закономерности y = f (x). Необходимо
выбрать из семейства параметрических функций
H = {h(x, θ) : X × Θ → Y}
такую h∗
(x) = h(x, θ∗
), которая наиболее точно апроксимирует f (x).
Задачи
Регрессия: Y = [a, b] ⊂ R
Классификация: |Y| < C
2 / 32

Линейная регрессия
3 / 32

Линейная модель
простейшая модель
h(x, w) = w0+w1x1+. . .+wM xM =
M
j=0
wj xj
улучшенная модель
h(x, w) =
M
j=0
wj φj (x) = wT
φ(x),
φj (x) – базисные функции, φ0(x) = 1
примеры
ϕj (x) = xj
, ϕj (x) = exp −
(x − µj )2
2s2
5 / 32

ML – функция правдоподобия
Дана обучающая выборка D = (X, Y ) из N объектов (xn, yn)
Функция правдоподобия
log p(Y |X, w, β) =
N
n=1
log N(y|wT
φ(xn), β−1
) =
=
N
2
log β −
N
2
log 2π −
β
2
N
n=1
{yn − wT
φ(xn)}2
→ max
w,β
Квадратичная функция потерь
ED(w) =
1
2
N
n=1
{yn − wT
φ(xn)}2
→ min
w
6 / 32

ML – решение
log p(Y |X, w, β) =
N
2
log β −
N
2
log 2π −
β
2
N
n=1
{yn − wT
φ(xn)}2
→ max
w,β
Градиент
β
N
n=1
{yn − wT
φ(xn)}φ(xn)T
= 0
Решение
wML = Φ†
Y = (ΦT
Φ)−1
ΦT
Y ,
1
βML
=
1
N
N
n=1
{yn − wT
MLφ(xn)}2
,
где
Φ =




φ0(x1) . . . φM (x1)
φ0(x2) . . . φM (x2)
. . . . . . . . .
φ0(xN) . . . φM (xN)




7 / 32

Регуляризация
Функция потерь
E(w, λ) = ED(w) + λEW (w),
где (как и раньше)
ED(w) =
1
2
N
n=1
{yn − wT
φ(xn)}2
→ min
w
,
плюс регуляризация
EW (w) = Eq(w) =
M
j=1
|wj |q
Зоопарк
q = 1 – Lasso
q = 2 – Ridge (байесовский вывод: p(w|α) = N(w|0, α−1
I))
EW (w) = ρE1(w) + (1 − ρ)E2(w) – Elastic Net
8 / 32

9 / 32

Ирисы Фишера
Setosa Versicolor Virginica
Задача
Определить вид ириса на основании длины чашелистика, ширины
чашелистика, длины лепестка и ширины лепестка.
10 / 32

Ирисы Фишера
11 / 32

Многомерное нормальное распределение
N(x|µ, Σ) =
1
(2π)D/2
1
|Σ|1/2
exp −
1
2
(x − µ)T
Σ−1
(x − µ)
Параметры
D-мерный вектор средних D × D-мерная матрица ковариации
µ = xp(x)dx Σ = E[(x − µ)(x − µ)T
]
12 / 32

Случай нормальных распределений
Пусть
p(x|yk ) = N(x|µk , Σ),
тогда
p(y1|x) = σ(wT
x + w0),
где
w = Σ−1
(µ1 − µ2)
w0 = −
1
2
µT
1 Σ−1
µ1 +
1
2
µT
2 Σ−1
µ2 + ln
p(y1)
p(y2)
Аналогичный результат для любых распределений из
экспоненциального семейства
14 / 32

Обобщенная линеная модель
Базисные функции φn(x)
φn(x) = exp −
(x − µn)2
2s2
Функция активации f (a)
f (a) = σ(a)
(Совсем) обобщенная линейная
модель
y(x, w) = f (w φ(x))
16 / 32

Дано.
D = {φn = φ(xn), yn}, yn ∈ {0, 1}, n = 1 . . . N
Модель.
p(y = 1|φ) = σ(w φ)
функция правдоподобия (кросс-энтропия)
l(w) = log
N
n=1
pyn
(y = 1|φn)(1 − p(y = 1|φn))1−yn
=
=
N
n=1
yn log p(y = 1|φn) + (1 − yn) log(1 − p(y = 1|φn)) = −Jc (w) → max
w
Градиент
Jc (w) =
N
n=1
(p(y = 1|φn) − yn)φn
Гессиан
2
Jc (w) =
N
n=1
p(y = 1|φn)(1 − p(y = 1|φn))φnφT
n
17 / 32

Градиентный спуск
1 function gd(grad, a0, epsilon):
2 initialise eta(k)
3 k = 0
4 a = a0
5 do:
6 k = k + 1
7 a = a - eta(k) grad(a)
8 until eta(k) grad(a) < epsilon
9 return a
Добавление момента: ak+1 = ak − ηk J(ak ) + µk (ak − ak−1)
18 / 32

Метод Ньютона
J(a) ≈ J(ak ) + J(ak )T
(a − ak ) +
1
2
(a − ak )T 2
J(ak )(a − ak ) → min
a
a = ak − 2
J(ak )−1
J(ak )
1 function newton(grad, hessian, a0, epsilon):
2 initialise eta(k)
3 k = 0
4 a = a0
5 do:
6 k = k + 1
7 g = grad(a)
8 H = hessian(a)
9 d = solve(H * d = -g) # find d = - inv(H) * g
10 a = a + eta(k) d
11 until convergence
12 return a
BFGS – использовать приближение 2
J(ak ) или 2
J(ak )−1
19 / 32

Iterative Reweighted Least Squares
Градиент и Гессиан логистической регрессии в матричной форме
Jc (w) = XT
(σ − Y )
2
Jc (w) = XT
SX = XT
diag{σn(1 − σn)}X
Обновление весов
wk+1 = wk − (XT
Sk X)−1
XT
Sk zk ,
zk = Xwk + S−1
k (Y − σk )
Минимизация
N
n=1
Skn(zkn − wT
xn)2
20 / 32

Логистическая регрессия: результаты
21 / 32

22 / 32

Линейные модели
Рассматривается случай 2 классов
Функция принятия решения
y(x) = w x + w0
Регионы принятия решения
R1 = {x : y(x) > 0}
R2 = {x : y(x) < 0}
Задача
найти параметры модели w, w0
23 / 32

Линейные модели: наблюдения
Разделяющая поверхность
D = {x : w x + w0 = 0}
1. w – нормаль к D
2. d = − w0
w – расстояние от
центра координат до D
3. r(x) = y(x)
w – расстояние от D
до x
Положим x0 ≡ 1, получим модель
y(˜x) = ˜w ˜x
24 / 32

Линейная модель
y(x) = w0 + wi xi
Квадратичная модель
y(x) = w0 + wi xi + wij xi xj
Обобщенная линейная модель
g(x) = ai φi (x) = a y
25 / 32

Случай линейно разделимых классов
Обобщенная линейная модель
g(x) = ai φi (x) = a y
Дана обучающая выборка Y = {y1, . . . , yN }
Идея
Преобразовать объекты второго класса в обратные им и решать
задачу оптимизации в области aT
yi > 0, ∀i
26 / 32

Задача оптимизации
Задача
Минимизируем критерий J(a) при условиях aT
yi > 0, ∀i
Пусть Y – множество неправильно проклассифицированных
объектов
Je(a) = y∈Y 1
Jp(a) = y∈Y −a y
Jq(a) = y∈Y (a y)2
Jr (a) = y∈Y
(a y)2
−b
y
Улучшение: добавить отступы
27 / 32

Случай линейно неразделимых классов
Использовать η(k) → 0 при k → ∞
От системы неравенств перейти к системе линейных уравнений
Линейное программирование
28 / 32

Снова переобучение
Оптимизируем критерий с регуляризацией
J1(a) = J(a) + λJR (a)
λ – коэффициент регуляризации
JR (a) = |aj |q
29 / 32

Перцептрон: результаты
30 / 32

Задача: Мультикласс классификация
one-vs-rest
Строим K моделей, каждая соответствует одному классу
one-vs-one
Строим K(K − 1)/2 моделей, каждая соответствует паре классов
Задача
Скачать шаблон кода http://bit.ly/1DvG6hh
Реализовать схему one-vs-one
Нарисовать раздляющие поверхности на графиках
Посчитать итоговую accuracy
31 / 32

Лекция №6 "Линейные модели для классификации и регрессии"

More Related Content

What's hot (18)

Viewers also liked (7)

Similar to Лекция №6 "Линейные модели для классификации и регрессии" (20)

More from Technosphere1 (19)

Лекция №6 "Линейные модели для классификации и регрессии"