Слайд 2
Определение модели бинарного выбора.
Если y – зависимая переменная,
принимающая значения:
yi = 0 и 1.
А X=(x1,
x2 , …,xk) – независимые переменные;
В = (b1, b2 , …,bk) – вектор коэффициентов,
то линейная модель регрессии примет вид:
yi = b1•x1 + b2 •x2 + …+ bk•xk + εi ,
где i = 1 до n.
n – число наблюдений в каждой из переменных.
yi принимает значения 0 и 1.
Следовательно, М (εi) = 0 – математическое ожидание.
Математическое ожидание
М (yi) = 1 • р(yi=1) +0 • р(yi=0) = р(yi=1) = ХТ ВТ ,
Т- транспонированное, т.е. р(yi=1) = ХТ ВТ (1.1) или р(yi=0) =1- ХТ ВТ
(1.1) – модель линейной вероятности.
Слайд 3
Невозможность применения МНК
Рассмотрим однофакторную модель yi = а
+ b •xi + εi , где у –
бинарная.
Если к оценке данной модели применить МНК, то получим:
1) yрасчетное. Может быть 0< yрасчетное. <1, что противоречит бинарности зависимой переменной.
2) Дисперсия остатков зависит от xi .
yр = b •xi ; тогда
ε1 = b •xi ;
ε2 = 1 - b •xi ;
D(εi) = b •xi • (1 - b •xi) – т.е. дисперсия зависит от х, то при росте х дисперсия растет, т.е. имеет место гетероскедастичность остатков.
3. Т.к. εi может принимать два значения с вероятностью
р(yi=1) и 1- р(yi=1), следовательно, остатки не являются нормально распределенными величинами.
Т.о. нарушаются три предпосылки МНК. Следовательно, для моделирования значений модели (1.1) подбирают функции область значений, которых определяется [0;1], а выражение b •xi играют роль аргумента этой функции.
Р(yi=1) =F (Хi В) – непрерывная и неубывающая.
Слайд 4
Выбор функции F определенный тип бинарной модели.
Функция стандартного
нормального распределения
F(u) = Φ(u) =
(1.2)
Нормальное стандартное распределение подразумевает, что мат. ожидание = 0, а среднеквадратичное отклонение σ=1.
Определение 1.3. Если бинарная модель имеет в качестве функции распределения функцию вида (1.2), то эта модель называется Пробит – моделью.
Функция стандартного логистического распределения
F(u) = Λ(u) = (1.3)
Определение 1.4. Если бинарная модель имеет в качестве функции распределения функцию вида (1.3), то эта модель называется Логит – моделью
Функция экстремального (или Гомперца) распределения
F(u) = E(u) = (1.4)
Определение 1.4. Если бинарная модель имеет в качестве функции распределения функцию вида (1.4), то эта модель называется экстрим – моделью или гомпит-моделью
Слайд 5
Селекция бинарных моделей
Спецификацию логит, пробит и гомпит модели
проводят на основании теоретических предпосылок, а также исходя из
минимума значений информационных критериев Акайке, Шварца и Хана-Квина.
здесь n – общее число наблюдений ряда данных, k – число степеней свободы модели (равно числу факторов в модели +1)
– остаточная или объясненная моделью дисперсия.
Слайд 6
Маржинальные эффекты
Коэффициенты бинарной модели не могут интерпретироваться как
предельный коэффициент влияния объясняющих переменных на зависимую.
Предельный коэффициент каждого
объясняющего фактора хj , j=1,..,k является непрерывным и зависит от значения остальных факторов и определяется:
, где f - плотность вероятности
Для пробит-модели: , где
Для логит-модели: , где
Для гомпит-модели:
Направление изменений эффекта зависит только от знака коэффициента регрессии.
Слайд 7
Оценка моделей ММП
Для оценки параметров бинарных моделей применяют
метод максимального правдоподобия с функцией правдоподобия:
L=L(у1 ,…, уn)
=
уi – рассмотрим как n случайных величин Yi с одним возможным значением уi. Эти случайные величины независимы. Их совместная вероятность = произведению их вероятности:
Прологарифмируем выражение
Логарифмическая функция правдоподобия имеет вид:
Для нахождения максимума необходимо найти частные производные по параметрам и приравнять их к «0». Решаем дифференциальное уравнение правдоподобия:
или
Слайд 8
Проверка адекватности
Показатели качества подгонки:
1.1) Псевдо коэффициент детерминации
,
где n– количество наблюдений,
l – логарифмическая функция правдоподобия,
– ограниченная логарифмическая функция правдоподобия, в которой все параметры кроме свободного члена равно нулю.
1.2) Коэффициент Макфаддена
Чем ближе показатели к 1, тем выше качество подгонки модели.
1.3) Гипотеза относительно значимости построенной модели бинарного выбора:
тест отношения правдоподобия Likelihood ratio test (LR), высчитывается в статистике, которые сравниваются с табличным значением χ2(n), где n – число степеней свобод, равное числу ограничений в гипотезе. Для LR-теста LR- статистика в случае значимости построенной модели близка к 1.
Слайд 9
Модели множественного выбора
Модели множественного выбора работают с зависимой
переменной, которая имеет несколько альтернатив, то есть это дискретная
переменная.
Модели множественного выбора:
1) с упорядоченными альтернативами;
2) с неупорядоченными альтернативами.
Зависимые переменные: 1) номинальные (качественные);
2) порядковые (то есть упорядоченные альтернативы).
Модели с неупорядоченными альтернативами имеют случайный уровень полезности.
Слайд 10
Модели с неупорядоченными альтернативами
Модели с неупорядоченными альтернативами имеют
случайный уровень полезности и выбираются альтернативы, приносящие наибольшую полезность.
Пусть для i-ого индивида осуществляется выбор между J-альтернативами.
Полезность выбора может быть представлена как линейная
функция от независимых переменных z и j.
Uij=βT•zij…+εij,
где βT – вектор параметров.
Если i-ый индивид делает выбор j-ой альтернативы, то в этом случае она будет ему максимально полезна.
Пусть уi – случайная величина, которая описывает сделанный выбор.
То есть, модель описывает вероятность того, что выбор сделан в пользу j-ой альтернативы.
P(уi=j)= P(Uij > Uik) для всех k ≠ j, k = 1,…,J, где Uij – наиболее полезная альтернатива, чем все остальные Uik.
F(Uij) – функция определения полезности: - логит, или - пробит.
Обычно в качестве объясняющих факторов выбирают характеристики специфические для альтернатив, которые могут изменяться в зависимости от вариантов выборов.
Слайд 11
Модели множественного выбора с упорядоченными альтернативами
Определение 3.1.: Модели
множественного выбора с упорядоченными альтернативами называются модели, для которых
зависимая переменная является порядковой с ранжированными альтернативами (например оценки студента 2, 3, 4, 5).
Модель основана на введении латентной (ненаблюдаемой) переменной y* порождающие 0, т.е. связанные с переменной y.
Выбор осуществляется между К-альтернативами.
Наша латентная переменная y* имеет вид:
y*=x1b1+x2b2+xsbs+b0,
где s – число независимых факторов bj, j=1,…,s – коэффициенты регрессий.
Тогда латентная переменная y* связана с y, следующим образом:
Слайд 12
Пробит-модель
Вероятность выбора k-ой альтернативы, это вероятность того, что:
,
где j=0,1,…,k.
Вероятность:
Тогда модель множественного выбора имеет вид:
Если y*=xTb,
то xT=(1,x1,x2,…,xs)T, b=(b0,b1,…,bs)
(3.3) – вероятностная модель множественного выбора с упорядоченными альтернативами, является пробит-моделью с нормальным стандартным распределением.
Ф(x)=