Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Проверка адекватности линейной регрессии

Содержание

Проверка качества подгонкиПоказатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим значениям зависимой переменной у. Эти показатели основываются на .Первый показатель — остаточная дисперсия.
Проверка адекватности линейной регрессииОпределение: Адекватность регрессионного уравнения, это соответствие его реальному моделируемому Проверка качества подгонкиПоказатели качества подгонки отражают соответствие расчетных значений зависимой переменной фактическим Проверка гипотеза о том, что линейная связь между x и y не Проверка гипотез относительно параметров регрессионного уравнения Лекция №5,Анализ данных, Лакман И.А.Отдельно исследуется Проверка достоверности оцененных параметров регрессионного уравнения Возможность применения регрессионного уравнения определяются достоверностью Проверка случайности остаточной компонентыЛекция №5,Анализ данных, Лакман И.А.Для проверки случайного характера остатков Выполнение предпосылки МНКПроверка условия Выполнение этой предпосылки означает получение несмещенных оценок.В случае, Выполнение предпосылки МНКПроверка условия Выполнение этой предпосылки означает получение эффективных оценок.Определение. Выполнение Проверка выполнения условия о постоянстве дисперсии остатковТест Гольфелда-Квандтаупорядочение n наблюдений по мере Проверка выполнения условия о постоянстве дисперсии остатковПрименение теста Гольфелда-Квандта (схема)Все n наблюдений Проверка выполнения условия о постоянстве дисперсии остатковТест Спирмена.Суть теста заключается в определении Схема теста СпирменаПроранжировать значения независимой переменной X, присваивая ранг 1 наименьшему значению, 8.  Рассчитать коэффициент ранговой корреляции rs по формуле: при отсутствии одинаковых Проверка значимости коэффициента ранговой корреляции СпирменаНулевая и альтернативная гипотезы имеют вид:Н0: коэффициент Проверка выполнения условия о постоянстве дисперсии остатковОпределение: нарушение условия независимости между ошибками Тест на определение автокорреляции в остаткахТест Дарбина-УотсонаТест Дарбина-Уотсона: обнаружение автокорреляции остатков видаТо Тест Бройша- ГодфриТест Дарбина-Уотсона нельзя применять в случае, если:В модели содержаться лаговые Условие нормальности остатковНарушение условия Тест Бера-ЖаркаСоответствие распределения остатков модели нормальному закону можно проверить с помощью теста Применение регрессионных уравненийПример. Зависимость урожайности какой-то культуры от уровня внесения удобрений описывается
Слайды презентации

Слайд 2 Проверка качества подгонки
Показатели качества подгонки отражают соответствие расчетных

Проверка качества подгонкиПоказатели качества подгонки отражают соответствие расчетных значений зависимой переменной

значений зависимой переменной фактическим значениям зависимой переменной у. Эти

показатели основываются на .
Первый показатель — остаточная дисперсия. Для однофакторного уравнения остаточная дисперсия вычисляется по формуле :
Чем меньше , тем лучше регрессионное уравнение описывает моделируемый процесс. является размерной величиной и сопоставление регрессионных уравнений, отражающих различные переменные, измеренные в различных единицах измерения, невозможно.
Второй показатель — коэффициент детерминации R2.
Коэффициент детерминации вычисляется по формуле :

 Коэффициент детерминации принимает значения в интервале от 0 до 1. Чем ближе R2 к единице, тем лучше качество подгонки регрессионного уравнения, так как R2 приближается к единице при приближении вычитаемой дроби к 0. В свою очередь указанная дробь приближается к нулю при приближении к нулю числителя, то есть при небольших отклонениях фактических и теоретических значений зависимой переменной. На основании R2 возможно сопоставление различных уравнений.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 3 Проверка гипотеза о том, что линейная связь между

Проверка гипотеза о том, что линейная связь между x и y

x и y не подтверждается
Отсутствие связи можно изучить

на основе отклонений расчетных значений от среднего арифметического значения и отклонения расчетных значений от фактических значений . Близкое к нулю значение свидетельствует об отсутствии какой-либо тенденции для в связи с изменением x.
Н0: , (т.е. линейная связь между x и y отсутствует);
H1: , (т.е. наличие линейной связи).
Рассчитываем значение F-статистики

Fтабл= - табличное значение распределения Фишера для вероятности p и степеней свободы m1=1, m2=n-2.
принимаем H0 с вероятностью p;
отвергаем H0 в пользу H1 с вероятностью p.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 4 Проверка гипотез относительно параметров регрессионного уравнения
Лекция №5,Анализ

Проверка гипотез относительно параметров регрессионного уравнения Лекция №5,Анализ данных, Лакман И.А.Отдельно

данных, Лакман И.А.
Отдельно исследуется коэффициент регрессии b. Выдвигается гипотеза

о том, что x влияет на y несущественно, то есть y изменяется по каким-то другим причинам, а не в связи с изменениями x.
Н0: , (т.е. фактор х незначим);
H1: , (т.е. фактор х значим).
t-статистика считается по формуле:
где — стандартная ошибка коэффициента b,
вычисляемая по формуле:
По общей процедуре проверки гипотез находим
(в таблице Стьюдента) с заданным уровнем значимости α (вероятностью р=1-α) и степенями свободы v=n-2.
Если , то с заданной вероятностью гипотезу b=0 отвергаем.
Аналогично проверяется гипотеза о значимости свободного члена а в уравнении регрессии.





Слайд 5 Проверка достоверности оцененных параметров регрессионного уравнения
Возможность применения

Проверка достоверности оцененных параметров регрессионного уравнения Возможность применения регрессионного уравнения определяются

регрессионного уравнения определяются достоверностью оцененных параметров модели или, по

другому, «хорошими» свойствами оценок коэффициентов регрессии: несмещенностью, состоятельностью и эффективностью оценок.
Параметры регрессионного уравнения, полученные методом наименьших квадратов, являются достоверными тогда и только тогда, когда остаточная компонента ε уравнения удовлетворяет условиям:
Остаточная компонента носит случайный характер. 
-мат. ожидание случайной компоненты равно нулю,
- дисперсия случайной компоненты — постоянна,
- отсутствует автокорреляция;
Нормальность распределения.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 6 Проверка случайности остаточной компоненты
Лекция №5,Анализ данных, Лакман И.А.
Для

Проверка случайности остаточной компонентыЛекция №5,Анализ данных, Лакман И.А.Для проверки случайного характера

проверки случайного характера остатков ε строят график зависимости остатков

от расчетных значений зависимой переменной .
Если на графике нет направленности
в расположении точек , то остатки ε
случайные величины.
Если ε зависит от , то остаточная
компонента ε не случайна.
Остатки – носят систематический характер
В этих случаях возможно следовало
выбрать в качестве регрессионной связи
нелинейную зависимость.




Слайд 7 Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает

Выполнение предпосылки МНКПроверка условия Выполнение этой предпосылки означает получение несмещенных оценок.В


получение несмещенных оценок.


В случае, когда значение

, для проверки соответствующей предпосылки применяю следующий тест:
Н0: , (математическое ожидание остатков равно нулю);
H1: , (математическое ожидание остатков отлично от нуля).
Рассчитывается значение критерия
где - несмещенное выборочное стандартное отклонение, μ - выборочное среднее. - табличное значение распределения Стьюдента для вероятности p и степени свободы m=n-1.
принимаем H0 с вероятностью p;
отвергаем H0 в пользу H1 с вероятностью p.




Лекция №5,Анализ данных, Лакман И.А.


Слайд 8 Выполнение предпосылки МНК
Проверка условия
Выполнение этой предпосылки означает

Выполнение предпосылки МНКПроверка условия Выполнение этой предпосылки означает получение эффективных оценок.Определение.

получение эффективных оценок.
Определение. Выполнение условия постоянства дисперсии (отсутствие ее

роста с ростом независимой переменной) называется гомоскедастичностью. В противном случае гетероскедастичностью.





-гетероскедастичность


гомоскедастичность

Лекция №5,Анализ данных, Лакман И.А.


Слайд 9 Проверка выполнения условия о постоянстве дисперсии остатков
Тест Гольфелда-Квандта
упорядочение

Проверка выполнения условия о постоянстве дисперсии остатковТест Гольфелда-Квандтаупорядочение n наблюдений по

n наблюдений по мере возрастания переменной x;
исключение из рассмотрения

C центральных наблюдений, при этом
(n-C)/2>p, где p- число оцениваемых параметров;
3. разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора x) и определение по каждой из групп уравнений регрессий;
4 определение остаточной суммы квадратов для первой (S1) и второй(S2) групп и нахождение их отношения , где S1> S2.
При выполнении нулевой гипотезы о гомоскедастичности остатков отношение R будет удовлетворять F-критерию c (n-C-2p)/2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 10 Проверка выполнения условия о постоянстве дисперсии остатков
Применение теста

Проверка выполнения условия о постоянстве дисперсии остатковПрименение теста Гольфелда-Квандта (схема)Все n

Гольфелда-Квандта (схема)
Все n наблюдений упорядочиваются по величине xj.
Вся упорядоченная

выборка разбивается на три подвыборки: определяем количество отбрасываемых наблюдений из расчета n\6.
Оцениваются отдельные регрессии для первой подвыборки (k первых наблюдений) и для третьей подвыборки (k последних наблюдений).
Определить остатки (ошибки) для первой и последней группы.
Возводим каждую группу остатков в квадрат и суммируем их.
Сравниваем две полученные суммы при этом разделим наибольшую из них на наименьшую (это будет Fрасч).
Определяем Fтабличное со степенями свободы n1=n1-2 и n2= n2-2, где n1,2-количество наблюдений в первой и соответственно во второй группе
Сравнить Fрасч c Fтабл. Если первое меньше второго, то есть рост дисперсии c увеличением независимого фактора (имеется гетероскедостичность) и наоборот.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 11 Проверка выполнения условия о постоянстве дисперсии остатков
Тест Спирмена.
Суть

Проверка выполнения условия о постоянстве дисперсии остатковТест Спирмена.Суть теста заключается в

теста заключается в определении наличия связи между ростом остаточной

компоненты и ростом независимого фактора, то есть определение роста дисперсии остатков. Проверяется такая зависимость на основе расчета коэффициента ранговой корреляции Спирмена ρ между остатками модели ε и независимым фактором х. Проверка статистической значимости коэффициента Спирмена на основе соответствующего t-критерия аналогична проверке нулевой гипотезы об отсутствии гетероскедастичности в остатках.
Существуют и другие тесты для определения гетероскедастичности в остатках, например тест Глейзера, Уайта.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 12 Схема теста Спирмена
Проранжировать значения независимой переменной X, присваивая

Схема теста СпирменаПроранжировать значения независимой переменной X, присваивая ранг 1 наименьшему

ранг 1 наименьшему значению, и т.д. Занести ранги в

первый столбец таблицы по порядку номеров испытуемых или признаков.
Проранжировать значения ряда остатков ε, в соответствии с теми же правилами. Занести ранги во второй столбец таблицы по порядку номеров испытуемых или признаков.
Подсчитать разности d между рангами X и ε по каждой строке таблицы и занести в третий столбец таблицы.
Возвести каждую разность в квадрат: d2. Эти значения занести в четвертый столбец таблицы.
Подсчитать сумму d2.
При наличии одинаковых рангов рассчитать поправки:
где a - объем каждой группы одинаковых рангов в
ранговом ряду X; b - объем каждой группы одинаковых
рангов в ранговом ряду ε.

Лекция по анализу данных № 4, Лакман И.А.


Слайд 13
8. Рассчитать коэффициент ранговой корреляции rs по

8. Рассчитать коэффициент ранговой корреляции rs по формуле: при отсутствии одинаковых

формуле:
при отсутствии одинаковых рангов

при наличии одинаковых рангов


где sum(d2) - сумма квадратов разностей между рангами; Ta и Tb - поправки на одинаковые ранги; N - количество наблюдений признаков, участвовавших в ранжировании.

Схема теста Спирмена

Лекция по анализу данных № 4, Лакман И.А.


Слайд 14 Проверка значимости коэффициента ранговой корреляции Спирмена
Нулевая и альтернативная

Проверка значимости коэффициента ранговой корреляции СпирменаНулевая и альтернативная гипотезы имеют вид:Н0:

гипотезы имеют вид:
Н0: коэффициент ранговой корреляции Спирмена rs незначимый,

гетероскедастичности нет;
Н1: коэффициент ранговой корреляции Спирмена rs значим, гетероскедастичность есть
Расcчитывается t-статистика по формуле:




Определяется tтабл по таблице Стьюдента со степенями свободы n-2 и уровнем значимости α
Если , то Н0 отклоняют на заданном уровне значимости, и считаем, что имеет место гетероскедастичность остатков.

Лекция по анализу данных № 4, Лакман И.А.


Слайд 15 Проверка выполнения условия о постоянстве дисперсии остатков
Определение: нарушение

Проверка выполнения условия о постоянстве дисперсии остатковОпределение: нарушение условия независимости между

условия независимости между ошибками для разных наблюдений называется автокорреляцией

в остатках. То есть имеется зависимость случайных компонент для наблюдений с различными номерами (i и j).
Нарушение условия приводит к получению неэффективных оценок и как следствие невозможности применения полученных моделей в прогнозных целей, в силу ненадежности полученных результатов.
Автокорреляцию можно представить в виде авторегрессии различного порядка, так, например, если текущее значение остатков находится в линейной зависимости от предыдущего порядка ( ), то имеет место авторегрессия первого порядка (AR(1)), если имеет место влияние предпредыдущих значений остатков , то есть
то имеет место авторегрессия второго порядка (AR(2)).
Считаем, что номера наблюдений упорядочены по возрастанию номера наблюдения i.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 16 Тест на определение автокорреляции в остатках
Тест Дарбина-Уотсона
Тест Дарбина-Уотсона:

Тест на определение автокорреляции в остаткахТест Дарбина-УотсонаТест Дарбина-Уотсона: обнаружение автокорреляции остатков

обнаружение автокорреляции остатков вида
То есть представленных в виде авторегрессии

первого порядка. .
Н0: , (т.е. автокорреляция остатков отсутствует);
H1: или , (наличие положительной
или отрицательной автокорреляции остатков).
Расчетное значение статистики Дарбина-Уотсона:
- табличные значения распределения Дарбина-Уотсона для степеней свободы n, и вероятности p. Области принятия соответствующих гипотез:


и - зона неопределенности
При проверке наличия автокорреляции на практике руководствуются простым правилом: расчетное значение D-W, близкое к 2, свидетельствует об отсутствии автокорреляции. Значение близкое к 4 свидетельствует об отрицательной автокорреляции, а близкое к нулю — о положительной.
Наличие авторегресии II порядка проверяют с тестом Броша-Годфри.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 17 Тест Бройша- Годфри
Тест Дарбина-Уотсона нельзя применять в случае,

Тест Бройша- ГодфриТест Дарбина-Уотсона нельзя применять в случае, если:В модели содержаться

если:
В модели содержаться лаговые переменные (сдвинутые на определенный временной

интервал вперед или назад)
В модели есть автокорреляция, выраженная авторегрессией второго и более высоких порядков.
В модели нет свободного члена
Количество наблюдений, по которым строилась модель, достаточно мало.
Тест Бройша- Годфри: рассматривается
Н0: , (автокорреляция, выраженная авторегрессией k-ого порядка, отсутствует);
H1: (автокорреляция в остатках имеется).
Рассчитывается LR=nR2 статистика подчиняется χ2-распределению с k степенями свободы. Здесь R2 –коэффициент детерминации, n – общее число кросс-секций. Если табличное значение χ2

Лекция №5,Анализ данных, Лакман И.А.


Слайд 18 Условие нормальности остатков
Нарушение условия

Условие нормальности остатковНарушение условия       приводит

приводит

к получению несостоятельных оценок, и как следствие приводящих к ненадежным прогнозам.
Критерий Колмогорова-Смирнова
Н0: , где - функция нормального распределения (распределение остатков согласуется с нормальным распределением);
H1: , (распределение остатков не согласуется с нормальным распределением).
принимаем H0 с вероятностью p;
отвергаем H0 в пользу H1 с вероятностью p.

Лекция №5,Анализ данных, Лакман И.А.


Слайд 19 Тест Бера-Жарка
Соответствие распределения остатков модели нормальному закону можно

Тест Бера-ЖаркаСоответствие распределения остатков модели нормальному закону можно проверить с помощью

проверить с помощью теста Бера-Жарка, для которого определяется JB-статистика

по формуле:

где – коэффициент асимметрии распределения остатков,


– коэффициент эксцесса, n – объем выборки, – среднее значение остатков, k – количество независимых факторов в модели.
Нулевая гипотеза о «ненормальности» распределения остатков отклоняется на выбранном уровне значимости, если JB>χ2табл, определённого для степеней свободы n–p–q из таблицы критических значений χ2-распределения.


  • Имя файла: proverka-adekvatnosti-lineynoy-regressii.pptx
  • Количество просмотров: 120
  • Количество скачиваний: 0
- Предыдущая Оригами