Слайд 2
Основные моменты
Преподаватели:
Лекции: Зандер Евгения Викторовна
Семинары: Сырцова Екатерина Александровна
В
конце семестра:
У групп менеджмента – зачет;
У групп экономической безопасности
– экзамен;
Система оценки:
За семестр – автоматом зачет/любая оценка
Экзамен/зачет «с нуля»
Слайд 3
Оценка в семестре для групп менеджмента:
50 % -
коллоквиумы (10 в течение семестра:
6 (7) теоретических, 4
(3) – практических);
20 % - письменная работа по теме: «Модели с бинарной зависимой переменной»;
30 % - Итоговый тест (контрольная работа).
Зачет с 51 %
Слайд 4
Оценка в семестре для групп экономической безопасности:
60 %
- коллоквиумы (12 в течение семестра:
7 теоретических, 5
– практических);
20 % - контрольная работа по теме: «Предварительная обработка и регрессионный анализ пространственных данных»;
20 % - контрольная работа по теме: «Модели с бинарной зависимой переменной. Временные ряды».
«3» – с 51 %
«4» – с 67 %
«5» – с 84 %
Слайд 5
Общение
Электронные курсы:
Для групп экономической безопасности – «Эконометрика для
ЭБ»
Для групп менеджмента – ОММСЭП (эконометрика)
Электронная почта: ekkoryakova@yandex.ru
Вконтакте –
в случае крайней необходимости (не рассчитывать на ответ после 00.00 и в выходные)
Слайд 6
Литература
Зандер Е. В., Ибрагимов Н. М. Эконометрика: учебное
пособие. / Сибирский федеральный университет. Красноярск, 2007.
Елисеева И. И.,
Юзбашев М. М. Общая теория статистики: учебник / Под ред. И.И. Елисеевой. — 5-е изд., перераб. и доп. — М.: Финансы и статистика, 2004.
Доугерти К. Введение в эконометрику: учебник. 3-е изд./Пер. с англ. М.: ИНФРА-М, 2009. – 465 с.
Слайд 7
Эконометрика
Эконометрика — это наука об измерении количественных и
качественных экономических взаимосвязей с помощью математических и статистических методов.
В
современной эконометрике существуют два основных направления: теоретическое и прикладное.
Целью теоретической эконометрики является развитие методов оценки количественных и качественных экономических взаимосвязей
Прикладная эконометрика занимается применением статистического инструментария для анализа экономических проблем различного уровня.
Слайд 8
Повторение основных понятий теории вероятностей и статистики
Случайная переменная
Математическое
ожидание
Дисперсия
Слайд 9
Случайная переменная – любая переменная, значение которой не
может быть точно предсказано.
Дискретная (число очков на кубике)
Непрерывная (температура
в комнате)
Составляющие:
Постоянная
Случайная
Случайная переменная
Слайд 12
Генеральная совокупность и выборка
Генеральная совокупность – все существующие
объекты
Выборка – часть генеральной совокупности, по которой проводится исследование
Слайд 13
Теоретические величины и их оценки
Генеральная совокупность
Теоретические величины
Мат. Ожидание
Дисперсия
Выборка
Оценки
Выборочное
среднее
Выборочная дисперсия и т.д.
Оценки должны обладать следующими свойствами:
Несмещенность
Состоятельность
Эффективность
Слайд 14
Этапы эконометрического моделирования
Определение проблемы/темы
Сбор данных – составление выборки
Предварительная
обработка данных:
Расчет и анализ описательных статистик
Проверка распределения на однородность
Проверка
распределения на нормальность
Корректировка: приведение распределение к однородному и нормальному
Слайд 15
Выборки
Принципы построения выборки:
Независимость наблюдений
Случайность
Достаточный объем
Репрезентативность — соответствие характеристик выборки характеристикам генеральной
совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования
на всю генеральную совокупность, из которой она была собрана.
Слайд 17
Типы данных
пространственные данные (англ. cross-sectional data) — наборы
показателей экономических переменных, полученных в определенный момент времени;
временные ряды
(англ. time series) — выборки наблюдений, в которых важны не только сами наблюдаемые значения случайных величин, но и порядок их расположения друг за другом;
пространственно-временные данные (англ. panel data) - прослеженные во времени пространственные выборки.
https://www.fedstat.ru/indicator/data.do?id=33379
Слайд 18
Выборки
Тип данных
Единица наблюдения
Объем выборки
Показатели (для каждого наименование и
единицы измерения)
Период
Источник данных
Слайд 19
Время, потраченное на чтение (в неделю), часов
Слайд 20
Самые читающие страны мира
Показатель – время, потраченное на
чтение в неделю, часы (данные за 2014 год)
Пространственные данные
Единица
наблюдения – страна
Объем выборки – 30 наблюдений
Источник – World Culture Score Index
Слайд 21
Сопоставимость данных
Список самых кассовых фильмов:
Аватар $2,8 млрд
Титаник $2,2 млрд
Звёздные
войны: Пробуждение силы $2,1 млрд
Мир юрского периода $1,7 млрд
Мстители
$1,5 млрд
Форсаж 7 $1,5 млрд
Мстители: Эра Альтрона $1,4 млрд
Гарри Поттер и дары Смерти. Часть 2 $1,3 млрд
Холодное сердце $1,3 млрд
Железный человек 3 $1,2 млрд
Список самых кассовых фильмов с учетом инфляции (в ценах 2014 г.):
Унесённые ветром $3,4 млрд
Аватар $3,0 млрд
Звёздные войны: Пробуждение силы $2,8 млрд
Титаник $2,5 млрд
Звуки музыки $2,4 млрд
Инопланетянин $2,3 млрд
Десять заповедей $2,2 млрд
Доктор Живаго $2,1 млрд
Челюсти $2,0 млрд
Белоснежка и семь гномов $1,8 млрд
Слайд 23
Чтение книг в России
Доля населения, не читающего книги,
%
Временная выборка
Единица наблюдения - год
Период наблюдения 1996-2013
Объем выборки –
8 наблюдений (т.к. данные не за каждый год)
Источник: опросы Левада-центра и ВЦИОМ
Слайд 24
Количество зарегистрированных браков в Красноярском крае
Слайд 25
Описательные статистики
Среднее
Медиана, квантиль, дециль
Мода
Дисперсия
Стандартное отклонение
Вариация
Слайд 26
Среднее значение
Пример № 1 (Про принтеры*)
Руководитель службы качества
получил задание: сравнить качество принтеров своей компании и компании
конкурентов на основании данных о:
Количестве проданных принтеров;
Количестве проблем с качеством в течение гарантийного периода (с одним и тем же принтером могут обращаться несколько раз)
Руководитель службы качества рассчитал описательную статистику – среднее количество проблем с качеством на каждый проданный принтер:
Для своей фирмы – 9,1
Для фирмы-конкурента – 2,8
Вывод?
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 27
Среднее значение
В баре 10 человек, каждый в год
получает 35 000 $
Средний годовой доход людей, находящихся в
баре – 35 000 $
В баре 10 человек, каждый в год получает 35 000 $ и Билл Гейтс
Средний годовой доход людей, находящихся в баре – 91 000 000 $
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 28
Медиана
В баре 10 человек, каждый в год получает
35 000 $
Средний годовой доход людей, находящихся в баре
– 35 000 $
Медиана – 35 000 $
В баре 10 человек, каждый в год получает 35 000 $ и Билл Гейтс
Средний годовой доход людей, находящихся в баре – 91 000 000 $
Медиана – 35 000 $
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 29
Среднее значение, медиана, мода
Медиана – середина вариационного (ранжированного)
ряда;
Мода – значение признака, встречающееся в выборке чаще всего;
Слайд 30
Пример про принтеры
Среднее количество проблем с качеством на
каждый проданный принтер:
Для своей фирмы – 9,1
Для фирмы-конкурента –
2,8
Медиана для количества проблем с качеством на каждый проданный принтер:
Для своей фирмы – 1
Для фирмы-конкурента – 2
Вывод?
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 31
Гистограмма распределения
По оси Х – число проблем с
качеством на один принтер
По оси Y – частота, %
(т.е. у какого количества принтеров наблюдалось такое количество проблем с качеством)
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 32
Гистограмма распределения
По оси Х – число проблем с
качеством на один принтер
По оси Y – частота, %
(т.е. у какого количества принтеров наблюдалось такое количество проблем с качеством)
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 33
Квартили, децили, перцентили
?-квантиль — это некоторое значение, которое
не превышает случайная величина с заданной вероятностью
0,25-квантиль называется первым
(или нижним) квартилем;
0,5-квантиль называется медианой или вторым квартилем;
0,75-квантиль называется третьим (или верхним) квартилем.
Слайд 34
Пример
Рассчитаны описательные статистики для величины «сумма баллов за
семестр» для групп ГМУ по эконометрике за весенний семестр,
2016 г.
Среднее 60,7
Медиана 73,4
Стандартное отклонение 33,6
Вариация 0,55
10-я перцентиль (1-й дециль) 0
20-я перцентиль (2-й дециль) 18,2
30-я перцентиль (3-й дециль) 55,1
50-я перцентиль (5-й дециль, медиана) 73,4
90-я перцентиль (9-й дециль) 92,4
Слайд 35
Стандартное отклонение
250 пассажиров самолета
Средний вес – 70,3 кг
Стандартное
отклонение (средний разброс) – 12 кг
250 участников марафона
Средний вес
– 70,3 кг
Стандартное отклонение (средний разброс) – 2 кг
Слайд 36
Стандартное отклонение
Пример
«У вас берут на анализ кровь, по
результату которого некий показатель = 134.
Среднее значение этого показателя
у человека вашего возраста = 122
Врач успокаивает: стандартное отклонение для этого показателя равно 18»
Таким образом, для большинства людей значение этого показателя лежит в диапазоне от 104 (122 – 18) до 140 (122 + 18), т.е. результат анализа находится в пределах нормы
*Пример взят из Уилан Ч. Голая статистика. Самая интересная книга о самой скучной науке / пер. с англ. И Веригина. – М.: Манн, Иванов и Фербер, 2016. – 352 с.
Слайд 38
Что делать в случае, если выборка неоднородна?
Использование относительных
показателей вместо абсолютных
Группировка наблюдений
Отсев аномальных наблюдений (выбивающиеся максимальные и
минимальные значения, обязательно объяснить, почему это наблюдение оказалось аномальным)
Слайд 39
Вопрос
По словам остроумного Мишеля Матвеева, в этом семействе
был один великий ученый, была парочка редкостных кретинов, но
в основном это были нормальные бюргеры.
Назовите упомянутого ученого.
Слайд 40
Нормальное распределение
Распределение роста
Слайд 41
Нормальное распределение
Среднее, мода и медиана совпадают
Симметрично относительно среднего
Очень
большие и очень маленькие значения маловероятны
Слайд 42
Нормальное распределение
68,2 % наблюдений находится в пределах одного
стандартного отклонения от среднего;
95,4 % наблюдений – двух стандартных
отклонений;
99,7 % наблюдений – трех стандартных отклонений
Слайд 43
Асимметрия и эксцесс
Для нормального распределения коэффициенты асимметрии и
эксцесса равны нулю.
Коэффициент асимметрии:
Коэффициент эксцесса:
Слайд 44
Описательные статистики. Коэффициенты асимметрии и эксцесса
Среднедушевые доходы, руб.:
Асимметрия
1,92; эксцесс 4,51.
Количество преступлений экономической направленности, шт.:
Асимметрия 3,44; эксцесс
17,48.
Доля городского населения, %:
Асимметрия -0,56; эксцесс 0,95.
Слайд 46
Проверка распределения на нормальность
Соотношение среднего, моды и медианы
Коэффициенты
асимметрии и эксцесса
Гистограмма распределения
Формальные критерии, например, хи-квадрат
Слайд 47
Приведение распределения к нормальному закону
Слайд 48
Приведение распределения к нормальному закону
При правосторонней асимметрии наиболее
распространенным методом приведения к нормальному закону является логарифмирование:
После логарифмирования
среднедушевых доходов получаем следующую гистограмму и описательные статистики:
Асимметрия 0,84; эксцесс 1,23.
Слайд 54
Проверка гипотез
Нулевая гипотеза H0
Альтернативная гипотеза H1
Слайд 55
Пример 1
Нулевая гипотеза: новый экспериментальный препарат НЕ более
эффективен для профилактики малярии, чем плацебо
Альтернативная гипотеза: новый экспериментальный
препарат способствует профилактике малярии
Данные: в группе принимающей новый препарат, было зафиксировано меньше случаев заболевания малярией, чем в контрольной группе.
Вывод: нулевая гипотеза отвергается и принимается альтернативная гипотеза
Слайд 56
Пример 2
Нулевая гипотеза: лечение заключенных от наркозависимости не
снижает вероятности их повторного ареста после выходы из тюрьмы
Альтернативная
гипотеза: лечение заключенных от наркозависимости снижает вероятность их повторного ареста после выходы из тюрьмы
Данные: через пять лет наблюдений оказалось, что вероятность повторного ареста тех, кого лечили от наркозависимости, и тех, кого не лечили, примерно одинакова.
Вывод: нулевая гипотеза не отвергается.
Слайд 57
Ошибки первого и второго рода
Ошибка первого рода –
отклонение верной нулевой гипотезы
Ошибка второго рода – принятие ложной
нулевой гипотезы
Какая хуже?
Слайд 58
Примеры
Нулевая гипотеза: письмо не спам
Альтернативная гипотеза: письмо –
спам
Нулевая гипотеза: пациент не болен раком
Альтернативная гипотеза: пациент болен
раком
Слайд 59
Примеры
Спам-фильтр
Ошибка первого рода: отбраковка письма, которое на самом
деле не является спамом
Ошибка второго рода: пропуск письма, являющегося
спамом
Выявление рака
Ошибка первого рода: отправили на дополнительные обследования того, кто не болен раком
Ошибка второго рода: ошибочно не диагностировали раковое заболевание
Слайд 60
Уровень значимости
Уровень значимости – вероятность отклонения нулевой гипотезы
при условии, что она истинная. Другими словами, уровень значимости
– вероятность ошибки I рода.
Самый часто используемый уровень значимости – 5 %
Также используются 1% и 10 %
Ужесточить или ослабить?
Слайд 62
Ковариация
Ковариация является базовой мерой линейной связи между двумя
случайными величинами:
Ковариация является неудобной мерой связи, т.к. зависит от
масштаба (единиц измерения), поэтому на практике не используется.
Слайд 64
Свойства коэффициента парной корреляции
Коэффициент корреляции показывает направление и
тесноту связи
Слайд 66
Пример
По выборке из 139 стран рассмотрены два показателя:
1.
Electric consumption – потребление электроэнергии, квт/чел, за 2012 год;
2.
Internet users – количество пользователей интернетом на 100 чел, за 2012 год;
Слайд 67
Пример
По выборке из 139 стран рассмотрены два показателя:
1.
Electric consumption – потребление электроэнергии, квт/чел, за 2012 год;
2.
Internet users – количество пользователей интернетом на 100 чел, за 2012 год;
Парный коэффициент корреляции между ними равен r = 0,67
Слайд 68
Проверка значимости
Чтобы сделать вывод о наличии/отсутствии корреляционной связи,
необходимо проверить значимость коэффициента корреляции.
Алгоритм:
1. Формулируются две гипотезы: H0:
связь отсутствует, Н1: связь существует.
2. Рассчитывается статистика Стьюдента:
3. Расчетное значение сравнивается с табличным при уровне значимости (1 %,
5 %,10 %) и степенях свободы n – 2. Если расчетное значение меньше табличного, не отвергается гипотеза Н0 об отсутствии корреляционной связи, если расчетное больше табличного – гипотеза Н1.
Слайд 69
Пример
Проверим значимость найденного коэффициента корреляции = 0,67.
n –
2 = 139 – 2 = 137
t = 10,57
Вывод:
коэффициент значим/не значим на уровне значимости _____
Слайд 70
Корреляционная матрица
Способ представления парных коэффициентов корреляции;
Матрица, которая состоит
из парных коэффициентов корреляции.
Свойства корреляционной матрицы:
Квадратная
Симметрична относительно главной диагонали
На
главной диагонали - единицы
Слайд 71
Пример
Electric consumption – потребление электроэнергии, квт/чел,
за 2012
год;
Internet users – количество пользователей интернетом на 100 чел,
за 2012 год;
Population 15-64 – доля населения в возрасте от 15 до 64 лет, %,
за 2012 год;
Rural population – доля сельского населения, %, за 2012 год.
Слайд 72
Примеры корреляций
Наблюдается тесная прямая корреляционная связь между количеством
аистов и количеством новорожденных;
Наблюдается тесная корреляционная связь между объемом
потребления мороженого и количеством утонувших людей;