Слайд 2
Предметом математической статистики является изучение случайных величин по
результатам наблюдений.
Задачи:
1. упорядочить данные
2. оценить характеристики наблюдаемой величины
3. проверить
статистическую гипотезу
Говорят, что «математическая статистика – это теория принятия решения в условиях неопределенности».
Слайд 3
Генеральная совокупность и выборка
Генеральная совокупность
Выборка
300 человек
30 человек
Сколько девушек?
Сколько
девушек?
Слайд 5
Пусть из генеральной совокупности извлечена выборка, причем x1
наблюдалось n1 раз, x2 – n2 раз, xk –
nk раз и ∑ni = n – объем выборки. Наблюдаемые значения хi называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений ni называют абсолютными частотами, а их отношения к объему выборки ni / n = wi – относительными частотами или частностями.
Слайд 6
Соответствие, установленное между наблюдаемыми вариантами и их частотами
(абсолютными или относительными), называют статистическим распределением.
При этом должны
выполняться два условия нормировки:
1) n1 + n2 + …+ nk = n (объем выборки);
2) w1 + w2 + …+ wk = 1.
Удобной формой записи статистического распределения является таблица. В верхней строке таблицы записывают последовательность вариант, в нижней – соответствующие им частоты (абсолютные или относительные).
Слайд 7
Пример 1. Имеются данные о количестве дежурств сотрудниками
кафедры за месяц. Произведена выборка объемом n = 15:
3
0 5 7 4 3 1 9 5 3 4 4 2 8 5.
Составить статистический вариационный ряд распределения частот (абсолютных и относительных).
Решение
1. Расположить значения выборки в возрастающем порядке:
0 1 2 3 3 3 4 4 4 5 5 5 7 8 9.
Имеем девять различных значений.
2. Найти абсолютные частоты появления каждого значения выборки:
n1 = 1, n2 = 1, n3 = 1, n4 = 3, n5 = 3, n6 = 3, nz = 1, n8 = 1, n9 = 1.
Проверить первое условие нормировки:
3. Вычислить относительные частоты появления каждого значения выборки по формуле wi = ni / n:
W1*= 1/15, w2 = 1/15, w3 = 1/15, w4 = 3/15, w5 = 3/15, w6 = 3/15, w7 = 1/15, w8 = 1/15, w9= 1/15.
Проверить второе условие нормировки:
.
4. Внести полученные данные в таблицу:
W
wi
Слайд 8
ПОЛИГОН
Для геометрического изображения такого статистического распределения служит
полигон частот или полигон относительных частот.
Полигоном частот называют ломаную
линию, отрезки, которой соединяют точки (x1;n1), (x2;n2), …, (xk;nk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им частоты ni.
Полигоном относительных частот называют ломаную линию, отрезки которой соединяют точки (x1; w1), (x2; w2), … , (xk; wk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им относительные частоты pi
Слайд 10
Гистограмма
Гистограммой частот называется ступенчатая фигура, основанием i-го прямоугольника
которой являются частичные интервалы длиною Δi, и высотой ni.
Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni .
В практике для удобства вычислений обычно используют ряды с равными интервалами (Δ), которые называют шагом интервала.
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною Δi, а высоты равны отношению wi.
Слайд 11
Построение гистограммы
Порядок построения гистограммы
1. Собрать данные, выявить максимальное
и минимальное значения и определить диапазон (размах) гистограммы.
2. Полученный
диапазон разделить на интервалы, предварительно определив их число (обычно 5-20 в зависимости от числа показателей) и определить ширину интервала.
3. Все данные распределить по интервалам в порядке возрастания: левая граница первого интервала должна быть равна наименьшему из имеющихся значений.
4. Подсчитать частоту каждого интервала.
5. Вычислить относительную частоту попадания данных в каждый из интервалов.
6. По полученным данным построить гистограмму - столбчатую диаграмму, высота столбиков которой соответствует частоте или относительной частоте попадания данных в каждый из интервалов:
Слайд 12
Гистограмма
нормального распределения
Слайд 13
Пример.2. По результатам тестирования по анатомии студентов 2-го
курса получены данные о доступности заданий теста (отношение числа
студентов, правильно выполнивших задания, к числу тестировавшихся студентов), представленные ниже, в таблице.
Тест содержал 25 заданий. Получены следующие данные: 25, 37, 46, 46, 50, 54, 55, 57, 58, 60, 60, 61, 64, 65, 66, 66, 67, 70, 71, 72, 75, 77, 85, 85, 95. Построить гистограмму, распределив данные в 7 интервалов.
Слайд 14
Решение.
Откладываем на оси абсцисс 7 отрезков длиной 10.
На них, как на основаниях, строим прямоугольники, высоты которых
соответственно равны 1, 1, 5, 7, 7, 3, 1. Полученная ступенчатая фигура и является искомой гистограммой.
Слайд 17
Пусть изучается дискретная генеральная совокупность относительно количественного признака.
Генеральной средней называется среднее арифметическое значений признака генеральной совокупности.
Она вычисляется по формуле
или
где xi — значения признака генеральной совокупности объема n ; mi — соответствующие частоты, причем
Слайд 18
Если генеральная средняя неизвестна и требуется оценить ее
по данным выборки, то в качестве оценки генеральной средней
принимают выборочную среднюю, которая является несмещенной и состоятельной оценкой. Отсюда следует, что если по нескольким выборкам достаточно большого объема из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближенно равны между собой. В этом состоит свойство устойчивости выборочных средних.
Слайд 19
Для того чтобы охарактеризовать рассеяние значений количественного признака
X генеральной совокупности вокруг своего среднего значения, вводят сводную
характеристику Dг — генеральную дисперсию. Генеральной дисперсией называется среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения , которое вычисляется по формуле
Слайд 20
Для того чтобы охарактеризовать рассеяние наблюденных значений количественного
признака выборки вокруг своего среднего значения хв, вводят сводную
характеристику Dв— выборочную дисперсию. Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюденных значений признака от их среднего значения , которое вычисляется по формуле
Слайд 21
Кроме дисперсии для характеристики рассеяния значений признака генеральной
(выборочной) совокупности вокруг своего среднего значения используют сводную характеристику
— среднее квадратическое отклонение. Генеральным средним квадратическим отклонением называют квадратный корень из генеральной дисперсии: .
Выборочным средним квадратическим отклонением называют квадратный корень из выборочной дисперсии:
Слайд 22
Пусть из генеральной совокупности в результате n независимых
наблюдений над количественным признаком x извлечена выборка объема n
. Требуется по данным выборки оценить неизвестную генеральную дисперсию Dг . Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка приведет к систематическим ошибкам, давая заниженное значение генеральной дисперсии. Объясняется это тем, что выборочная дисперсия является смещенной оценкой Dг . Другими словами, математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно .
Легко исправить выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии. Для этого нужно умножить на дробь .
В результате получим исправленную дисперсию S2, которая будет несмещенной оценкой генеральной дисперсии:
Слайд 23
Интервальные оценки
Задачу интервального оценивания можно сформулировать так: по
данным выборки построить числовой интервал, относительно которого с заранее
выбранной вероятностью можно сказать, что внутри него находится оцениваемый параметр. Интервальное оценивание особенно необходимо при малом количестве наблюдений, когда точечная оценка малонадежна.
Слайд 24
Доверительным интервалом
для параметра называется такой интервал, относительно
которого с заранее выбранной вероятностью p=1-α , близкой к единице, можно утверждать, что он содержит неизвестное значение параметра , то есть . Чем меньше для выбранной вероятности число , тем точнее оценка неизвестного параметра . И, наоборот, если это число велико, то оценка, проведенная с помощью данного интервала, малопригодна для практики.
Так как концы доверительного интервала зависят от элементов выборки, то значения и могут изменяться от выборки к выборке. Вероятность принято называть доверительной (надежностью). Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Выбор доверительной вероятности не является математической задачей, а определяется конкретной решаемой проблемой. Наиболее часто задают надежность, равную 0,95; 0,99; 0,999.
Слайд 25
Доверительный интервал для генеральной средней нормального распределения признака
при неизвестном значении среднего квадратического отклонения задается выражением
Коэффициент Стьюдента
Слайд 26
Определение необходимого объема выборки для получения оценок заданной
точности
При планировании выборочного наблюдения с заранее заданным значением допустимой
ошибки выборки необходимо правильно оценить требуемый объем выборки. Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности p , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:
непосредственно вычисляется необходимый объем выборки n: