Слайд 2
Все единицы изучаемого явления называются генеральной совокупностью, а
отдельная часть этих единиц, отобранных из генеральной совокупности для
непосредственного наблюдения, именуется выборочной совокупностью.
Таким образом, выборочная совокупность репрезентует (представляет) всю генеральную совокупность.
Слайд 3
научно обоснованные способы отбора единиц выборочной совокупности
а) выборка
из генеральной совокупности должна быть проведена случайно, то есть
каждая ее единица должна иметь такую же вероятность попасть в выборку, как и остальные (так, например, отобранные наилучшие или наихудшие единицы не отображают действительное распределение признака в генеральной совокупности);
Слайд 4
б) выборка должна быть осуществлена из однородной совокупности, так
как при других обстоятельствах результаты выборки будут не точными
и не могут в полной мере представлять генеральную совокупность.
Слайд 5
Различают два принципиально разных способа формирования выборочной совокупности:
а)
повторная выборка, когда отобранная из генеральной совокупности занумерованная единица
фиксируется и снова возвращается на свое место, после чего пачка номеров единиц генеральной совокупности тщательным образом перемешивается; этот способ отбора на практике является ограниченным из-за нецелесообразности, а иногда и невозможности повторного обследования;
Слайд 6
б) бесповторная выборка, когда отобранный из пачки номер единицы
генеральной совокупности откладывается в сторону и не возвращается обратно
в пачку; этот способ отбора характеризуется повышенной степенью точности, надежности выборки и чаще всего используется на практике.
Слайд 7
В статистической практике различают такие разновидности выборки:
- по
способу организации выборочного обследования:
простая случайная выборка;
механическая выборка;
районированная (типическая) выборка;
серийная
выборка;
ступенчатая выборка.
Слайд 8
по степени охватывания единиц обследуемой совокупности выборки:
большие (при n = 30);
малые (при
n < 30).
Слайд 9
Характеристики генеральной и выборочной совокупностей
Рассматриваем изучение признака X
в генеральной совокупности объема N единиц.
Генеральная совокупность представляется
вариационным рядом, но это распределение неизвестно и стоит задача его определения.
Слайд 10
Обобщающими характеристиками этого ряда будут:
генеральная средняя:
генеральная дисперсия
:
Слайд 11
генеральное среднее квадратическое отклонение
Слайд 12
доля единиц признака генеральной совокупности р, то есть
часть единиц М, которая обладает данным значением признака в
общем объеме N единиц генеральной совокупности:
Слайд 13
Цель выборочного исследования заключается в том, чтобы, отобрав
из генеральной совокупности n единиц, обследовать их и на
этой основе оценить неизвестные нам генеральные характеристики. Вариация признака х в выборочной совокупности объемом n может быть представлена в виде вариационного ряда, который1 в общем случае отличаеся от вариационного ряда, представляющего генеральную совокупность, но характеристики которого могут быть определены.
Слайд 14
Обобщающими характеристиками выборочной совокупности будут:
выборочная средняя
2) выборочная
дисперсия
Слайд 15
3) выборочное среднее квадратическое отклонение ;
4)
доля единиц признака выборочной совокупности w, то есть отношение
количества единиц выборочной совокупности m, которая обладает данным признаком, к объему выборочной совокупности n:
Слайд 16
5) часть выборки wв как отношение объема выборки
к объему генеральной совокупности
Слайд 17
Ошибки выборочного наблюдения
Ошибками выборки называются некоторые расхождения характеристик
генеральной и выборочной совокупности. Они включают ошибки регистрации и
репрезентативности.
Ошибками регистрации называют такие, которые возникают в результате получения неточных или неверных сведений от отдельных единиц совокупности из-за несовершенства измерительных приборов, недостаточной квалификации наблюдателя, недостаточной точности расчета и т. п. Эти ошибки должны быть исключены или сведены к минимуму.
Слайд 18
Ошибки репрезентативности разделяют на
систематические
случайные.
Систематические ошибки репрезентативности возникают
в результате особенностей принятой системы накопления и обработки данных
наблюдения или из условий несоблюдения правил отбора в выборочную совокупность.
Такие ошибки также должны быть исключены
Слайд 19
Случайные ошибки репрезентативности возникают прежде всего из-за того,
что выборочная совокупность при ее малом объеме не всегда
точно воспроизводит характеристики генеральной совокупности. Поэтому этот вид ошибок выборки является основным, и задание выборочного метода заключается в получении таких выборочных характеристик, которые бы как можно точнее воспроизводили характеристики генеральной совокупности, то есть давали наименьшие ошибки репрезентативности.
Слайд 20
Закон больших чисел
Выборочный метод наблюдения основан на вероятном
подходе, теоретической базой для которого является закон больших чисел.
Сущность
закона больших чисел заключается в том, что при увеличении численности единиц совокупности постепенно уменьшается элемент случайности в обобщенных характеристиках совокупности.
Слайд 21
На основе закона можно утверждать, что при достаточно
большом объеме выборки (n=30) выборочные характеристики мало отличаются от
генеральных, в результате чего используются приближенные зависимости для средней, доли, дисперсии, среднем квадратическом отклонении:
Слайд 22
Теорема Чебышева
при неограниченном увеличении количества независимых наблюдений в
генеральной совокупности при ограниченной дисперсии с вероятностью, сколь угодно
приближенной к единице, можно утверждать, что выборочные характеристики (средняя, доля) будут достаточно мало отличаться от соответствующих генеральных характеристик, то есть
Слайд 23
Теорема Ляпунова
при достаточно большом количестве независимых наблюдений в
генеральной совокупности с ограниченной дисперсией вероятность того, что величина
отличия между выборочной и генеральной средней не превышает по абсолютной величине некоторого значения Δ и равняется интегралу Лапласа, то есть
Слайд 24
где Δ — предельная ошибка выборки, или максимально
возможная для принятой вероятности Р:
—
средняя квадратическая (стандартная) ошибка выборки;
t — коэффициент доверия, который показывает соотношение предельной и стандартной ошибок и зависит от значения вероятности P;
Ф(t) — интеграл Лапласа
Слайд 25
Из теоремы Ляпунова следует, что при достаточно большом
количестве независимых наблюдений распределение выборочных средних и их отклонение
от генеральной средней приближено к нормальному закону распределения.
Слайд 26
Простая случайная выборка
При простой случайной выборке отбор единиц
осуществляется из всей массы единиц генеральной совокупности без предварительного
распределения ее на любые группы и единицы отбора совпадают с единицами наблюдения.
С практической точки зрения преимущество отдается простой бесповторной выборке
Слайд 27
Важным условием репрезентативности случайного отбора является то, что
каждой единице генеральной совокупности предоставляется одинаковая возможность попасть в
выборочную совокупность. Именно принцип случайности попадания любой единицы генеральной совокупности в выборку предотвращает возникновение систематических ошибок отбора.
Слайд 28
При простой случайной выборке (как и в других
видах выборочного наблюдения) возможно решение таких задач:
определение ошибки выборочного
наблюдения;
определение границ генеральных характеристик на основе выборочных с заданной доверительной вероятностью (степенью надежности);
Слайд 29
определение доверительной вероятности того, что генеральные характеристики могут
отличаться от выборочных не более определенной заданной величины;
нахождение необходимой
численности выборки, которая с практической достоверностью обеспечивала бы заданную точность выборочных характеристик.
Слайд 30
Решение первой задачи
Средняя квадратическая ошибка бесповоротной выборки
m определяется по формулам:
а) для средней
б)для доли
Слайд 31
На основе теоремы Ляпунова предельная ошибка выборки равна
Коэффициент доверия t при определении предельной ошибки зависит от
принятого уровня вероятности Р:
так, при t=1,0 значение вероятности Р=0,683; t=1,96— для вероятности Р = 0,950;
t=2,0 — для вероятности Р = 0,954;
t = 3,0 — для вероятности Р=0,997 .
Слайд 32
Решение второй задачи
Оценка по данным выборки характеристик генеральной
совокупности
а) для средней
б) для доли
Слайд 33
Эти формулы устанавливают границы, в которых при заданной
доверительной вероятности находится неизвестная величина оцениваемого параметра: средней
или доли р в генеральной совокупности. Вероятность того, что величина генеральной средней или доли выйдет за доверительные границы, равняется
и называется уровнем значимости.
Слайд 34
Решение третьей задачи
Доверительная вероятность Р, которую необходимо вычислить
по теореме Ляпунова, является функцией от коэффициента t:
Р
= Ф(t),
где Ф(t) — интеграл Лапласа.
Слайд 35
Значение t, в свою очередь, может быть определено
через предельную и стандартную ошибки
вычисленными относительно средней или
доли.
Наконец, по найденным значениям t из справочных таблиц находится интеграл Лапласа, отвечающий разыскиваемой вероятности Р, которая сравнивается с заданной величиной.
Слайд 36
Решение четвертой задачи
а) для средней
б) для доли
Слайд 37
Механическая выборка
Механической называется такая выборка, при которой генеральная
совокупность объемов N единиц, расположенных в определенном порядке (по
увеличению или уменьшению, по алфавиту, географическому положению и т. п.), разделяется на п равных частей, и из каждой части обследуется одна единица.
Отношение
называется интервалом выборки.
Слайд 38
Например, если отбор составляет 5% от генеральной совокупности
работающих на предприятии, размещенных в списке в алфавитном порядке,
то обследуют каждого 20-го работающего (5% — это 1/20 списочного состава работающих).
Интервал выборки будет равняться
Слайд 39
За начало отсчета при обследовании генеральной совокупности принимают
или начальную единицу, определенную случайным отбором (при неблагоприятном размещении
единиц генеральной совокупности)
или середину первого интервала (если единицы в списке размещены по определенному признаку — увеличению или уменьшению).
Слайд 40
Механическая выборка очень удобна в случаях, когда уже
есть списки единиц, составленные в том или другом порядке,
или тогда, когда мы не можем предварительно составить список единиц генеральной совокупности, которые появляются постепенно в течение какого-то периода (например: при изучении покупок в магазине обследовать каждого 10-го покупателя; при контроле качества продукции — проверить каждую 5-ую деталь, которая сошла со станка).
Слайд 41
Ошибки выборки при механическом отборе единиц вычисляют по
формулам простой случайной бесповторной выборки.
Слайд 42
С целью экономии времени и средств иногда бывает
удобно обследовать не всю выборочную совокупность, а часть ее,
то есть осуществить подвыборку из единиц первичной выборки.
Слайд 43
Этот способ называют двухфазным, а при наличии нескольких
подвыборок —многофазным.
Слайд 44
Многофазный способ чаще всего используют в тех случаях,
когда количество необходимых для определения показателей имеет разную точность
(например, в случаях разной степени вариации показателей).
Ошибки при многофазной выборке рассчитываются на каждой фазе отдельно.
Слайд 45
Иногда бывает целесообразным взять из совокупности две или
больше независимых между собой выборок, используя для каждой из
них одинаковый способ отбора.
Слайд 46
Такие выборки называют взаимопроникаемыми выборками. Преимущество таких выборок
заключается в том, что они позволяют получить отдельные и
независимые оценки тех или других признаков совокупности.
Слайд 47
Районированная (типическая) выборка
Районированной выборкой называют такой способ отбора,
который осуществляется на основе распределения количества отобранных единиц и
между районами (группами), которые присутствуют в генеральной совокупности.
Слайд 48
В качестве районов, в зависимости от характера генеральной
совокупности, могут быть приняты территориальные области, отрасли производства, отдельные
предприятия, социальные группы населения и т. п.
Если генеральная совокупность разделяется на т частей, групп, районов, то есть N=N1+N2+...+Ni+...+Nm, то и выборочная совокупность должна формироваться из т частей так, чтобы п =п1 + п2+... + пi+ ... +пт.
Слайд 49
Способы распределения между районами
а) пропорциональный, когда количество отобранных
в выборку единиц является пропорциональным к удельному весу района
в генеральной совокупности, то есть количество наблюдений в каждом районе рассчитывается по формуле:
Слайд 50
б) непропорциональным, если из каждого района отбирают одинаковое
количество единиц:
где k— количество выделенных районов;
Слайд 51
в) оптимальным, которое учитывает и численность района Ni,и
среднее квадратическое отклонение признака в районе yi; тогда численность
каждого района выборки ni рассчитывается по формуле:
Слайд 52
На практике в большинстве случаев применяют первый и
третий способы распределения между районами. Но использование оптимального размещения
осложняется тем, что мы не всегда имеем данные о величинах уi в генеральной совокупности. Поэтому в таких случаях используется наиболее часто применяемое пропорциональное распределение между районами.
Слайд 53
Формулы расчета средней квадратической ошибки выборки при бесповторном
отборе внутри районов для пропорционального способа распределения между районами
а) для средней
Слайд 54
где — средняя из дисперсий
районов выборки
б) для доли
где
- средняя из частей районов
Слайд 55
Необходимая численность выборки при бесповторном отборе внутри районов
а)для средней
б) для доли
Слайд 56
Разновидностью районированной выборки является типическая выборка. При таком
отборе районы генеральной совокупности выделяются по признаку, который изучается.
Так, например, для определения среднего возраста студентов можно разделить их на группы, которые имеют или не имеют производственного стажа. Таким образом получаем «тип» с точки зрения принятого признака группы и увеличиваем точность выборки.
Слайд 57
Серийная выборка
При серийной выборке отбору подлежат отдельные серии
(группы, гнезда) единиц генеральной совокупности.
На практике часто встречается
отбор с равными сериями. В отобранных сериях методом случайного бесповторного или механического отбора проводят сплошное наблюдение всех единиц, которые в них вошли.
Слайд 58
Поскольку при серийной выборке каждая серия выступает как
самостоятельная единица наблюдения, то дисперсия внутри серий в случае
определения средней ошибки и численности выборки должна быть исключена и учитывается только межсерийная дисперсия .
Слайд 59
При равных сериях средняя квадратическая ошибка бесповторной выборки
и ее численность определяются по формулам:
где r - количество
отобранных серий; R — общее количество серий в генеральной совокупности.
Слайд 60
Межсерийная дисперсия рассчитывается:
а) для средней
б)
для доли
где
- среднее в сериях; - общая средняя для серий; wi – доли в сериях (группах); - средняя доля признака для всей выборочной совокупности.
Слайд 61
Чем меньше групповые средние и доли отличаются одна
от другой, то есть чем ближе одна от другой
серии за уровнем принятого признака, тем точнее серийная выборка.
Слайд 62
Ступенчатая выборка
Серийную выборку можно рассматривать как одноступенчатую выборку,
где в случайно отобранных сериях генеральной совокупности проводят сплошное
обследование всех единиц, которые в них включены.
Слайд 63
Но возможно сформировать выборочную совокупность в два этапа:
на первом этапе методом случайного бесповторного отбора формируют серии,
которые подлежат обследованию;
на втором этапе в каждой серии случайным бесповторным отбором формируется определенное количество единиц для последующего обследования.
Слайд 64
Средняя квадратическая ошибка выборки будет зависеть от ошибки
серийного отбора и ошибки индивидуального отбора:
где m - количество
отобранных единиц в каждой серии;
- средняя из внутрисерийных дисперсий.
Такая выборка называется двухступенчатой.
Слайд 65
Многоступенчатый отбор характеризуется тем, что на всех ступенях,
за исключением последней, осуществляется наблюдение только за последней ступенью.
Этот отбор отличается от многофазного отбора тем, что используется в механической выборке: при многоступенчатом отборе на разных ступенях используют единицы отбора разных порядков, а при многофазном отборе пользуются на каждой фазе одними и теми же единицами отбора.
Слайд 66
Малые выборки
Теорема Ляпунова доказывает, что ошибки выборки являются
случайными величинами и распределены по нормальному закону распределения.
В том
случае, когда выборка малая данное утверждение будет уже не справедливо, то есть закон распределения отклонений выборочных характеристик от генеральных будет отличаться от нормального
Слайд 67
Английский ученый В. Госсет (Стьюдент) (1908 ). Определил
характеристики этого закона, который и был назван его именем
t-распределение Стьюдента, которое подобно нормальному закону.
Слайд 68
Отклонение выборочной средней от генеральной средней
Стьюдент выразил в виде отношения Стьюдента.
Фактически это коэффициент доверия между предельной и средней квадратической ошибкой малой выборки:
Δмв=tμмв
Слайд 69
Значение t может быть найдено по математическим таблицам
распределения Стьюдента в зависимости от уровня значимости
а =1
- Р
где Р — уровень вероятности и числа степеней свободы
k=n-1
п — объем малой выборки.
Слайд 70
Средняя квадратическая ошибка для количеств признака малой выборки
определяется по формуле:
где — дисперсия
малой выборки
Слайд 71
Вероятность того, что ошибка выборки будет не больше
заданного значения
представляет собой функцию S(t,n), приведенную в
таблицах Стьюдента в литературе по математической статистике:
Слайд 72
Из таблиц Стьюдента следует, что при увеличении объема
выборки распределение Стьюдента приближается к нормальному закону и при
п = 20 он мало отличается от нормального распределения.
Следует учесть, что распределение Стьюдента используется только в оценке ошибок выборки, взятой из генеральной совокупности с нормальным законом распределения признака.