Слайд 2
Я подготовил тезисы своего доклада, а вы подберите
немного статистики, чтобы их обосновать.
Слайд 3
Математическая статистика
Математическая статистика - область науки, изучающая случайные
явления, разрабатывающая математические методы систематизации, обработки и использования статистических
данных для научных и практических выводов.
Составными частями математической статистики являются:
(1) описание данных,
(2) статистическое оценивание
(3) проверка статистических гипотез.
Слайд 4
Замечания
Статистические методы основаны на логике.
Следует опасаться
применения статистических методов без их глубокого понимания и без
контекста, который может оказаться крайне важным.
Только после постижения внутренней логики каждого из методов можно с уверенностью говорить о способности исследователя без труда применять статистику для изучения явлений.
Слайд 5
Статистические данные
Числовые → Числовая статистика
Числовые статистические данные
– это числа, вектора, функции. Их можно складывать, умножать
на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы.
Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы
Слайд 6
Статистические данные
Нечисловые → Нечисловая статистика
Нечисловые статистические данные –
это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества,
нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств).
Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах.
Слайд 7
Переменные
Данные (data) представляют собой результаты наблюдений, испытаний,
накапливаемые с целью последующего изучения и анализа.
Переменная, признак (variable)
- это некоторая общая для всех изучаемых объектов характеристика или свойство, конкретные проявления которого могут меняться от объекта к объекту.
Проявления признака называют значениями, показателями, альтернативами, градациями.
Распределение переменной (distribution of the variable) - совокупность различных значений, которые переменная принимает для различных изучаемых объектов.
Слайд 8
Определения
Генеральная совокупность (population) - вся интересующая исследователя
совокупность изучаемых объектов.
Выборка, выборочная совокупность (sample) - некоторая,
обычно небольшая, часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о свойствах генеральной совокупности.
Параметры (parameters) - числовые характеристики генеральной совокупности.
Статистики (statistics) - числовые характеристики выборки.
Гипотеза (hypothesis) - предположение относительно параметров генеральной совокупности, которое подлежит проверке на основе анализа выборки.
Слайд 9
Роль статистики в проведении исследований
Слайд 10
Измерение явлений
Измерение (measurement) означает присвоение чисел характеристикам изучаемых
объектов, явлений согласно некоторому правилу.
Шкала (scale) есть правило или
алгоритм, в соответствии с которым изучаемым объектам, явлениям присваиваются числа.
Слайд 11
Типы данных
Дискретные данные (discrete data) представляют собой отдельные
значения признака, общее число которых конечно либо если бесконечно,
то является счетным, т.е. может быть подсчитано натуральными числами от одного до бесконечности.
Непрерывные данные (continuous data) могут принимать любое значение в некотором интервале.
Слайд 12
Критерии измерений
Надежность измерения (reliability) означает возможность получить согласующиеся
результаты при повторных
Достоверность измерения (validity) означает соответствие между результатами
измерения и его целями, между выбранной шкалой и исследуемыми переменными. измерениях характеристик объекта.
Завершенность измерения (exhaustive) означает, что в результате измерения мы должны получить какой-либо результат.
Единственность измерения (mutually exclusive) означает, что в результате измерения мы
получим только одно значение переменной.
Слайд 13
Измерительные шкалы (С. Стивенс)
номинативная, или номинальная, или шкала
наименований (в том числе дихотомическая)
порядковая, или ранговая, или ординальная
шкала
интервальная, или шкала равных интервалов
шкала равных отношений или реляционная шкала
Слайд 14
Стивенсовская типология измерительных шкал получила повсеместное распространение, однако,
по мнению Суходольского Г.В. к числу измерительных шкал относятся
только интервальные и реляционные шкалы.
Применение статистического метода определяется, прежде всего, шкалой в которой измерена переменная.
Слайд 16
Представление данных
Группировка
Табулирование
Ранжирование
Распределение частот
Интервальное распределения частот
Статистические
ряды
Графическое представление данных
Слайд 17
Меры центральной тенденции
Мода
Медиана
Среднее арифметическое значение
Среднее геометрическое
Среднее гармоническое
Mo
Md
Слайд 18
Меры изменчивости (вариативности)
Размах
Квартильный размах
Дисперсия
Стандартное отклонение
Коэффициент вариации
Асимметрия
Эксцесс
Слайд 20
Стандартизация шкал
Любое множество n данных со средним
и стандартным отклонением Sx можно преобразовать в другое
множество со средним 0 и стандартным отклонением 1 таким образом, что преобразованные значения будут непосредственно выражаться в отклонениях исходных значений от среднего, измеренных в единицах стандартного отклонения. Новые значения называют значениями z.
Множество данных можно расположить на любой шкале, то есть им можно приписать желаемые среднее (d) и стандартное отклонение (с), пользуясь выражением
Множество X
Среднее
Ст. откл. Sx
Множество Z
Среднее
Ст. откл. Sz=1
Множество Y
Среднее
Ст. откл. Sy
Слайд 21
Полигон распределения
Кривая распределения
Кумулятивный полигон.
Гистограмма результатов тестирования
43 абитуриентов
Слайд 23
Исследовательский анализ данных
Исследовательский анализ данных (Exploratory Data Analysis
- EDA) представляет собой применение статистических методов для представления,
упорядочения данных и понимания их важнейших характеристик.
Это комплексный анализ характеристик распределения
Измерение центральной тенденции
Измерение вариации.
Нахождение и анализ выбросов. Выделение границ для
выбросов, анализ экстремальных и умеренных выбросов.
Анализ формы распределения. Вычисление и анализ
коэффициентов асимметрии и куртозиса.
Слайд 24
Вероятность (классическое определение)
Вероятностью события А назовем отношение
числа благоприятных исходов к общему числу элементарных исходов (классическое
определение вероятности).
Вероятность достоверного события равна единице
Вероятность невозможного события равна нулю.
Вероятность любого события не может быть меньше нуля и больше единицы: 0 < p(A) < 1.
Слайд 25
Вероятность (статистической определение)
Вероятность события А - предельная
относительная частота появления события А при проведении серии испытаний,
при неограниченном увеличении их числа.
Слайд 27
Выборки
Зависимые (связные)
Независимые (несвязные)
Требования к формированию выборок:
Однородность
Репрезентативность
Повторность или
безповторность
Слайд 28
Определение объема выборки (для социологических, педагогических и психологических
исследований)
принято считать, что при n ≥ 60 выборка большая
или репрезентативная, но такое деление тоже весьма условно;
наибольший объем выборки необходим при разработке диагностической методики – от 200 до 1000-2500 человек;
если необходимо сравнивать две выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой;
Слайд 29
Определение объема выборки (для социологических, педагогических и психологических
исследований)
если изучается взаимосвязь между какими-либо свойствами, то объем выборки
должен быть не меньше 30-35 человек;
чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшать, увеличивая однородность выборки, например по полу, возрасту и т.д.. при этом, естественно, уменьшаются возможности генерализации выводов.
Слайд 30
Статистический метод определения объема безповторной выборки
где n –
объем выборки,
σ – стандартное отклонение,
N – объем генеральной совокупности,
α
– предельная ошибка репрезентативности, задается обычно в пределах от 0,01 до 0,10 с наиболее частым употреблением 0,05 (5%);
t – табулированная константа, табличные значения этой величины следующие: t=1,96, при α=0,05; t=2,58, при α=0,01.
Слайд 31
Исследование
Выборочное
Сплошное
Выборки
Целенаправленное (есть список ген.сов.)
Случайное (вероятностное)
Простая
Квотная
Систематизированная
Стратифицированные
Кластерная
С учетом групп (кластеров)
Без учета
групп (кластеров)
Типическая
Стихийная
Выборки
Выборки
Слайд 32
Алгоритм решения
Определить, какая модель кажется наиболее подходящей для
доказательства научных предположений
Ознакомиться с описанием метода, примерами и задачами
Рассмотреть
ограничения критерия и возможность сбора необходимых данных.
Определить объем выборки
Обеспечить доступ к выборке
Провести исследование, обработать полученные данные по заранее выбранному алгоритму
Если ограничения выполнить не удалось, обратиться к предыдущим шагам, когда данные уже получены.
Слайд 33
Схема применения статистических методов
Формулируются статистические гипотезы:
Но: гипотеза об
отсутствии различий (так называемая нулевая гипотеза)
Н1: гипотеза о значимости
различий (так называемая альтернативная гипотеза)
Для принятия решений о том, какую из гипотез следует принять, используют решающие правила – статистические критерии
То есть, на основании информации о результатах наблюдений вычисляется число, называемое эмпирическим значением критерия.
Это число сравнивается с известным (например, заданным таблично) эталонным числом, называемым критическим значением критерия.
Слайд 34
Критические значения
Находится по специальным таблицам – для каждого
метода свои таблица
Зависят или от объема выборки, или от
количества интервалов, или количества выборок
Зависят от уровня значимости
Уровни значимости - вероятность ошибки, заключающейся в отклонении (не принятии) нулевой гипотезы, когда она верна, то есть вероятность того, что различия сочтены существенными, а они на самом деле случайны.
Обычно различают (p) 0,05, 0,01 и 0,001.
Слайд 35
Правила принятия гипотез
Если полученное исследователем эмпирическое значение критерия
оказывается меньше или равно критическому, то принимается нулевая гипотеза.
В
противном случае, если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза.
В разных науках принято считать низшим разный уровень статистической значимости, например
в психологии – это 0,05
в экономике, физике – это 0,01
Слайд 38
Интерпретация ответов
rxy = 0,669. Гипотеза H0 отвергается и
принимается гипотеза H1 (при α≤0,01).
Достоверность составляет 99%.
rxy =
0,669. Гипотеза H0 отвергается и принимается гипотеза H1 (при α≤0,05).
Достоверность составляет 95%.
Слайд 39
Классификация задач
Выявление различий в уровне исследуемого признака
Оценка сдвига
значений исследуемого признака
Выявление различий в распределении признака.
Выявление степени
согласованности изменений
Анализ изменений признака под влиянием контролируемых условий
Методы многомерного анализа
Слайд 40
Пример методов
ϕ коэффициент корреляции Пирсона
τ - коэффициент корреляции
Кендалла
R – бисериальный коэффициент корреляции
η - корреляционное отношение Пирсона
rS
- коэффициент ранговой корреляции Спирмена
rxy - коэффициент линейной корреляции Пирсона
Множественная и частная корреляция
Линейная, криволинейная и множественная регрессия
Факторный и кластерный анализы
Пример методов для определения связи между переменными
Слайд 43
Линейная отрицательная связь
Криволинейная связь
Линейная
положительная связь
Случайная связь
Слайд 44
Степень (сила или теснота) корреляционной связи определяется по
величине коэффициента корреляции, обозначающегося часто как r.
-1 ≤
r ≤ +1.
Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции /r/.
Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными.