Слайд 2
С чего начинается исследование?
Научная проблема, или исследовательский вопрос.
Любой
вопрос (даже бредовый), касающийся некоторого
психического (социального, экономического…) явления.
Слайд 3
Этапы научного исследования
(самая простая из сотен тысяч разных
схем)
Теоретический анализ
Формулировка гипотез
Проблема!
Методы:
- что?..
- как?..
- где?..
- с кем?..
…мы будем
изучать?
Сбор данных Анализ данных
Оценка результатов
Публикация!..
Слайд 4
Научная проблема
Исследовательский вопрос = проблема исследования Является
ли проблема исследования научной проблемой?
Шансы на успех зависят от
того, как она поставлена:
используются ли научные понятия, опирается ли она на научную картину реальности?
соотносится ли она с существующими теориями, релевантна ли актуальному научному дискурсу? (однако Вы можете поставить новую научную проблему, преодолев инерцию научного сообщества)
актуальна ли она с точки зрения социума?
(готов ли кто-то дать на это денег?)
Слайд 5
Вопросы и типы исследования
«Количественные»
Есть ли связь…?
Есть ли различия
в…
в зависимости от …?
«Качественные»
Как…? ( описать процесс, ситуацию)
Зачем…?
(цели людей)
Иногда просто нет смысла использовать методы определённого типа, если проблема (вопрос) исследования не сформулирована «под них».
Некоторые варианты постановки вопросов сразу
предполагают определённый тип исследования
Слайд 6
По цели исследования бывают…
Поисковое (изучение неизученного процесса, поиск
закономерностей)
Подтверждающее (воспроизведение ранее полученного факта)
Критическое (спланированная проверка определённой модели,
положения теории)
Слайд 7
Выбор проблемы исследования
Слайд 9
Зачем нам теория?
Два варианта развития научного поиска:
Теория
Проблема Выбор феномена Исследование феномена Интерпретация
фактов
Феномен Проблема Исследование феномена Интерпретация фактов Теория
Слайд 10
Зачем нам нужен
теоретический обзор?
Убедиться в том, что
наше исследование актуально и мы не «изобретаем велосипед».
Рассмотреть различные
варианты постановки интересующей нас проблемы.
Рассмотреть различные подходы и методы изучения интересующей нас проблемы.
Обобщить существующие теоретические знания и накопленные эмпирические данные.
Слайд 11
Виды теоретических обзоров
Теоретический обзор как необходимая основа любого
эмпирического исследования:
из него вытекает, зачем Вы проводите своё исследование
и почему делаете это именно так;
Теоретический обзор как особый вид аналитической работы:
прояснение того, как ставится та или иная проблема в науке;
обобщение предыдущих исследований в форме «дайджеста» для читателей;
выявление связей, противоречий, «белых пятен» и несоответствий в имеющейся литературе;
наметить следующие шаги в решении проблемы
(Eisenberg, 2000).
Слайд 12
Характеристики хорошего обзора
Широта круга источников
Глубина анализа источников
Релевантность источников
Аккуратность
в интерпретациях
Критика существующих позиций
Качественное обобщение
Логичная структура (A->B->C)
Эффективность: качество/объём
Слайд 13
Варианты организации обзора
По логике теории: основные идеи теории
частные теории, модели…
По исторической логике:
Платон …
Вундт … Пупкин
От феноменов: есть А, есть Б сопоставление, проблема
«Как получится»: Nancy Eisenberg:
нет единого «правильного» способа структурировать обзор литературы.
Слайд 14
Этапы создания обзора
Определение проблемного поля
Постановка вопросов (целей)
Поиск и
определение круга источников
«Путешествие по ссылкам»
Структурирование
Анализ и обобщение
Слайд 15
Ресурсы для поиска литературы
Поисковые системы:
Google Scholar
Базы научных статей:
базы
издательств (hse.ru Электронные ресурсы библиотеки): APA, Elsevier, Wiley,
etc.
базы-«агрегаторы», такие как EBSCO
Индексы цитирования:
Мировых два: Scopus и ISI Web of Science
Российский индекс научного цитирования (РИНЦ): ELibrary.ru
Разнообразные источники:
Google Wikipedia, … … … … … библиотека!
Слайд 17
Как быстро сориентироваться в теме?
Электронные ресурсы библиотеки
Scopus
Вводим ключевые слова
Сортируем найденные статьи по убыванию кол-ва цитирований
Просматриваем
первые 10-20-… (в зависимости от наличия времени) статей; в первую очередь, читаем обзоры и мета-анализы
Слайд 18
Рекомендуемый алгоритм поиска
Ищем по ключевым словам нужные статьи
в Scopus / ISI Web of Science.
По кнопке HSE_FullText
переходим к статьям (если ссылка работает).
Либо проверяем, есть ли журнал в нашей подписке, через «A-to-Z сводный каталог» (если есть – там же выходим на нужную БД).
Ищем по ключевым словам в Google Scholar (более широкий охват + ссылки на бесплатные ресурсы).
Ищем в РИНЦ (elibrary.ru) и русскоязычных поисковых системах.
Слайд 19
Создание обзора
Даёт ли обзор исчерпывающую информацию о состоянии
проблемы в науке, учитывает ли разные основные имеющиеся подходы
и методы её решения?
Является ли обзор достаточным обоснованием исследования: вытекает ли из него, что нужно провести именно такое исследование и именно так?
Является ли текст обзора достаточно экономным (кратким), хорошо структурированным и читаемым?
Слайд 21
От вопроса к гипотезе
Гипотеза – это конкретное предположение
об изучаемой реальности:
сформулированное на языке научных понятий (а не
житейских терминов), предполагающих тот или иной вариант понимания изучаемой реальности;
истинность которого между проверить теоретически, либо соответствие которого реальности можно проверить с помощью эмпирической процедуры.
Хорошую гипотезу можно проверить.
Плохую гипотезу проверить невозможно.
(Хорошая гипотеза – когда неочевидно, подтвердится ли она…)
Слайд 22
Определения понятий
Чтобы сформулировать гипотезы, нам нужно дать определения
понятий, опираясь на существующие теории или описания феноменов.
Операциональное определение
понятия (описывающее то, с чем мы можем/будем работать в исследовании) может не совпадать с теоретическим определением (описывающим понятие в целом):
например, агрессивность можно операционально определить как наличие установок, выражающих враждебное отношение к другим.
Слайд 23
От понятия к определению
Содержание понятия
(в реальности)
Операциональное определение
(в исследовании;
зависит от задачи)
Слайд 24
Гипотезы
Теоретические гипотезы (противоречие в теории(ях) проверка теоретически)
Эмпирические
гипотезы (проверка опытом):
о наличии явления («А был ли мальчик?»);
о
связях между явлениями;
о причинно-следственной связи между явлениями.
Статистические гипотезы (в терминах измеряемых переменных, проверка статистическая):
Нулевая (основная) гипотеза (H0): «Мальчика не было».
Альтернативная гипотеза (H1): нулевая гипотеза неверна.
Слайд 25
Нужны ли нам гипотезы?
Они обязательны, если исследование подтверждающее
или критическое.
В поисковом исследовании гипотезы по сути могут отсутствовать
(но по форме, как правило, должны быть формулируем исследовательский вопрос в виде гипотезы).
(Иногда руководители рекомендуют формулировать гипотезу после исследования… Хорошо ли это?)
Слайд 26
Предмет и объект
Предмет = что нас реально интересует?
Объект
= с чем мы работаем в исследовании, чтобы это
узнать?
Как правило, П и О соотносятся как общее и частное:
«Объект – люди…» –
это слишком общо.
Берите одну из областей
феноменов психического.
В западных (англоязычных) исследованиях
П и О, как правило, никто не выделяет.
Слайд 27
Гипотезы
Ясны ли гипотезы?
Проверяемы ли они?
На какой теоретический контекст
они опираются (и почему именно на этот)?
Какие возможности операционализации
данных гипотез существуют и почему выбрана именно эта?
Слайд 29
Вопросы о методе
Что и где мы будем изучать?
Какие
феномены? (сознания, поведения, …)
Какие процедуры измерения? ( тип данных)
В
каких условиях?
На какой выборке?
Как мы это будем изучать?
Каков общий план исследования?
Какие методы анализа данных?
Что конкретно для этого будем делать?
Процедура исследования
Слайд 31
Виды переменных – по отношению к гипотезам
Исследуемая
реальность
Независимые
переменные
воздействуем
Зависимые
переменные
наблюдаем,
измеряем
Побочные
переменные
контролируем (если можем)
или хотя
бы учитываем их влияние
???
Случайная ошибка, систематическая ошибка, cмешение
Слайд 32
Типы исследований
Эксперимент: есть воздействие, есть контроль побочных переменных
можно делать выводы о причинно-следственных связях.
Квазиэксперимент: есть воздействие,
но нет полного контроля побочных переменных (в первую очередь, рандомизации испытуемых).
Неэкспериментальное эмпирическое исследование: нет ни воздействия, ни контроля побочных переменных (коррел. исследование, лонгитюд и т.д.) причинно-следственный характер связей можно лишь предполагать.
Слайд 33
Виды экспериментальных планов
Доэкспериментальные планы
(для 1 независимой переменной)
Экспериментальные
планы:
кросс-индивидуальные планы, когда разные уровни НП предъявляются разным группам
испытуемых:
для 1 НП;
для 2 и более НП: факторные планы NxM;
интраиндивидуальные планы, когда разные уровни НП предъявляются одним и тем же испытуемым последовательно:
для 1 испытуемого.
Слайд 34
Экспериментальные планы для одной независимой переменной (Д. Кэмпбелл)
Взаимодействие
тестирования и воздействия
Обозначения (по Д. Кэмпбеллу):
R – рандомизация
O –
измерение (observation) ЗП
X – воздействие (наличие) НП
Слайд 35
Кросс- и интра-
Кросс-индивидуальные планы включают несколько групп испытуемых
(например, экспериментальная и контрольная).
Группы должны быть эквивалентными. Для их
формирования из выборки могут использоваться разные стратегии:
рандомизация (бросаем монету, в какую группу);
попарный отбор (сортируем людей по важному свойству и последовательно делим: 1-й – ЭГ, 2-й – КГ, 3-й – ЭГ и т.д.)
стратометрический отбор (подбираем испытуемых в группы так, чтобы уравнять их по полу, возрасту и т.д.)
Интраиндивидуальные планы включают одну группу испытуемых. Могут быть сложные смешанные планы.
Слайд 36
Восемь угроз внутренней валидности по Д. Кэмпбеллу
Эффект истории
(фона): события между воздействием и измерением
Эффект созревания (естественного развития):
испытуемые со временем развиваются
Эффект тестирования (первое измерение влияет на результаты последующих)
Погрешность измерения зависимой переменной
Регрессия к среднему: группы, отобранные как контрастные по какому-то показателю, при повторном измерении покажут результат близкий к среднему
Неэквивалентность групп: в силу индивидуальных различий группы испытуемых изначально различаются
Эффект отсева или вымирания: со временем часть испытуемых выбывает из исследования
Взаимодействие перечисленных факторов
Слайд 37
Четыре угрозы внешней валидности (репрезентативности) по Д. Кэмпбеллу
Влияние
тестирования: результаты эксперимента будут применимы лишь к людям, которые
были протестированы
Взаимодействие отбора и экспериментального воздействия: результаты применимы лишь к людям с определёнными характеристиками
Условия организации эксперимента определяют реакцию испытуемых на эксперимент: результаты применимы лишь к людям в определённых условиях
Взаимная интерференция (взаимовлияние) экспериментальных воздействий, если их несколько: результаты будут применимы лишь к людям, на которых воздействовали именно так (в таком порядке…)
Слайд 38
Квазиэксперимент
Не полностью реализован экспериментальный контроль: исследователь не полностью
контролирует, когда и/или кому и/или в каком порядке предъявляются
воздействия.
Оправдан в ситуациях, когда применение более совершенного (экспериментального) плана невозможно.
Слайд 39
Корреляционный план исследования
Задача – поиск взаимосвязей (и проверка
статистических гипотез о взаимосвязях) между переменными (двумя и более).
Нет
воздействия нет «независимых» и «зависимых» переменных, но эти слова могут употребляться для обозначения логики анализа (зависимость чего от чего мы предполагаем).
Нет возможности проверять гипотезы о причинно-следственном характере наблюдаемых взаимосвязей говорим не о «влиянии», а только о «взаимосвязи»!
Слайд 40
Планы корреляционных исследований
Межгрупповые:
сравнение выраженности признака(ов) или их взаимосвязей
в двух (и более) группах;
Внутригрупповые
(repeated measures):
план «одна группа
в разных условиях» или в разные моменты времени.
Слайд 41
Анализ динамических процессов в рамках корреляционного плана
Метод [поперечных]
срезов: замер в один и тот же момент времени
у разных когорт (возрастных групп, классов и пр.). Основная проблема: неэквивалентность групп (когортные различия).
+
Метод последовательных срезов (лонгитюд): одна и та же группа, замеры в разные моменты времени. Основная проблема: эффект тести-рования и проблемы с внешней валидностью.
=
Метод поперечно-последовательных срезов: несколько разных когорт отслеживается в разные моменты времени.
Слайд 42
Метод поперечно-последовательных срезов
Соединение поперечной и последовательной стратегий позволяет
исследователям выявлять как различия, связанные с возрастом, так и
когортные различия.
Цифры на пересечении года замера и года рождения обозначают возраст детей.
(из Parke & Clarke-Stewart, 2011)
Слайд 43
Выбор плана
Выделены ли в гипотезах независимые и зависимые
переменные? Говорят ли гипотезы о причинно-следственной связи явлений?
Возможен ли
истинный эксперимент и реализуем ли он на практике, с учётом ограниченных ресурсов?
Какие угрозы внешней и внутренней валидности выводов связаны с выбранным вами планом? Есть ли возможности их контролировать?
Какого рода исследования «ценятся» научным сообществом в данной области знаний?
Слайд 45
Измерение
И. – процедура приписывания психологическим объектам чисел таким
образом, чтобы отношения между числами соответствовали отношениям между психологическими
объектами.
Слайд 46
Специфика психологических измерений
Не всякая операция, применимая к числам,
имеет смысл по отношению к исходным психологическим объектам
нужны некоторые ограничения.
Слайд 47
Виды шкал
номинативная
(=)
порядковая
(=, >)
интервальная
(=, , 1)
отношений
(=, , 1, 0)
Слайд 48
Особенности психологических измерений
Измеряем ненаблюдаемые объекты озабочены валидностью
наших измерений: то ли мы меряем?
инструмент
физика:
инструмент
психолога:
В отличие от физических
измерений, в психологии:
субъективные шкалы оценки ненадежны;
переменные сложны, их трудно операционализировать.
нужно иметь много линеек = пунктов в шкале
как понять, что вместе они вообще что-то меряют?
Слайд 49
Надёжность измерения
Надёжность измерения – это доля дисперсии, связанной
с измеряемым свойством, в дисперсии полученных значений (баллов по
тесту).
Если измерение ненадёжно, значит, шкала теста или опросника не позволяет измерять точно.
Классическая тестовая теория
альфа Кронбаха как показатель надёжности (недооценивает надёжность).
Слайд 50
Связь надёжности теста с его стандартной ошибкой измерения
Слайд 51
Некоторые проблемы классической тестовой теории (CTT)
CTT исходит из
того, что ошибка не связана с тестовым баллом. Но
на самом деле точность измерения с использованием полученной с помощью CTT шкалы неравномерна: она максимальна для средних баллов и снижается по мере удаления от них (т.е., связана с тестовым баллом).
На основе CTT мы просто складываем баллы по пунктам теста, но на самом деле у разных пунктов разная дисперсия ошибки: умножая их перед сложнением на некоторый коэффициент качества, можно повысить общую надежность шкалы.
CTT (и альфа коэффициент) исходит из того, что вся общая дисперсия пунктов – это true score. Но на самом деле не вся общая дисперсия пунктов связана с измеряемым свойством (например: человек на все вопросы, независимо от их содержания, отвечает «да») => необходимо различать разные виды ошибки.
Слайд 52
Item Response Theory: современная альтернатива CTT
«Неклассическая тестовая теория»
(IRT) опирается на более сложные регрессионные модели и преодолевает
ряд ограничений CTT.
Моделируются различные параметры пункта, определяющие ответ респондента на пункт (сложность, дискриминативность, «прозрачность» к угадыванию).
Слайд 53
Достоинства IRT по сравнению с CTT
Можно отбирать в
шкалу пункты, дающие высокую точность измерения в различных диапазонах
измеряемого конструкта (CTT: точность максимальна возле среднего и сильно снижается по мере отдаления от него).
Можно подбирать для каждого респондента пункты, дающие наиболее высокую точность в его диапазоне конструкта (например, для его уровня способностей), не утрачивая сопоставимости с баллами других респондентов (CTT: для сопоставления баллов каждый должен выполнить один и тот же набор заданий) => можно создавать компьютеризованные адаптивные тесты.
=> IRT даёт повышение точности и эффективности измерения (уменьшение необходимого количества заданий). Но при этом у IRT более высокие требования к объёму выборки.
Слайд 54
Методы оценки надёжности
Одномоментная надежность:
split-half reliability: делим тест
пополам и считаем корреляцию между половинами теста = устаревший
метод;
классическая тестовая теория => внутренняя согласованность теста, альфа-коэффициент Кронбаха;
более современные коэффициенты на основе данных Item Response Theory, конфирматорного факторного анализа (ро Райкова).
Ретестовая надежность:
корреляция между результатами 2 замеров с помощью теста (с интервалом от 2 недель до года): метод пригоден, если измеряемое свойство не меняется (бесполезен, например, для тестов эмоций).
Слайд 55
Разновидности ошибки
Случайная ошибка (random error): доля балла, не
связанная с измеряемым свойством, различная для каждого пункта теста.
Систематическая
ошибка (bias): доля балла, не связанная с измеряемым свойством, но не случайная (действующая сходным образом на разные пункты).
Случайная ошибка угрожает надёжности измерения, систематическая ошибка – скорее, его валидности:
надёжность измерения: насколько точно мы что-то померили?
валидность измерения: насколько мы померили то, что нам нужно – или что-то другое?
Слайд 56
Виды валидности теста – 1
Конструктная в.: тот ли
конструкт, который был теоретически заявлен и описан, измеряет наш
тест?
можно рассматривать этот вид валидности как наиболее общий, а остальные виды валидности – как его подвиды.
Операциональная в.: измеряем ли мы конструкт тем способом, который позволяет его измерить?
Конвергентная и дискриминантная (дивергентная) в.: как результаты нашего метода измерения соотносятся с другими данными измерений того же конструкта и других конструктов:
для оценки этих видов в. Д. Кэмпбелл и Д. Фиске (1959) предложили тип исследования «multitrait-multimethod»: несколько конструктов x несколько методов измерения = матрица Multi-Trait-Multi-Method (MTMM).
Слайд 57
Виды валидности теста – 2
Структурная в.: соответствует ли
структура связей между пунктами теста теоретически ожидаемой?
Критериальная в.: как
результаты теста соотносятся с объективными (или поведенческими) данными?
Прогностическая (предиктивная) в.: предсказывает ли наш показатель будущие объективные (или поведенческие) данные?
Иногда говорят о «дискриминативной» валидности: насколько хорошо тест различает представителей разных подгрупп. В нашей классификации это критериальная валидность.
Очевидная в. (face validity): очевидно ли из пунктов теста, что они измеряют?
Экспертная в.: согласны ли эксперты в данной области с тем, что эти пункты позволяют измерить конструкт?
Слайд 58
Валидность теста?
Л. Кронбах: валидность – свойство не самого
теста, а решений, принимаемых на его основе в определённом
контексте (ситуации, задач и т.д.)
Как правило, под «коэффициентом валидности теста» имеют в виду его критериальную валидность (корреляцию с каким-то принципиально важным критерием):
например, корреляция балла по тесту при отборе персонала с последующей успешностью человека в качестве сотрудника.
Даже тест с низкой валидностью может быть практически полезным:
пример: т.н. таблицы Расселла-Тэйлора для принятия решений при отборе персонала (1939) .
В ячейках – доля отобранных кандидатов, которые окажутся успешными,
при условии, что по умолчанию успешны 50% кандидатов.
Слайд 59
Что угрожает валидности решений?
[Случайная ошибка ] низкая надёжность
теста (А.Г. Шмелёв: ненадёжный тест не может быть валидным)
[Систематическая
ошибка (смешение измеряемого эффекта с другими) ] низкая валидность показателя
Ошибки при
применении (выборе) теста (не то!);
предъявлении теста (не так!);
интерпретации баллов по тесту (не об этом!).
Слайд 60
Чтобы снизить случайную ошибку
(Guilford, 1959, Клайн, 1994):
Вопросы (утверждения)
должны быть понятными респондентам, не использовать сложной лексики;
Утверждения должны
быть недвусмысленными (содержать только одну мысль, а не две связанные);
Утверждения должны быть одинаково применимы ко всем респондентам, независимо от гендера, соц.статуса и пр.;
Вопросы должны быть конкретными (связанными с конкретным примером, а не заданными в общем);
Вопросы не должны провоцировать у подавляющего большинства респондентов однозначный ответ (напр., «да»);
Из вопросов (утверждений) не должно быть ясно, что они измеряют [ЕО: в наши дни от этой идеи отказались];
Вопросы не стоит формулировать в относительных (субъективных) терминах (часто…редко, нравится…не нравится);
+ Стоит обратить внимание на порядок и количество вопросов для снижения позиционных эффектов и усталости респондентов.
Слайд 61
Виды систематической ошибки (bias) в пунктах субъективной оценки
Ошибка
центрации (mid-point responding)
Ошибка сгущения (extreme responding, ER)
Склонность к согласию
(acquiescence, AR)
Случайные ответы (random responding, pattern responding, RR)
Социальная желательность (social desirability, SD):
сознательное или неосознанное искажение ответов;
мотивация: быть хорошим (аффилиация) или быть крутым (достижение).
Слайд 62
Борьба с bias в опросниках, (методиках самоотчета):
Балансирование шкалы
(прямые и обратные пункты – борьба с AR)
Оптимальный подбор
числа категорий для ответа (снижение ER)
Пункты с очевидными ответами, напр. «Я умею читать» (выявление RR)
Меры выявления, снижения и статистического контроля эффектов социальной желательности
Слайд 63
Межгрупповая ошибка (bias)
Если в исследовании используется несколько групп,
причиной межгрупповой ошибки может быть:
неэквивалентность конструкта (в одной из
культур такого понятия нет или оно связано с другими проявлениями);
неэквивалентность выборок (по демографии…);
неэквивалентность пунктов (отдельные пункты понимаются респондентами конкретной группы иначе).
При использовании переводных инструментов в нескольких культурах необходимо оценить уровень их эквивалентности и вытекающие возможности и ограничения сопоставления данных.
Слайд 64
Установление эквивалентности инструментов
Уровни эквивалентности:
эквивалентность конструкта (структурная эквивалентность): одна
и та же картина связей пунктов с латентными переменными
(факторами) в двух культурах можно содержательно сопоставлять результаты;
эквивалентность единицы измерения (эквивалентность шкалы): добавляется требование равенства нагрузок пунктов на факторы в двух культурах можно сопоставлять корреляции шкалы с другими и стандартизованные баллы;
эквивалентность сырых баллов (полная эквивалентность): добавляется требование равенства остатков (и иногда дисперсий ошибки) пунктов в разных культурах можно сопоставлять сырые баллы.
Методология: конфирматорный факторный анализ, IRT.
Слайд 65
Переменные
Являются ли измерения надёжными и валидными (в данных
условиях)?
Если используется несколько групп, являются ли измерительные инструменты эквивалентными?
Слайд 67
Создание выборки
Определитесь, насколько важна репрезентативность.
Выберите оптимальную стратегию подбора:
полностью
случайный отбор (по списку);
стратифицированный отбор;
кластерный отбор;
смешанные (двухуровневые стратегии);
слабые: «снежный
ком» / удобная выборка / добровольцы.
Оцените потребный объем выборки с учётом:
количества переменных, характера гипотез и планируемых методов анализа данных;
размера интересующих вас эффектов и статистической мощности анализа.
Рассмотрите возможность проведения исследования онлайн.
Слайд 68
Статистическая мощность анализа
Уровень значимости: вероятность того, что мы
приняли гипотезу H1, которая на самом деле неверна.
Статистическая мощность
анализа (1-β): вероятность того, что мы на выборке примем гипотезу H1, если на самом деле она верна (= шанс обнаружить эффект, если он на самом деле есть).
Слайд 69
Уровень значимости
Достоверность взаимосвязи зависит:
от её силы (чем больше
r по модулю, тем больше шансов, что он будет
значим);
от объёма выборки (чем больше выборка, тем больше шансов, что r будет значим).
на очень маленьких выборках даже для сильных взаимосвязей значимость может не достичь приемлемого уровня;
на очень больших выборках даже очень слабые (и потому практически бессмысленные) взаимосвязи могут оказаться значимыми.
Слайд 70
Статистическая мощность анализа
Зависит от…
объёма выборки: чем он больше,
тем она выше;
размера эффекта: чем он сильнее, тем она
выше;
от выбранного критерия принятия решений о значимости: чем строже требование к уровню значимости, тем она ниже;
от используемого статистического метода (для разных способов проверки одной и той же гипотезы она м.б. разной).
Является критерием для определения объёма выборки с учётом размера ожидаемого эффекта.
Важно! Только высокая мощность (0,95 и выше) даёт нам возможность делать достоверный вывод о том, что искомый эффект отсутствует (верна H0).
При недостаточной статистической мощности подобный вывод является необоснованным (правильный вывод: мы не обнаружили эффект, но не можем сказать, есть он или нет).
Слайд 71
Зависимость статистической мощности от размера выборки
Слайд 72
Зависимость статистической мощности от силы взаимосвязи
Слайд 74
Интернет в России
Данные ФОМ, весна 2013
Слайд 75
Проблема репрезентативности
Выборки из Интернет имеют ограниченную репрезентативность по
отношению к некоторым социальным группам, в первую очередь, людям:
старших
возрастов;
с невысоким уровнем образования;
с низким социально-экономическим статусом.
Но для многих исследовательских задач это не является проблемой. Интернет-выборки принимаются в ведущих мировых журналах.
Борьба с проблемой репрезентативности:
балансировка выборки путём взвешивания наблюдений;
проведение раздельного анализа на разных подвыборках (например, младшей и старшей сравнить результаты).
Слайд 76
Выборка
Достаточен ли объём выборки?
Каков ожидаемый размер эффекта, какой
будет статистическая мощность?
Достаточно ли выборка репрезентативна относительно группы, на
которую обобщаются результаты?
Позволяет ли состав выборки (подгруппы) проверять нужные гипотезы планируемыми методами?
Слайд 78
Шаги выбора метода
Определение набора исходных переменных и их
места в анализе (есть ли независимые и зависимые).
Определение шкалы,
по которой они измерены и характера распределения (допустимы ли параметрические методы).
Выбор оптимального метода из допустимых, с учётом объёма выборки.
Слайд 79
Два вида методов
Количественные:
выявление общих закономерностей и статистическая оценка
достоверности обобщений;
познание частного случая на основе общих закономерностей.
Качественные:
описание и
анализ частного случая;
познание общих закономерностей на основе частного случая.
Слайд 80
Смешанная методология: зачем?
(Greene, Caracelli, Graham)
Триангуляция: соответствие, подтверждение результатов
одних методов другими.
Дополнение: расширение, прояснение, иллюстрация результатов одних методов
другими.
Развитие: использование результатов одних методов для принятия решений о развитии дальнейших исследований другими методами (напр., решений о выборке, операционализации).
Инициация: поиск парадоксов или противоречий, новых точек зрения благодаря пониманию результатов одних методов исходя из других.
Экспансия: большая широта исследования благодаря использованию разных методов для решения разных отдельных вопросов.
Слайд 81
Способы объединения качественных и количественных данных (Creswell)
Слайд 82
Примеры качественных методов
Дескриптивный феноменологический анализ
Интерпретативный феноменологический анализ
«Тематический анализ»,
качественный контент-анализ
Конверсационный анализ (conversation analysis)
Дискурс-анализ (discourse analysis)
Нарративный анализ и
нарративное интервью
Фокус-группы (focus groups)
Обоснованная теория (grounded theory)
Исследование действием (action research)
Слайд 83
Процедуры повышения валидности качественных данных (Yardley)
Триангуляция: сопоставление данных,
полученных разными методами или от разных источников.
Экспертное согласие: сравнение
данных (картин реальности), полученных разными исследователями (экспертами).
Обращение к респондентам: респонденты выступают в качестве экспертов, которые оценивают валидность полученной картины реальности.
Анализ выпадающих случаев: выявление наблюдений (респондентов), не согласующихся с общей картиной.
«Бумажный след» (paper trail): документированы все этапы анализа можно проследить его ход.
Рефлексия собственных ценностей, ожиданий, представлений исследователя об изучаемой реальности.
Слайд 84
Виды количественных методов
Описательные статистики
Методы проверки гипотез:
гипотезы о соответствии
теоретическому распред-ю;
гипотезы о различиях эмпирических распределений критерии сравнения
выборок;
гипотезы о связях переменных корреляционный анализ, регрессионный анализ, …
Методы поиска взаимосвязей:
на наблюдаемых переменных: путевой анализ, многомерное шкалирование, эксплораторный факторный анализ, кластерный анализ, …;
моделирование латентных переменных: структурное моделирование, IRT, анализ латентных классов, …
Слайд 85
Проблемы статистических методов
Статистические методы исходят из того, что
наша выборка является случайной. Если она не такова, статистические
методы могут вводить нас в заблуждение.
Содержательная валидность выводов всех корреляционных методов зиждется на отсутствии неизмеренной третьей переменной, определяющей наши связи.
Возможность артефактов.
Слайд 86
Проблема множественных сравнений
Уровень значимости = 0,05: шанс того,
что такая корреляция получена случайно, составляет 1 из 20.
Если
у вас в матрице 20 корреляций, значимых на уровне 0,05, то в среднем одна из них окажется случайной.
Чем больше статистических гипотез вы проверяете, тем более жёсткий критерий принятия решения (уровень значимости 0,01 или даже 0,001) имеет смысл брать:
существуют поправки для множественных сравнений, например, поправка Holme-Bonferroni;
при простом выборе более жёсткого критерия снижается статистическая мощность анализа.
Слайд 87
Другие возможные артефакты
Корреляция двух переменных может объясняться влиянием
третьей переменной (пример: у детей размер ноги и IQ
связаны друг с другом, а реальная причина – связь обеих переменных с возрастом) расчёт частной корреляции.
Объединение двух выборок с различающимися средними по обеим переменным может приводить к возникновению ложных корреляций на объединённой выборке проверять наличие различий в средних и в характере и степени взаимосвязи перед объединением.
Наличие выбросов (наблюдений, существенно отклоняющихся от общих закономерностей) в данных на небольших выборках может приводить к появлению ложных корреляций или к снижению значений коэффициента корреляции проверка на нормальность, анализ графика разброса.
Низкая надёжность наблюдаемых переменных приводит к снижению коэффициента корреляции коррекция аттенюации.
Слайд 88
Источники артефактов
В исследовании не измерены (или не включены
в модель) переменные, являющиеся общими причинами моделируемых переменных (
«spurious correlations»).
Низкая надёжность измерений (Loehlin, 1998) – пример с частной корреляцией:
Слайд 89
Источники артефактов: N выборки
На малой выборке может не
хватить статист. мощности для отвержения плохой модели.
На малой выборке
оценки параметров неточные, значимость параметров низкая.
Стоит учитывать доверительные интервалы для статистик.
Слайд 90
Артефакт объединения двух выборок (Наследов, 2004)
В каждой из
выборок по отдельности корреляция отсутствует.
В объединённой выборке она наблюдается.
Слайд 91
Многоуровневый анализ
Кросс-культурное исследование пример многоуровневых данных, когда
в рамках общей выборки есть группы наблюдений (индивидов), свойства
которых связаны друг с другом.
Обычные статистические методы исходят из того, что наблюдения (= чаще всего индивиды) попарно независимы, и применение этих методов к подобным выборкам будет приводить к артефактам.
В таких случаях необходим многоуровневый анализ.
Слайд 92
Виды пропущенных данных
MCAR (Missing Completely At Random): пропущенность
ни от чего не зависит
(на практике это бывает
редко).
MAR (Missing At Random): пропущенность зависит от значений других измеренных переменных (x-variables).
NMAR (Not Missing At Random): пропущенность зависит от значений неизмеренных переменных, значения которых мы пытаемся оценить (y-variables).
Слайд 93
Примеры:
MCAR – некоторые люди случайно отвлеклись при заполнении
теста или не пришли на один из замеров;
MAR –
тест не заполнили некоторые люди с низкой Conscientiousness, которую мы померили, или на пост-тест не пришли люди с высокими показателями претеста;
NMAR – на пост-тест не пришли люди, которым не помог тренинг, эффективность которого нас интересует.
Слайд 94
Работа с пропущенными данными: 1. Выявление
Подсчитать долю пропущенных
данных: чем она больше, тем важнее с ними правильно
обойтись при анализе.
Проверка допущения MCAR:
Little’s test в SPSS (значим => не MCAR).
Проверка MAR:
1) создаём для каждой переменной dummy variable, обозначающую пропущенность (напр., 1=значение пропущено, 0=значение есть);
2) смотрим, есть ли значимые корреляции между переменными пропущенности (если да, то какова их факторная структура);
3) смотрим, коррелирует ли пропущенность со значениями измеренных переменных (если да, то имеет место как минимум MAR, или есть какая-то 3-я переменная, которая может определять это всё – надо это теоретически осмыслить).
Слайд 95
Работа с пропущенными данными: 2. Коррекция
Слабые методы, пригодные
при условии MCAR и/или небольшом количестве пропущенных значений:
casewise/listwise deletion
теряется много данных;
pairwise matrix хорош только если пропущенных очень мало;
mean imputation: замена пропущенных значений средними уменьшает дисперсию, крайне не рекомендуется;
regression imputation (факультативно: +error term), или предсказание пропущенных с введением ошибки (факультативно) не так уж плохо, если очень нужно.
Сильные методы, пригодные при MAR:
EM imputation: итеративная регрессия (пропущенные значения каждой переменной восстанавливаются на основе всех остальных по кругу, пока алгоритм не сойдётся на стабильных значениях) – можно делать в SPSS;
более сложные:
Multiple Imputation (генерируется несколько наборов данных, где пропущенные заменены ожидаемыми случайными значениями из распределений, результаты оценки моделей сравниваются).
Full-Information Maximum Likelihood (в структурном моделировании): метод максимального праводоподобия с использованием только имеющейся информации, при этом пропущенные данные не заменяются как таковые:
Если NMAR: использовать сильные методы и думать содержательно о том, почему данные пропущены.
Слайд 96
Работа с пропущенными данными
Сильные методы, пригодные при MAR:
EM
imputation: итеративная регрессия (пропущенные значения каждой переменной восстанавливаются на
основе всех остальных по кругу, пока алгоритм не сойдётся на стабильных значениях) – можно делать в SPSS;
MI imputation: генерируется несколько наборов данных, где пропущенные заменены ожидаемыми случайными значениями из распределений, результаты проверки модели сравниваются (Mplus с Estimator=BAYES – годится для любых распределений).
Full-Information Maximum Likelihood: метод максимального праводоподобия с использованием только имеющейся информации, при этом пропущенные данные не заменяются как таковые:
EQS: надо создать dummy variable V999 с нагрузками на все переменные
Mplus: используется по умолчанию при методах оценки ML/MLR
(WLSMV всегда исходит из допущения MCAR!)
Если NMAR: использовать сильные методы и думать содержательно о том, почему данные пропущены.
Слайд 97
Кросс-валидизация
Если модель эксплораторная (построена отталкиваясь от данных), её
кросс-валидизация необходима (иначе модель может включать артефакты = особенности
конкретной выборки).
Самый простой способ – делим выборку случайно пополам, на одной половине строим модель, на другой – проверяем.
Для некоторых методов возможен bootstrapping (из выборки выбирается много случайных подвыборок более точные оценки ошибок и эффектов).
Слайд 98
«Попытка подогнать цифру под то или другое предвзятое
мнение есть преступление уголовного характера» -- И. В. Сталин
(А
попытка представить модель, полученную в результате долгих мучений с данными, как исходную теоретически обоснованную гипотезу – всего лишь мелкое научное жульничество) – ЕО
Слайд 99
Советы В. М. Аллахвердова
(2005: «Блеск и нищета эмпирической
психологии»)
«Осмысленность вычислений статистических параметров не определяется используемыми математическими методами,
правомерность применения математического аппарата должна специально содержательно обосновываться и проверяться».
Любое обобщение полученных эмпирических результатов является внеэмпирической интерпретацией и должно независимо проверяться.
Фиксируйте алгоритм обработки данных до начала анализа. Если в ходе анализа выяснится, что другой алгоритм работает лучше, применяйте его ко всем данным последовательно.
Из всех способов обработки данных начинайте с простых (например, описательных статистик, анализа распределений, корреляций, сравнения средних), чтобы лучше понять ваши данные, и только потом переходите к более сложным.
Слайд 100
Проблема факторного анализа
«Проблема заключается в том, что
ФА часто используется в ходе попыток “спасти” плохо спланированное
исследование. В ситуациях, когда иные статистические процедуры не применимы, данные по крайней мере можно подвергнуть факторному анализу. Таким образом, в сознании многих многочисленные варианты ФА ассоциируются с сырыми исследованиями.
Способность ФА и АГК создавать видимость порядка там, где реально имеет место хаос, вносит свой вклад в их подмоченную репутацию в качестве инструментов научного исследования»
(Tabachnik & Fidell, 2007, p. 608-609)
Барбара Табачник
Бывший профессиональный танцор живота, выдающийся художник и писатель, почётный профессор California State University, автор учебника Using Multivariate Statistics (в соавторстве с Линдой Фиделл).
Слайд 101
Выбор метода
Чем обоснован именно такой выбор методов?
Соответствуют ли
друг другу результаты разных методов?
Как теоретически обоснована выбранная математическая
модель?
Соответствуют ли результаты полученным на других выборках?
Каковы возможные источники артефактов, какие шаги предприняты для борьбы с ними, каковы возможные погрешности?
Слайд 103
Виды текстов по содержанию
Эмпирические исследования
Количественные
Качественные
Обзоры литературы
Теоретические статьи
Методологические статьи
Case
study
Слайд 104
Структура статьи с эмпирическим исследованием (по APA)
Название (title)
Информация
об авторах, аффилиация
Аннотация (abstract) 150-250 слов
Введение (introduction)
Методы (methods)
Aim, Design,
Instruments, Procedure, Sample
Результаты (results)
Обсуждение (discussion)
Литература (references)
Приложения (appendices)
Слайд 105
Представление эмпирических данных по стандартам APA
Cтандартный вид таблиц
данных для наиболее популярных матметодов = легко разобраться.
Давать не
только результат проверки значимости, но и точную информацию о размере эффекта (для мета-анализа):
например, для корреляции Z = r * корень(N), где Z – значение нормального распределения, соответствующее уровню значимости, N – количество наблюдений в выборке; соответственно, в публикации должны быть представлены как минимум 2 из 3 членов уравнения, чтобы при мета-анализе можно было рассчитать недостающий.
Слайд 106
Советы по представлению данных эмпирического исследования
Давать в тексте
полную информацию обо всех действиях по сбору и обработке
данных, чтобы процедуру можно было повторить
Давать в тексте полную информацию о результатах: уровень значимости и размер эффекта
Представлять количественные данные в общепринятой форме (таблицы по стандартам APA)
Не перегружать текст результатами: лучше выбрать самое важное и представить это как следует
Можно разбить большое исследование на несколько публикаций, но нужно чётко указать, как они соотносятся друг с другом (не должны повторять)
Слайд 107
Этические стандарты
Использованы ли процедуры защиты прав респондентов? Рекомендуется:
право
на добровольное участие информированное согласие;
право на информацию, благополучие
дебрифинг;
право частной жизни конфиденциальность, защита личных данных.
Нет ли нарушений научной этики? Необходимо:
убедиться, что не допущен плагиат;
верное указание авторства, аффилиаций.
Нет ли нарушений авторских прав? Необходимо:
убедиться, что есть разрешение на использование чужих инструментов, примеров и пр.
Нужно/есть ли одобрение этической комиссии (IRB)?
Слайд 108
Только один вопрос
Выглядит ли моя статья (по структуре,
оформлению) так же, как действительно хорошие статьи в действительно
хороших журналах?
Слайд 110
Куда податься?
Статьи в рецензируемых журналах
Статьи в нерецензируемых журналах,
в сборниках статей
Авторские монографии
Тезисы в сборниках тезисов
Отчёты о научно-
исследовательской
работе
Препринты,
неопубликованные рукописи
Слайд 111
Качество публикаций
Определяется не статусом и авторитетом автора, а
качеством экспертизы (рецензирования) материала:
статью в рецензируемом журнале или диссертацию
оценивают как минимум 3 человека (автор + 2 и более рецензента);
статью в нерецензируемом журнале оценивает 1 человек (редактор);
научную монографию в хорошем издательстве оценивают несколько человек (рецензенты), в плохом – никто;
учебник – как повезёт.
Слайд 112
Рецензирование
Западные журналы peer-review: 2-4 рецензента + редактор. От
2 недель до 3 месяцев, 1-3 варианта.
Российские журналы ВАК:
чаще всего 1 рецензент + редактор (или даже только редактор). Около 3 месяцев, чаще всего 1 итерация.
Слайд 113
Оценка
Accept
Accept with Minor Revisions
R & R (Revise and
Resubmit)
Major Revision
Reject
Если 2 рецензента не согласны, 3-ю рецензию
даёт редактор.
Редактор может также сразу отвергнуть статью без рецензирования.
Слайд 114
Reject – не приговор статье, а всего лишь
пессимистическое мнение редактора относительно возможности и желания автора привести
статью в приемлемый для данного журнала вид за относительно небольшой промежуток времени.
Даже безнадёжно плохую статью часто можно «спасти», вопрос в том, ценой каких усилий.
Слайд 115
Возражения рецензентов
Рецензенты и редактор хотят помочь вам улучшить
вашу статью.
У них может быть своя, узкая точка зрения
на вашу предметную область.
Вы можете внести в статью изменения или мягко поспорить с возражениями по отдельным пунктам, хорошо аргументируя свою позицию ссылками.
Слайд 116
Выбор журнала
Поиск подходящих журналов:
Индексы цитирования: Impact Factors по
Web of Science / Scopus, РИНЦ
Определить круг возможных журналов,
примерно ознакомиться с их стандартами, почитать типичные статьи, оценить свои шансы с учётом их rejection rate
Выбрать приоритетный журнал, подробно ознакомиться со стандартами оформления
Слайд 117
Цитирование
Чем больше людей прочтут вашу статью, тем больше
шансов, что её процитируют.
Для этого она должна быть в
достаточно хорошем и достаточно доступном журнале.
Легче всего найти статью в журнале открытого доступа (open-access).
Главы в монографиях цитируются хуже.
Слайд 118
Типичные ошибки
Статья подаётся в журнал, для которого она
не подходит по тематике или типу исследований (обзоры, эксперименты,
серии экспериментов, репликации, корреляционные исследования…)
Статья подаётся в журнал слишком высокого уровня (но часто ничего не теряем, т.к. в таких журналах обычно быстрый отказ).
Статья не оформлена по стандартам конкретного журнала.
Слайд 119
Оценка своего исследования
Публикуются ли исследования с таким планом,
выборкой, результатами в журнале такого уровня?
Убедиться, что ваш математический
анализ проведён эффективно и валидно.
Чётко определить те исследования и результаты, которые вы хотите представить.
Можно определить общую идею и выстроить статью вокруг неё.
Слайд 121
Типичные ошибки
авторов
Автор «изобрёл велосипед»: решает проблему 1960-х годов
методами 1930-х
Автор не рефлексирует сущностный характер того, что он
изучает, или множит сущности
Автор строит теорию, которая становится для него самоцелью
Автор не утруждает себя идентификацией своего места в контексте науки и не задумывается о том, понятен ли его текст
Слайд 122
Типичные ошибки
авторов
Автор не осознаёт ограничения выбранного плана исследования
и не думает о других возможностях
Автор не задумывается о
качестве и адаптации измерительных инструментов
Автор не задумывается о необходимости валидизации своих экспертных процедур
Автор использует заведомо неадекватную целям или нерепрезентативную выборку
Слайд 123
Типичные ошибки
авторов
Автор не описывает процедуру сбора данных
Автор недостаточно
полно описывает данные и/или свои шаги по их анализу
Автор
ненавидит статистику и использует одни лишь корреляции или вообще ничего
Автор не задумывается о статистической мощности своего анализа
Автор забывает об условиях применимости матметодов
Слайд 124
Типичные ошибки
авторов
Автор думает, что хорошая статистика гарантирует достоверные
выводы
Автор не осознаёт или умышленно не обсуждает ограничений своего
исследования
Автор не стремится получить обратную связь о своих результатах от коллег до публикации
Слайд 125
Sternberg: Критерии качества теорий
Clarity and Detail
Original Substantive Contribution
(8 видов)
Relation to Past Work
Falsifiability
Generalizability
Discriminability
Internal Consistency
Correspondence to Past Data
Prediction
Parsimony
Excitement
Слайд 126
Sternberg & Grigorenko: Методы
Выборка
Достаточный ли объём?
Подходящая ли популяция
использована?
Сбалансирована ли выборка по демографии?
Для лонгитюдов: есть ли выпадение,
сторонние эффекты смешения?
Для срезов: сравнимы ли когорты? Подходят ли методики для разных возрастных групп?
Слайд 127
Sternberg & Grigorenko: Методы
Материалы
Подходят ли материалы для респондентов?
Понятны
ли материалы респондентам так, как понимает их экспериментатор?
Мотивированы ли
респонденты?
Адекватно ли материалы операционализируют изучаемые теоретические конструкты?
Удовлетворительно ли описание материалов?
Слайд 128
Sternberg & Grigorenko: Методы
План исследования
Каков принцип разбиения на
группы?
Есть ли контрольные группы?
Продуман ли в целом дизайн?
Подходит ли
зависимая переменная к гипотезам и соответствует ли выводам?
Подходят ли независимые переменные гипотезам и выводам?
Слайд 129
Sternberg & Grigorenko: Методы
Процедура
Чётко ли показана процедура?
Нет ли
пропущенных шагов?
Подходит ли процедура для гипотез?
Описано ли оборудование?
Выполнены ли
этические нормы (информированное согласие, дебрифинг).
Было ли что-то неэтичное в исследовании?
Подходит ли процедура респондентам?
Если были ошибки, влияют ли они на валидность?
Слайд 130
Sternberg & Grigorenko: Методы
Гипотезы
Ясно ли, как гипотезы следуют
из теории?
Соответствуют ли гипотезы имеющимся данным? Если нет, объясняется
ли это?
Правдоподобны ли гипотезы?
Интересны ли гипотезы?
Согласуются ли гипотезы друг с другом?
Проверяемы ли они?