Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему ОСНОВЫ БИОСТАТИСТИКИ

Содержание

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравненийТемы для обсуждения
ОСНОВЫ БИОСТАТИСТИКИАлександр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАНrubanovich@vigg.ruтел. (499) 132-8958 Оценка ассоциаций «генотип-фенотип» и их значимости   Факторы, влияющие Выявление ассоциаций «генотип-фенотип»:минимальный набор действий  Фенотип - качественный признак OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к заболеваниюпутем Soft для вычисления OR и проведения матаисследований Статистический анализ сопряженности генотипов и количественных признаков  Самое простое и необходимое: Сравнение частот генотипов для групп с низким (или высоким) значением Сравнение частот генотипов для групп с низким (или высоким) значением Soft для работы с генотипами и гаплотипами  WinStat for Excel Оценка ассоциаций «генотип-фенотип» и их значимости   Факторы, влияющие Чуть-чуть об ошибках статистических тестовОшибка I рода (α) Вероятность отвергнуть правильную нулевую От чего зависят ошибки статистических тестов?  От размаха реально существующих отличий Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и контроле Оценка ассоциаций «генотип-фенотип» и их значимости   Факторы, влияющие Проверка однородности материала и вычисление OR для нескольких выборокВыборки можно объединять, если Mantel-Haenszel test Объединение выборок с незначимыми эффектамиЕсли ассоциации нет, то случаи «больше-меньше» должны появляться Mantel-Haenszel test with WinPepi: результатыПротективное действие гетерозиготы w/d CCR5 достоверно, но не велико: OR=1.15 Оценка ассоциаций «генотип-фенотип» и их значимости   Факторы, влияющие Генерируем две одинаково распределенные выборки по 100 особей с 20-локусными генотипамиКак это Как избежать фальшивых открытий?  False Discovery Rate control: FDR - контроль Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки БонферрониВероятность Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini, Hochberg Пример: множественные сравнения по 10 тестамЗначимые различия без поправок на множественностьРасполагаем тесты Permutation tests: случайные перестановки пометок «case-control» в компьютерных симуляциях по алгоритму:Что делать, Permutation test применительно к данным об ассоциации заболеваемости с 10 SNPПереставляем отметки
Слайды презентации

Слайд 2 Оценка ассоциаций «генотип-фенотип» и их значимости

Оценка ассоциаций «генотип-фенотип» и их значимости  Факторы, влияющие на


Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения


Слайд 3 Выявление ассоциаций «генотип-фенотип»:
минимальный набор действий
Фенотип -

Выявление ассоциаций «генотип-фенотип»:минимальный набор действий Фенотип - качественный признак

качественный признак
(например: «здоровый -

больной», «русский - татарин»)

Фенотип - количественный признак
(например: вес, содержание кальция, частота аберраций)

Кроме этого в обоих случаях можно
строить различные регрессионные модели:
Зависимая переменная – признак (фенотип),
независимыми переменные – генотипы.
Например так: A/A - 0, A/T - 1, T/T - 2


Слайд 4 OR – непременный атрибут «case-control association study»
(выявление

OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к

«генов предрасположенности» к заболеванию
путем сопоставлений частот генотипов у больных

и здоровых)

OR – количественная мера предрасположенности
(Odd Ratio)

OR>1 – генотип связан с болезнью
OR=1 – нет связи между генотипом и болезнью
OR<1 – протективный генотип

OR показывает во сколько раз повышена вероятность заболеть для носителя «плохого» генотипа


Слайд 5 Soft для вычисления OR
и проведения матаисследований

Soft для вычисления OR и проведения матаисследований

Слайд 6 Статистический анализ сопряженности генотипов и количественных признаков

Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое:

Самое простое и необходимое: вычисление средних значений признака для

носителей различных генотипов. Далее сравнение по непараметрическому тесту
(не по Стьюденту!)

Гомозигота по мажорному аллелю

Гомозигота по минорному аллелю

Обычно стараются рассмотреть две группы


Слайд 7 Сравнение частот генотипов для групп с

Сравнение частот генотипов для групп с низким (или высоким) значением

низким (или высоким) значением признака
Самое простое

и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту
(не по Стьюденту!)

Группа людей с нулевым уровнем аберраций


Статистический анализ сопряженности генотипов и количественных признаков

Далее вычисляется OR
и значимость по точному критерию Фишера.
В данном примере риск возникновения аберраций у носителей минорного аллеля G равен OR=2,1 и р=0,015


Слайд 8 Сравнение частот генотипов для групп с

Сравнение частот генотипов для групп с низким (или высоким) значением

низким (или высоким) значением признака
Логистическая и пуассоновская

регрессии

р – частота аберраций
xi – генотип i-го локуса
аi – коэф. регрессии

Нелинейные многомерные регрессии,
реализованные в пакетах Statistica и SPSS

Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту
(не по Стьюденту!)

Статистический анализ сопряженности генотипов и количественных признаков

Зависимая переменная – признак (р),
независимыми переменные – генотипы (xi).
Например так: A/A - 0, A/T - 1, T/T - 2


Слайд 9 Soft для работы
с генотипами и гаплотипами

Soft для работы с генотипами и гаплотипами WinStat for Excel   Free!Free!

WinStat for Excel

Free!
Free!


Слайд 10 Оценка ассоциаций «генотип-фенотип» и их значимости

Оценка ассоциаций «генотип-фенотип» и их значимости  Факторы, влияющие на


Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения


Слайд 11 Чуть-чуть об ошибках статистических тестов
Ошибка I рода (α)

Чуть-чуть об ошибках статистических тестовОшибка I рода (α) Вероятность отвергнуть правильную


Вероятность отвергнуть правильную нулевую гипотезу = Вероятность обнаружить различия

там, где их нет = Вероятность совершить фальшивое открытие

Ошибка II рода (β)
Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие

Мощность теста = 1- Ошибка II рода =
Вероятность правильно отвергнуть нулевую гипотезу
Вероятность не упустить открытие

Нулевая гипотеза – обычно предположение об отсутствии различий = 2 выборки из одной генеральной совокупности

Традиционно биолог ориентирован на контроль
ошибки I рода (через уровень значимости),
т.е. на гарантии отсутствия ложных открытий,

… и при этом мало заботится о возможности
упустить открытие (ошибка II рода)


Слайд 12 От чего зависят ошибки статистических тестов?
От

От чего зависят ошибки статистических тестов? От размаха реально существующих отличий

размаха реально существующих отличий и разброса

данных

От объемов выборок


Ошибки I и II рода однозначно не связаны. В целом
ошибка II рода растет при уменьшении ошибки I рода


С увеличением объема выборки мощность теста
(вероятность не упустить открытие)
всегда возрастает

Крайний случай:
«критерий» св. Фомы Неверующего (0033)
Ошибка I рода = 0 ⇔ Ошибка II рода = 1

Ошибка I рода (вероятность фальшивого открытия)
слабо зависит от объемов выборок,
если они сравнимы по величине


Слайд 13
Сравнение частот при уровне значимости 0.05 Объемы выборок

Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и

в опыте и контроле одинаковы
Если в контроле нет мутаций,

то при значимости отличий в опыте их должно быть

больше 5
независимо от объемов выборок
(100 или 1000)


Слайд 14 Оценка ассоциаций «генотип-фенотип» и их значимости

Оценка ассоциаций «генотип-фенотип» и их значимости  Факторы, влияющие на


Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения


Слайд 15 Проверка однородности материала и вычисление OR для нескольких

Проверка однородности материала и вычисление OR для нескольких выборокВыборки можно объединять,

выборок
Выборки можно объединять, если
Можно ли объединить k независимых

выборок и оценить частоту как

Индекс рассеяния для биномиальных выборок

Mantel-Haenszel test


Слайд 16 Mantel-Haenszel test

Mantel-Haenszel test

Слайд 17 Объединение выборок с незначимыми эффектами
Если ассоциации нет, то

Объединение выборок с незначимыми эффектамиЕсли ассоциации нет, то случаи «больше-меньше» должны

случаи «больше-меньше» должны появляться с вероятностью ½


Только в 3

выборках из 18 частота
гетерозигот w/d у HIV+ выше, чем у HIV-

Монета достоверно несимметрична!
Гетерозиготы w/d чаще встречаются среди HIV-
Но какое OR?


Слайд 18 Mantel-Haenszel test with WinPepi: результаты
Протективное действие гетерозиготы
w/d

Mantel-Haenszel test with WinPepi: результатыПротективное действие гетерозиготы w/d CCR5 достоверно, но не велико: OR=1.15

CCR5 достоверно, но не велико: OR=1.15


Слайд 19 Оценка ассоциаций «генотип-фенотип» и их значимости

Оценка ассоциаций «генотип-фенотип» и их значимости  Факторы, влияющие на


Факторы, влияющие на значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения


Слайд 20 Генерируем две одинаково распределенные выборки
по 100 особей

Генерируем две одинаково распределенные выборки по 100 особей с 20-локусными генотипамиКак

с 20-локусными генотипами
Как это бывает?
Наблюдаем появление фальшивых ассоциаций

OR p

Ген Выборка 1 Выборка 2

Больные Здоровые

1

Должно быть
OR=1

2

3

4

Сразу 3 локуса
«ассоциированы»
с заболеваемостью!

Частоты минорых аллелей (в среднем 0.1)


Слайд 21 Как избежать фальшивых открытий?
False Discovery Rate

Как избежать фальшивых открытий? False Discovery Rate control: FDR - контроль

control: FDR - контроль
Permutation test

(компьютерная перестановка лэйблов «case-control»)

Слайд 22 Зависимость ошибки II рода от числа тестов (SNP)

Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки

при использовании поправки Бонферрони
Вероятность пропустить ген с OR=2.7
на

выборках 100 (case) и 100 (control)

При 100 сравнениях ради того, чтобы гарантировать
отсутствие хотя бы одного
ложного результата, мы упускаем 88% открытий!

При m=100 ошибка равна 0.88

В отдельном тесте вероятность упустить открытие равна 0.2

При 5 сравнениях упускаем 50% открытий


Слайд 23 Новый принцип проверки статистических гипотез: FDR-контроль
False Discovery

Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini,

Rate control: Benjamini, Hochberg (1995)
Вероятность хотя бы одного
фальшивого

открытия < Уровня значимости
Ошибка I рода < 0.05

Слайд 24 Пример: множественные сравнения по 10 тестам
Значимые различия без

Пример: множественные сравнения по 10 тестамЗначимые различия без поправок на множественностьРасполагаем

поправок на множественность

Располагаем тесты в порядке увелечения p

Поправка Бонферрони

оставляет значимым лишь первое сравнение

В первой клетке
как у Бонферрони,

во второй клетке
вдвое больше,

втрое больше
и т.д ….

Для 6-ого теста p больше этого значения


Значимые различия после коррекции по FDR

И это все!!!


Слайд 25 Permutation tests:
случайные перестановки пометок «case-control»
в компьютерных

Permutation tests: случайные перестановки пометок «case-control» в компьютерных симуляциях по алгоритму:Что

симуляциях по алгоритму:
Что делать, если FDR не помогает?

В

исходной базе данных делаем случайную перестановку
лейблов case-control

Вычисляем заново p-уровни для каждого гена (pperm)

Повторяем процедуру N раз (минимум 10000), фиксируя
случаи, когда pperm меньше исходного значения p

Вычисляем откорректированное p как

Тем самым мы отказываемся от попыток
вычислить значимость различий.
Вместо этого мы ее «измеряем» экспериментально,
разыгрывая ситуацию на компьютере

Точный тест Фишера – это тоже permutation test,
только реализованный аналитически (р вычисляется
по формулам комбинаторной теории вероятностей)


  • Имя файла: osnovy-biostatistiki.pptx
  • Количество просмотров: 140
  • Количество скачиваний: 1