Слайд 1ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИ
СЕРИЯ 2
ПОНЯТИЕ ПЕРЕМЕННОЙ. ВИДЫ ПЕРЕМЕННЫХ. ТАБЛИЦЫ ДАННЫХ.
ОПИСАТЕЛЬНАЯ СТАТИСТИКА. ТАБЛИЦЫ ДАННЫХ И МАНИПУЛЯЦИИ С НИМИ В РАЗЛИЧНЫХ
СТАТИСТИЧЕСКИХ ПАКЕТАХ, ОБЗОР. ОПИСАТЕЛЬНАЯ СТАТИСТИКА В СТАТИСТИЧЕСКИХ ПРОГРАММАХ. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ.
Слайд 2Принципы сбора и хранения данных
Таблица данных одна (иногда это невозможно,
но это редкость)
Форматы записи должны быть одинаковы по всей таблице
(«м» и «ж» к примеру не должны перемежаться «мужской»/«женский»)
Количество категорий в качественных переменных должно быть минимальным (идеально – 2)
Для каждой переменной должна быть метаинформация (когда, как определялили, когда кто и что исправлял, легенда/пояснения если они требуются)
Названия файлов должны быть понятными даже умственно отсталому неандертальцу (не Курсач 8.xlsx, а Kursach_10_10_18_ver1.8_resultsUnchecked.xlsx)
Слайд 6Типы переменных
Количественные (интервальные) – возможны все математические операции
Дискретные (что то
в штуках)
Непрерывные (возраст, АД, пульс)
Порядковые (ординальные) (стадия заболевания) - можно
сказать что больше-меньше
Категориальные (качественные, номинальные) (цвета, группа крови)
Бинарные (выжил/умер, да/нет)
Уменьшение объема информации
Слайд 7Если выбросы данных невозможно связать с какой то ошибкой –
их нельзя игнорировать при анализе!
Слайд 12Boxplot of Political Bent
(0=Most Conservative, 100=Most Liberal)
Слайд 13Bins of size = 2 hours/week
Histogram of Exercise
Слайд 14
Формы распределения
Скошенное
вправо
Скошенное
влево
Симметричное
Слайд 17Оценка нормальности распределения
!НЕ ОЧЕНЬ ВАЖНА!
Тесты Шапиро-Уилка и Холмогорова-Смирнова хорошо работают
только в узком диапазоне N (около 30 случаев) – больше
или меньше – слишком строги
!НОРМАЛЬНОСТЬ СЛЕДУЕТ ОЦЕНИВАТЬ БЕЗ ДЕЛЕНИЯ НА КАТЕГОРИИ ПО КАЧЕСТВЕННЫМ ПЕРЕМЕННЫМ!
!По форме гистограммы + близость медианы и среднего
Решение приблизительное, но точное не нужно и невозможно, просто надо помнить, что чувствительность параметрических методов выше примерно на 30%
Многофакторных непараметрических методов НЕТ!
Слайд 22Описательные статистики: меры центральной тенденции
среднее арифметическое (+ уникальность, + простота
расчета, - зависимость от экстремальных значений)
медиана – значение, которое делит
ряд данных пополам (+ уникальность, + простота расчета, + малая зависимость от экстремальных значений, - интерпретация)
медиана=52
50 50 50 52 52 52 52 52 52 52 53
медиана =2
мода – наиболее часто встречающееся значение
Слайд 23Среднее
Пример: 17 19 21
22 23 23 23 38
Слайд 25Выбросы
Mean= 2.9 drinks/week
А если бы выброс был равен 400, то
среднее было бы 12!
Таких данных НЕТ!
Слайд 26МЕДИАНА
Значение в середине распределения
Расчет:
Среднее если нечетное число
Среднее между двумя
средними числами если четное.
Слайд 27-30
-25
-20
-15
-10
-5
0
5
10
15
20
0
5
10
15
20
25
30
P
e
r
c
e
n
t
Weight change
Mean=-18.5 pounds
Median=-19 pounds
История о выборе диеты
Слайд 28-300
-280
-260
-240
-220
-200
-180
-160
-140
-120
-100
-80
-60
-40
-20
0
20
0
5
10
15
20
25
30
P
e
r
c
e
n
t
Weight Change
Mean=-34.5 pounds
Median=-4.5 pounds
Слайд 29Меры разброса данных
Меры рассеяния показывают, насколько хорошо данные значения представляют
данную совокупность
Размах
Стандартное отклонение
Перцентили
Межквартильный размах (IQR)
Слайд 32Стандартное отклонение и стандартная ошибка среднего
Отклонение – это разброс данных
Ошибка – оценка истинного значения параметра, который рассчитывается ИСКУССТВЕННО
НЕ ПУТАТЬ!
Слайд 33Межквартильный размах
Межквартильный размах = 3-й квартиль – 1-й квартиль
Средние 50%
данных
Выбросы не влияют!
Слайд 38Удобно для категориальных переменных
Слайд 39Для категориальных переменных – не нужно
Слайд 43Статистики для количественных переменных, но есть более удобное окно
Слайд 54Стандартизованное Z-значение
Ответ на вопрос «как далеко от среднего находится данное
значение», выраженный в относительных (стандартизованных) единицах;
Зная m и s, каждое
значение х может быть преобразовано в значение z, и на основании таблиц площади под стандартизованной нормальной кривой;
В результате возможно ответить на вопрос «какова вероятность наблюдать подобное (или меньшее) значение x в совокупности с данными характеристиками (m и s).
Слайд 55Оценка среднего по выборочному среднему
Приблизительно 95% получаемых x̅ будут находится
в пределах
2 стандартных отклонений от среднего полученных выборочных средних,
этот интервал будет ограничен:
Поскольку µ и µx̅ неизвестны по условиям задачи, x̅ используется в качестве точечной оценки µ, и 95% построенных интервалов будут содержать µ. В общем случае доверительный интервал:
Z-значение в данном случае называется коэффициент надежности (reliability coefficient), а закрашенная площадь 1-α – доверительный уровень (confidence level)
Слайд 56Общая формула для оценки интервала
Слайд 57Интерпретация доверительных интервалов
На примере 95% ДИ для среднего:
Интервальная оценка μ
вычисляется по формуле:
Если α=0.05, мы можем сказать, что при повторном
отборе выборки, 95% полученных интервалов будут включать μ. Это заключение основано на вероятности получения различных значений x̅.
Слайд 58Доверительные интервалы
Многими незаслуженно относятся к описательной статистике
ДИ – численный интервал,
построенный вокруг оценки параметра по определенной методике
В силу этого он
характеризует, в первую очередь, методику
Во вторую очередь он характеризует данные
В последнюю очередь – параметры популяционного показателя
Слайд 59Исследователь Петрик рапортует:
Robust misinterpretation of confidence intervals. Hoekstra R1, Morey
RD, Rouder JN, Wagenmakers EJ. Psychon Bull Rev. 2014 Jan
14.
Слайд 60Какие из приведенных утверждений верны:
Вероятность, что истинное (популяционное) среднее больше
0, как минимум, 95%
Вероятность, что истинное среднее равно 0 меньше
5%
Нулевая гипотеза, что истинное среднее равно 0, вероятно, будет отвергнута
С 95% вероятностью истинное среднее находится между 0,1 и 0,4
Мы можем быть на 95% уверены, что истинное среднее находится между 0,1 и 0,4
Если бы мы повторяли эксперимент снова и снова, 95% времени истинное среднее находилось бы в интервале 0,1 – 0,4
Слайд 61Доверительные интервалы: ответы
Вероятность, что истинное (популяционное) среднее больше 0, как
минимум, 95%
Вероятность, что истинное среднее равно 0 меньше 5%
Присвоение вероятности
параметру
Нулевая гипотеза, что истинное среднее равно 0, вероятно, неверна
Присвоение вероятности гипотезе
С 95% вероятностью истинное среднее находится между 0,1 и 0,4
Присвоение вероятности параметру
Мы можем быть на 95% уверены, что истинное среднее находится между 0,1 и 0,4
Если бы мы повторяли эксперимент снова и снова, 95% времени истинное среднее находилось бы в интервале 0,1 – 0,4
Утверждение относительно границ истинного среднего
Если бы мы повторяли эксперимент снова и снова, 95% времени (в 95% случаев) доверительные интервалы содержали бы истинное среднее