ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИ

Содержание

1. ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИ
2. Принципы сбора и хранения данныхТаблица данных одна
3. ШИРОКИЙ ФОРМАТ ДАННЫХ
4. ПОЛУШИРОКИЙ ФОРМАТ ДАННЫХ
5. УЗКИЙ ФОРМАТ ДАННЫХ
6. Типы переменныхКоличественные (интервальные) – возможны все математические
7. Если выбросы данных невозможно связать с какой то ошибкой – их нельзя игнорировать при анализе!
8. Тип шкалы: интервальная
9. Тип шкалы: ординальная
10. Тип шкалы: номинальная
11. Верно?
12. Boxplot of Political Bent (0=Most Conservative, 100=Most Liberal)
13. Bins of size = 2 hours/weekHistogram of Exercise
14. Формы распределенияСкошенноевправоСкошенное влевоСимметричное
15. Нормальное распределение
16. Нормальное распределение
17. Оценка нормальности распределения!НЕ ОЧЕНЬ ВАЖНА!Тесты Шапиро-Уилка и
18. Слайд 18
19. Слайд 19
20. Слайд 20
21. Слайд 21
22. Описательные статистики: меры центральной тенденциисреднее арифметическое (+
23. СреднееПример: 17
24. Mean= 11.4 hours/week
25. ВыбросыMean= 2.9 drinks/weekА если бы выброс был
26. МЕДИАНАЗначение в середине распределенияРасчет: Среднее если нечетное числоСреднее между двумя средними числами если четное.
27. -30-25-20-15-10-505101520051015202530PercentWeight changeMean=-18.5 poundsMedian=-19 poundsИстория о выборе диеты
28. -300-280-260-240-220-200-180-160-140-120-100-80-60-40-20020051015202530PercentWeight ChangeMean=-34.5 poundsMedian=-4.5 pounds
29. Меры разброса данных Меры рассеяния показывают, насколько
30. ДисперсияСтандартное отклонение
31. Слайд 31
32. Стандартное отклонение и стандартная ошибка среднегоОтклонение –
33. Межквартильный размахМежквартильный размах = 3-й квартиль – 1-й квартильСредние 50% данныхВыбросы не влияют!
34. Слайд 34
35. Слайд 35
36. Окно свойств переменных SPSS
37. Слайд 37
38. Удобно для категориальных переменных
39. Для категориальных переменных – не нужно
40. Слайд 40
41. Окно вывода - статистики
42. Окно вывода - графики
43. Статистики для количественных переменных, но есть более удобное окно
44. Слайд 44
45. Слайд 45
46. Слайд 46
47. Слайд 47
48. Слайд 48
49. Слайд 49
50. Слайд 50
51. Слайд 51
52. Слайд 52
53. Слайд 53
54. Стандартизованное Z-значениеОтвет на вопрос «как далеко от
55. Оценка среднего по выборочному среднемуПриблизительно 95% получаемых
56. Общая формула для оценки интервала
57. Интерпретация доверительных интерваловНа примере 95% ДИ для
58. Доверительные интервалыМногими незаслуженно относятся к описательной статистикеДИ
59. Исследователь Петрик рапортует:Robust misinterpretation of confidence intervals.
60. Какие из приведенных утверждений верны:Вероятность, что истинное
61. Доверительные интервалы: ответыВероятность, что истинное (популяционное) среднее
62. Скачать презентанцию

Принципы сбора и хранения данныхТаблица данных одна (иногда это невозможно, но это редкость)Форматы записи должны быть одинаковы по всей таблице («м» и «ж» к примеру не должны перемежаться «мужской»/«женский»)Количество категорий в

Главная
Разное
ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИ

Слайды и текст этой презентации

Слайд 1ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИ
СЕРИЯ 2
ПОНЯТИЕ ПЕРЕМЕННОЙ. ВИДЫ ПЕРЕМЕННЫХ. ТАБЛИЦЫ ДАННЫХ.

ОПИСАТЕЛЬНАЯ СТАТИСТИКА. ТАБЛИЦЫ ДАННЫХ И МАНИПУЛЯЦИИ С НИМИ В РАЗЛИЧНЫХ

СТАТИСТИЧЕСКИХ ПАКЕТАХ, ОБЗОР. ОПИСАТЕЛЬНАЯ СТАТИСТИКА В СТАТИСТИЧЕСКИХ ПРОГРАММАХ. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ.

ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИСЕРИЯ 2ПОНЯТИЕ ПЕРЕМЕННОЙ. ВИДЫ ПЕРЕМЕННЫХ. ТАБЛИЦЫ ДАННЫХ. ОПИСАТЕЛЬНАЯ СТАТИСТИКА. ТАБЛИЦЫ ДАННЫХ И МАНИПУЛЯЦИИ С

Слайд 2Принципы сбора и хранения данных
Таблица данных одна (иногда это невозможно,

но это редкость)
Форматы записи должны быть одинаковы по всей таблице

(«м» и «ж» к примеру не должны перемежаться «мужской»/«женский»)
Количество категорий в качественных переменных должно быть минимальным (идеально – 2)
Для каждой переменной должна быть метаинформация (когда, как определялили, когда кто и что исправлял, легенда/пояснения если они требуются)
Названия файлов должны быть понятными даже умственно отсталому неандертальцу (не Курсач 8.xlsx, а Kursach_10_10_18_ver1.8_resultsUnchecked.xlsx)

Принципы сбора и хранения данныхТаблица данных одна (иногда это невозможно, но это редкость)Форматы записи должны быть одинаковы

Слайд 3ШИРОКИЙ ФОРМАТ ДАННЫХ

Слайд 4ПОЛУШИРОКИЙ ФОРМАТ ДАННЫХ

Слайд 5УЗКИЙ ФОРМАТ ДАННЫХ

Слайд 6Типы переменных
Количественные (интервальные) – возможны все математические операции
Дискретные (что то

в штуках)
Непрерывные (возраст, АД, пульс)
Порядковые (ординальные) (стадия заболевания) - можно

сказать что больше-меньше
Категориальные (качественные, номинальные) (цвета, группа крови)
Бинарные (выжил/умер, да/нет)

Уменьшение объема информации

Типы переменныхКоличественные (интервальные) – возможны все математические операцииДискретные (что то в штуках)Непрерывные (возраст, АД, пульс)Порядковые (ординальные) (стадия

Слайд 7Если выбросы данных невозможно связать с какой то ошибкой –

их нельзя игнорировать при анализе!

Слайд 8Тип шкалы: интервальная

Слайд 9Тип шкалы: ординальная

Слайд 10Тип шкалы: номинальная

Слайд 11Верно?

Слайд 12Boxplot of Political Bent
(0=Most Conservative, 100=Most Liberal)

Слайд 13Bins of size = 2 hours/week
Histogram of Exercise

Слайд 14 Формы распределения
Скошенное
вправо
Скошенное
влево
Симметричное

Слайд 15Нормальное распределение

Слайд 16Нормальное распределение

Слайд 17Оценка нормальности распределения
!НЕ ОЧЕНЬ ВАЖНА!
Тесты Шапиро-Уилка и Холмогорова-Смирнова хорошо работают

только в узком диапазоне N (около 30 случаев) – больше

или меньше – слишком строги
!НОРМАЛЬНОСТЬ СЛЕДУЕТ ОЦЕНИВАТЬ БЕЗ ДЕЛЕНИЯ НА КАТЕГОРИИ ПО КАЧЕСТВЕННЫМ ПЕРЕМЕННЫМ!
!По форме гистограммы + близость медианы и среднего
Решение приблизительное, но точное не нужно и невозможно, просто надо помнить, что чувствительность параметрических методов выше примерно на 30%
Многофакторных непараметрических методов НЕТ!

Оценка нормальности распределения!НЕ ОЧЕНЬ ВАЖНА!Тесты Шапиро-Уилка и Холмогорова-Смирнова хорошо работают только в узком диапазоне N (около 30

Слайд 18

Слайд 19

Слайд 20

Слайд 21

Слайд 22Описательные статистики: меры центральной тенденции
среднее арифметическое (+ уникальность, + простота

расчета, - зависимость от экстремальных значений)

медиана – значение, которое делит

ряд данных пополам (+ уникальность, + простота расчета, + малая зависимость от экстремальных значений, - интерпретация)
медиана=52
50 50 50 52 52 52 52 52 52 52 53

медиана =2

мода – наиболее часто встречающееся значение

Описательные статистики: меры центральной тенденциисреднее арифметическое (+ уникальность, + простота расчета, - зависимость от экстремальных значений)медиана –

Слайд 23Среднее
Пример: 17 19 21

22 23 23 23 38

Слайд 24Mean= 11.4 hours/week

Слайд 25Выбросы
Mean= 2.9 drinks/week
А если бы выброс был равен 400, то

среднее было бы 12!
Таких данных НЕТ!

Слайд 26МЕДИАНА
Значение в середине распределения

Расчет:
Среднее если нечетное число
Среднее между двумя

средними числами если четное.

Слайд 27-30
-25
-20
-15
-10
-5
0
5
10
15
20
0
5
10
15
20
25
30
P
e
r
c
e
n
t
Weight change
Mean=-18.5 pounds
Median=-19 pounds
История о выборе диеты

Слайд 28-300
-280
-260
-240
-220
-200
-180
-160
-140
-120
-100
-80
-60
-40
-20
0
20
0
5
10
15
20
25
30
P
e
r
c
e
n
t
Weight Change
Mean=-34.5 pounds
Median=-4.5 pounds

Слайд 29Меры разброса данных Меры рассеяния показывают, насколько хорошо данные значения представляют

данную совокупность
Размах
Стандартное отклонение
Перцентили
Межквартильный размах (IQR)

Меры разброса данных Меры рассеяния показывают, насколько хорошо данные значения представляют данную совокупность РазмахСтандартное отклонениеПерцентилиМежквартильный размах (IQR)

Слайд 30Дисперсия
Стандартное отклонение

Слайд 31

Слайд 32Стандартное отклонение и стандартная ошибка среднего
Отклонение – это разброс данных

Ошибка – оценка истинного значения параметра, который рассчитывается ИСКУССТВЕННО
НЕ ПУТАТЬ!

Стандартное отклонение и стандартная ошибка среднегоОтклонение – это разброс данных Ошибка – оценка истинного значения параметра, который

Слайд 33Межквартильный размах
Межквартильный размах = 3-й квартиль – 1-й квартиль
Средние 50%

данных
Выбросы не влияют!

Слайд 34

Слайд 35

Слайд 36Окно свойств переменных SPSS

Слайд 37

Слайд 38Удобно для категориальных переменных

Слайд 39Для категориальных переменных – не нужно

Слайд 40

Слайд 41Окно вывода - статистики

Слайд 42Окно вывода - графики

Слайд 43Статистики для количественных переменных, но есть более удобное окно

Слайд 44

Слайд 45

Слайд 46

Слайд 47

Слайд 48

Слайд 49

Слайд 50

Слайд 51

Слайд 52

Слайд 53

Слайд 54Стандартизованное Z-значение
Ответ на вопрос «как далеко от среднего находится данное

значение», выраженный в относительных (стандартизованных) единицах;
Зная m и s, каждое

значение х может быть преобразовано в значение z, и на основании таблиц площади под стандартизованной нормальной кривой;
В результате возможно ответить на вопрос «какова вероятность наблюдать подобное (или меньшее) значение x в совокупности с данными характеристиками (m и s).

Стандартизованное Z-значениеОтвет на вопрос «как далеко от среднего находится данное значение», выраженный в относительных (стандартизованных) единицах;Зная m

Слайд 55Оценка среднего по выборочному среднему
Приблизительно 95% получаемых x̅ будут находится

в пределах 2 стандартных отклонений от среднего полученных выборочных средних,

этот интервал будет ограничен:

Поскольку µ и µx̅ неизвестны по условиям задачи, x̅ используется в качестве точечной оценки µ, и 95% построенных интервалов будут содержать µ. В общем случае доверительный интервал:

Z-значение в данном случае называется коэффициент надежности (reliability coefficient), а закрашенная площадь 1-α – доверительный уровень (confidence level)

Оценка среднего по выборочному среднемуПриблизительно 95% получаемых x̅ будут находится в пределах 2 стандартных отклонений от

Слайд 56Общая формула для оценки интервала

Слайд 57Интерпретация доверительных интервалов
На примере 95% ДИ для среднего:
Интервальная оценка μ

вычисляется по формуле:

Если α=0.05, мы можем сказать, что при повторном

отборе выборки, 95% полученных интервалов будут включать μ. Это заключение основано на вероятности получения различных значений x̅.

Интерпретация доверительных интерваловНа примере 95% ДИ для среднего:Интервальная оценка μ вычисляется по формуле:Если α=0.05, мы можем сказать,

Слайд 58Доверительные интервалы
Многими незаслуженно относятся к описательной статистике
ДИ – численный интервал,

построенный вокруг оценки параметра по определенной методике
В силу этого он

характеризует, в первую очередь, методику
Во вторую очередь он характеризует данные
В последнюю очередь – параметры популяционного показателя

Доверительные интервалыМногими незаслуженно относятся к описательной статистикеДИ – численный интервал, построенный вокруг оценки параметра по определенной методикеВ

Слайд 59Исследователь Петрик рапортует:
Robust misinterpretation of confidence intervals. Hoekstra R1, Morey

RD, Rouder JN, Wagenmakers EJ. Psychon Bull Rev. 2014 Jan

14.

Исследователь Петрик рапортует:Robust misinterpretation of confidence intervals. Hoekstra R1, Morey RD, Rouder JN, Wagenmakers EJ. Psychon Bull

Слайд 60Какие из приведенных утверждений верны:
Вероятность, что истинное (популяционное) среднее больше

0, как минимум, 95%
Вероятность, что истинное среднее равно 0 меньше

5%
Нулевая гипотеза, что истинное среднее равно 0, вероятно, будет отвергнута
С 95% вероятностью истинное среднее находится между 0,1 и 0,4
Мы можем быть на 95% уверены, что истинное среднее находится между 0,1 и 0,4
Если бы мы повторяли эксперимент снова и снова, 95% времени истинное среднее находилось бы в интервале 0,1 – 0,4

Какие из приведенных утверждений верны:Вероятность, что истинное (популяционное) среднее больше 0, как минимум, 95%Вероятность, что истинное среднее

Слайд 61Доверительные интервалы: ответы
Вероятность, что истинное (популяционное) среднее больше 0, как

минимум, 95%
Вероятность, что истинное среднее равно 0 меньше 5%
Присвоение вероятности

параметру
Нулевая гипотеза, что истинное среднее равно 0, вероятно, неверна
Присвоение вероятности гипотезе
С 95% вероятностью истинное среднее находится между 0,1 и 0,4
Присвоение вероятности параметру
Мы можем быть на 95% уверены, что истинное среднее находится между 0,1 и 0,4
Если бы мы повторяли эксперимент снова и снова, 95% времени истинное среднее находилось бы в интервале 0,1 – 0,4
Утверждение относительно границ истинного среднего
Если бы мы повторяли эксперимент снова и снова, 95% времени (в 95% случаев) доверительные интервалы содержали бы истинное среднее

Доверительные интервалы: ответыВероятность, что истинное (популяционное) среднее больше 0, как минимум, 95%Вероятность, что истинное среднее равно 0

Скачать презентацию

Разделы презентаций

ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИ

Содержание

Слайды и текст этой презентации

Слайд 1ОСНОВЫ ПРАКТИЧЕСКОЙ БИО-МЕДИЦИНСКОЙ СТАТИСТИКИСЕРИЯ 2ПОНЯТИЕ ПЕРЕМЕННОЙ. ВИДЫ ПЕРЕМЕННЫХ. ТАБЛИЦЫ ДАННЫХ.

ОПИСАТЕЛЬНАЯ СТАТИСТИКА. ТАБЛИЦЫ ДАННЫХ И МАНИПУЛЯЦИИ С НИМИ В РАЗЛИЧНЫХ

Слайд 2Принципы сбора и хранения данныхТаблица данных одна (иногда это невозможно,

но это редкость)Форматы записи должны быть одинаковы по всей таблице

Слайд 3ШИРОКИЙ ФОРМАТ ДАННЫХ

Слайд 4ПОЛУШИРОКИЙ ФОРМАТ ДАННЫХ

Слайд 5УЗКИЙ ФОРМАТ ДАННЫХ

Слайд 6Типы переменныхКоличественные (интервальные) – возможны все математические операцииДискретные (что то

в штуках)Непрерывные (возраст, АД, пульс)Порядковые (ординальные) (стадия заболевания) - можно

Слайд 7Если выбросы данных невозможно связать с какой то ошибкой –

их нельзя игнорировать при анализе!

Слайд 8Тип шкалы: интервальная

Слайд 9Тип шкалы: ординальная

Слайд 10Тип шкалы: номинальная

Слайд 11Верно?

Слайд 12Boxplot of Political Bent (0=Most Conservative, 100=Most Liberal)

Слайд 13Bins of size = 2 hours/weekHistogram of Exercise

Слайд 14 Формы распределенияСкошенноевправоСкошенное влевоСимметричное

Слайд 15Нормальное распределение

Слайд 16Нормальное распределение

Слайд 17Оценка нормальности распределения!НЕ ОЧЕНЬ ВАЖНА!Тесты Шапиро-Уилка и Холмогорова-Смирнова хорошо работают

только в узком диапазоне N (около 30 случаев) – больше

Слайд 22Описательные статистики: меры центральной тенденциисреднее арифметическое (+ уникальность, + простота

расчета, - зависимость от экстремальных значений)медиана – значение, которое делит

Слайд 23СреднееПример: 17 19 21

22 23 23 23 38

Слайд 24Mean= 11.4 hours/week

Слайд 25ВыбросыMean= 2.9 drinks/weekА если бы выброс был равен 400, то

среднее было бы 12! Таких данных НЕТ!

Слайд 26МЕДИАНАЗначение в середине распределенияРасчет: Среднее если нечетное числоСреднее между двумя

средними числами если четное.

Слайд 27-30-25-20-15-10-505101520051015202530PercentWeight changeMean=-18.5 poundsMedian=-19 poundsИстория о выборе диеты

Слайд 28-300-280-260-240-220-200-180-160-140-120-100-80-60-40-20020051015202530PercentWeight ChangeMean=-34.5 poundsMedian=-4.5 pounds

Слайд 29Меры разброса данных Меры рассеяния показывают, насколько хорошо данные значения представляют

данную совокупность РазмахСтандартное отклонениеПерцентилиМежквартильный размах (IQR)

Слайд 30ДисперсияСтандартное отклонение

Слайд 32Стандартное отклонение и стандартная ошибка среднегоОтклонение – это разброс данных

Ошибка – оценка истинного значения параметра, который рассчитывается ИСКУССТВЕННОНЕ ПУТАТЬ!

Слайд 33Межквартильный размахМежквартильный размах = 3-й квартиль – 1-й квартильСредние 50%

данныхВыбросы не влияют!