Слайд 1 Статистика
Подготовили:
студентка 6 курса Четвертакова светлана и студентка 5 курса
Галус
Анна
Слайд 2ПРИЗНАКИ
– это единицы совокупности, обладающие определенными свойствами и качествами.
О.Ю. Реброва.
Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. –
М.: МедиаСфера, 2002. – 312 с.
Слайд 3КАЧЕСТВЕННЫЕ ПРИЗНАКИ
(номинальные)
- это такие признаки, которые не поддаются непосредственному измерению.
Слайд 4Разновидностью качественных признаков, которые могут быть отнесены только к двум
противоположным категориям «да – нет», принимающие одно из двух значений
называются дихотомическими.
КАЧЕСТВЕННЫЕ ПРИЗНАКИ
Слайд 5ПОРЯДКОВЫЕ ПРИЗНАКИ
- это признаки, которые можно расположить в естественном порядке
(ранжировать), но при этом отсутствует количественная мера расстояния между величинами.
Слайд 6КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИ
– признаки, количественная мера которых четко определена.
Слайд 8ВИД РАСПРЕДЕЛЕНИЯ
соответствие, устанавливаемое между всеми возможными числовыми значениями случайной величины
и вероятностями их появления в совокупности.
Может быть представлен:
аналитической зависимостью в
виде формулы;
в виде графического изображения;
в виде таблицы.
Слайд 9О.Ю. Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ
STATISTICA. – М.: МедиаСфера, 2002. – 312 с.
Слайд 10ДИСКРЕТНОЕ РАСПРЕДЕЛЕНИЕ
Используются для описания событий с недифференцируемыми характеристиками, определёнными в
изолированных точках.
Слайд 12БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Описывает распределение частоты события, обладающего постоянной вероятностью появления при многократных
испытаниях.
То есть это распределение количества «успехов» в последовательности из некоторого числа независимых случайных
экспериментов, таких, что вероятность «успеха» в каждом из них постоянна.
Слайд 13РАСПРЕДЕЛЕНИЕ ПУАССОНА
Описывает события, при которых с возрастанием значения случайной величины,
вероятность появления ее в совокупности резко уменьшается. Характерно для редких
событий.
Слайд 14НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕ
это распределение случайной вещественной величины, принимающей значения, принадлежащие некоторому промежутку конечной длины,
характеризующееся тем, что плотность вероятности на этом промежутке почти всюду постоянна.
По другому, непрерывной называется случайная величина,
которая может принимать любые значения внутри некоторого интервала (масса, температура, рост)
Слайд 16НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
(гауссово, симметричное, колоколообразное)
Описывает совместное воздействие на изучаемое явление
небольшого числа случайно сочетающихся факторов (по сравнению с общей суммой
факторов), число которых неограниченно велико.
Встречается в природе наиболее часто, поэтому называется «нормальным»
Слайд 19Все статистические показатели делятся на 3 большие группы:
Меры центральной тенденции
- показывают расположение среднего, типичного значения признака, вокруг которого сгруппированы
остальные наблюдения
Меры рассеяния (меры изменчивости, показатели вариации) - характеризуют значения между отдельными показателями выборки. Позволяют судить о степени однородности полученного множества, и о надежности полученных результатов
Меры связи (меры корреляции) - позволяют изучить взаимосвязь между двумя признаками/переменными
Слайд 20Среднее значение (М) - среднее арифметическое
Медиана (Ме) - средняя точка
распределения
Если кол-во значений нечетное, то Ме - среднее значение в
ранжированном списке
Если кол-во значений четное, то Ме - среднее арифметическое между двумя центральными значениями
Мода (Мо) - наиболее часто встречающееся значение признака в выборке
1 2 2 3 3 3 3 4 5 6 7 8 9
Меры центральной тенденции
(меры положения, меры локализации)
Показывают наиболее типичное значение для данной выборки
Слайд 21МЕРЫ РАССЕЯНИЯ
(МЕРЫ ИЗМЕНЧИВОСТИ, ПОКАЗАТЕЛИ ВАРИАЦИИ)
Дисперсия - характеризует, насколько частные значения
отклоняются от средней величины в данной выборке (чем больше дисперсия,
тем больше "разброс данных").
Среднее квадратическое (стандартное) отклонение (СКО, s, SD) - позволяет оценить, насколько бОльшая часть результатов данного исследования отклоняется от среднего значения.
Стандартная ошибка (SE-standard error) - оценка возможного отличия между значением среднего в анализируемой выборке и истинным средним, характерным для всей популяции. С увеличением выборки уменьшается данная ошибка, так как чем больше наблюдений, тем больше вероятность, что полученные данные близки к истинным.
Показывают разброс значений признака в выборке
Слайд 22Меры рассеяния
(меры изменчивости, показатели вариации)
Размах - разность максимального и
минимального значения
(Недостаток: не характеризует распределение целиком, а только крайние
значения)
Интерпроцентильный размах/интервал - значения каких-либо процентилей распределения, например, 10-го и 90-го
Интерквартильный размах/интервал - значения 25-го и 75-го процентилей (такой интервал независимо от вида распределения включает 50% значений признака в выборке)
Показывают разброс значений признака в выборке
Слайд 23Понятие о квантилях
Квантили (ед.ч. - Квантиль) - величины, разделяющие
ранжированный ряд на равные части.
Разновидности квантилей:
1. Медиана - делит на 2
равные части (пополам)
2. Квартили - делит на 4 равные части
3. Децили - делит на 10 равных частей
4. Перцентили - делит на 100 равных частей
Слайд 24Подробнее о квартилях
Квартили делят ранжированный ряд на 4 равные части
Нижний
(первый) квартиль Q1 - это медиана левой половины упорядоченного ряда.
25% значений меньше Q1
Верхний (третий) квартиль Q3 - медиана правой половины упорядоченного ряда. 25% значений больше Q3
Второй квартиль Q2 - медиана
Слайд 25Анализ количественных признаков
Первый этап - анализ вида распределения
От вида распределения
зависят:
Выбор способа описания центральной тенденции
Выбор способа описания изменчивости значений признака
Выбор методов дальнейшего
анализа данных
Слайд 26Как определить вид распределения?
4 способа с помощью программы STATISTICA:
Качественные:
1. Построение
гистограммы
(Graphs => Histograms=> "выбираем необходимые признаки" => OK)
2. График
функции распределения в специальных координатах
(Graphs => 2D Graphs => Probability-Probability plots =>
=> Distribution – normal => "выбираем необходимые признаки" => OK)
Слайд 27 Количественные:
3. Оценка симметричности распределения признаков
СКО<(M/2)
(Среднее квадратическое отклонение должно быть меньше половины среднего арифметического)
4. Проверка статистических гипотез (используется крайне редко):
Нулевая гипотеза (H0) - утверждает, что распределение исследуемого признака в генеральной совокупности соответствует закону нормального распределения
Альтернативная гипотеза (H1) - утверждает, что распределение исследуемого признака в генеральной совокупности не соответствует закону нормального распределения
Слайд 283 критерия:
Колмогорова - Смирнова (λ-критерий): применяется, если среднее значение и
среднее квадратическое отклонение известны априори
Лиллиефорса: применяется, когда среднее значение и среднее
квадратическое отклонение не известны априори, а вычисляются по выборке
Шапиро-Уилка: применяется так же, если известны среднее значение и среднее квадратическое отклонение априори, однако данный критерий предпочтителен, так как является самым "мощным", точным и универсальным
Слайд 29Определение критериев в программе STatistica
Statistics => Basic Statistics/Tables =>
=>Descriptive
statistics => Normality (здесь же, но во вкладке Advanced можно
высчитать моду, медиану и среднее значение) => "выбираем критерии" => => Histograms
Далее оцениваем гистограмму и значение р
Слайд 30Интерпретация результатов
После использования программы STATISTICA будут получены результаты анализа распределения
каждого признака - р.
Если р < 0,05 => принимается альтернативная
гипотеза -> распределение отличается от нормального -> далее будут использованы непараметрические методы анализа данных
Если р ⩾ 0,05 => принимается нулевая гипотеза -> нормальное распределение -> далее будут использованы параметрические методы анализа данных
Р никак не отражает величину различий между группами, поэтому часто рассчитывают ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ (ДИ)
Доверительный интервал - диапазон значений вокруг истинного значения.
ДИ с определённой вероятностью включает в себя истинные значения в генеральной совокупности.
Слайд 31КАКИЕ ДАННЫЕ НЕОБХОДИМО УКАЗЫВАТЬ ПРИ ОПИСАНИИ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ?
Число наблюдений (объектов
исследования)
Среднее значение
Среднее квадратическое отклонение (СКО)
Число наблюдений (объектов исследования)
Медиану
Верхний и нижний
квартили
Для описания распределения, отличающегося от нормального:
Для описания нормального распределения:
Слайд 32При описаниии количественных признаков следует обязательно указывать число наблюдений
(объектов
исследования) - N
Пример:
Исследуют группу из 1600
человек по 2-ум признакам: вес и анализ крови.
По каким-то причинам в ходе исследования не была получена информация о весе 10-ти объектов исследования и не были получены результаты анализа крови у 16-ти объектов. Следовательно, мы должны указать, что:
Для признака ВЕС n=1590
Для признака АНАЛИЗ КРОВИ n=1584
В данном случае разница допустима (это нормально)
Слайд 33
Статистические методы делят на:
Параметрические (основываются на оценке параметров: среднее значение или стандартное отклонение; применяются
для количественных признаков, если наверняка известно, что вид распределения - нормальный)
Непараметрические
(не связаны напрямую с оценкой параметров; могут применяться для количественных признаков при любом виде распределения + для качественных признаков)
Так как непараметрические методы можно использовать при любом виде распределения, то их используют гораздо чаще
Второй этап анализа - выбор статистического метода
Слайд 34Сравнение параметрических и непараметрических методов
К преимуществам непараметрических методов можно отнести следующие:
могут быть использованы,
когда характеристики популяции, из которой делается выборка, частично неизвестны;
бόльшая мощность;
относительная несложность вычислений (в большинстве случаев);
менее жесткие начальные допущения
Недостатками непараметрических методов являются:
меньшая эффективность, чем у параметрических методов;
меньшая специфичность;
потенциальная трудоемкость при применении к большим массивам данных.
Слайд 35Параметрические методы
1. Непарный t-тест (тест Стьюдента) - с его помощью
проводят проверку нулевой гипотезы ("H0") об отсутствии различий средних значений переменной в
двух независимых выборках (историческое значение)
2. Если данные зависимые (повторные наблюдения за одним и тем же человеком или исследование людей по парам), то рекомендуется применять парный t-тест
3. T-тест Уэлча (t-критерий неравных дисперсий) - используется для проверки гипотезы о том, что две популяциии меют равные средние значения.
4. Дисперсионный анализ - направлен на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях.
Слайд 36Непараметрические методы
I. Для непрерывных переменных (данные, полученные на непрерывной шкале:
АД, масса, рост)
U-тест Манна-Уитни (Mann-Whitney U) или тест Манна-Уитни-Вилкоксона (MWW)
Тест
Крускала-Уоллиса (Kruskal-Wallis)
Тест знаковых рангов Вилкоксона (Wilcoxon signedrank)
II. Для дискретных переменных (данные в виде целых чисел: кол-во людей)
точный тест Фишера (англ. Fisher’s exact test)
хиквадрат (χ2) тест (англ. chi-square test); или «хи-квадрат Пирсона» ( с англ. - Pearson’s chisquare)
Слайд 37U-тест Манна-Уитни (Mann-Whitney U)
или тест Манна-Уитни-Вилкоксона (MWW)
U-критерий Манна-Уитни -
используется для сравнения двух независимых выборок по уровню какого-либо признака,
измеренного количественно.
Метод основан на определении того, достаточно ли мала зона перекрещивающихся значений между двумя ранжированными рядами.
Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.
Statistics => Nonparametrics => Comparing to independent samples => Variables (в первом окне выбираем зависимую переменную - возраст; во втором - группирующую переменную - пол) => M-W U test => оцениваем р
(Р должен быть больше 0,05)
Слайд 39Качественная переменная
Количественная переменная
?
Две переменные
Слайд 40Как узнать, будут ли зависимы друг от друга две переменные?
Две
разные переменные зависимы в том случае, если они согласованы.
Слайд 45Величина
100
100
Из случайной выборки у каждого мужчины лейкоцитов больше, чем у
случайно выбранных женщин
Из случайной выборки у каждой женщины лейкоцитов меньше,
чем у случайно выбранных мужчин
Может предсказать зависимость двух переменных при случайно выборке
Слайд 47Надежность (истинность)
100
100
Из случайной выборки у одной женщины лейкоцитов больше, чем
у случайно выбранных мужчин
Из случайной выборки у мужчин лейкоцитов больше,
чем у случайно выбранных женщин, кроме одной
Показывает, распространяется ли данная зависимость на все случайные выборки
Слайд 48Что такое p-уровень (значимость)
Значимость – оценённая мера уверенности в его
«истинности». Р-уровень находится в обратной зависимости от надежности результата. Более
высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными.
Р-уровень
Надежность
Слайд 49100
100
Значимость
Данная зависимость встретилась лишь 5 раз из 100 выборок.
Р-уровень
= 0,05. Связь является значимой лишь в этих 5 случайных
выборках.
Слайд 50Статистическая значимость - мера уверенности в "истинности" результата
Статистическая значимость определяется
значением р-уровня (р-value)
Чем выше р-уровень, тем ниже уровень доверия к
полученным результатам (обратная зависимость)
↑ р-уровень ⇒ ↓ уровень доверия
Р > 0,05 результатам нельзя доверять
р ⩽ 0,05 статистически значимые результаты
Р < 0,01 статистически высокозначимые результаты
Пример: р-уровень - 5% (0,05) показывает, что сделанный при анализе вывод является случайной особенностью с вероятностью 5%. Другими словами, с вероятностью 95% вывод можно распространить на все объекты.