Разделы презентаций


Статистика

Содержание

ПРИЗНАКИ– это единицы совокупности, обладающие определенными свойствами и качествами.О.Ю. Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312 с.

Слайды и текст этой презентации

Слайд 1   Статистика
Подготовили:  студентка 6 курса Четвертакова светлана и студентка 5 курса  Галус

Анна

   СтатистикаПодготовили:  студентка 6 курса Четвертакова светлана и студентка 5 курса  Галус Анна

Слайд 2ПРИЗНАКИ
– это единицы совокупности, обладающие определенными свойствами и качествами.
О.Ю. Реброва.

Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. –

М.: МедиаСфера, 2002. – 312 с.
ПРИЗНАКИ– это единицы совокупности, обладающие определенными свойствами и качествами.О.Ю. Реброва. Статистический анализ медицинских данных. Применение пакета прикладных

Слайд 3КАЧЕСТВЕННЫЕ ПРИЗНАКИ (номинальные)
- это такие признаки, которые не поддаются непосредственному измерению.

КАЧЕСТВЕННЫЕ ПРИЗНАКИ (номинальные)- это такие признаки, которые не поддаются непосредственному измерению.

Слайд 4Разновидностью качественных признаков, которые могут быть отнесены только к двум

противоположным категориям «да – нет», принимающие одно из двух значений

называются дихотомическими.

КАЧЕСТВЕННЫЕ ПРИЗНАКИ

Разновидностью качественных признаков, которые могут быть отнесены только к двум противоположным категориям «да – нет», принимающие одно

Слайд 5ПОРЯДКОВЫЕ ПРИЗНАКИ
- это признаки, которые можно расположить в естественном порядке

(ранжировать), но при этом отсутствует количественная мера расстояния между величинами. 

ПОРЯДКОВЫЕ ПРИЗНАКИ- это признаки, которые можно расположить в естественном порядке (ранжировать), но при этом отсутствует количественная мера

Слайд 6КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИ
– признаки, количественная мера которых четко определена.

КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИ– признаки, количественная мера которых четко определена.

Слайд 8ВИД РАСПРЕДЕЛЕНИЯ
соответствие, устанавливаемое между всеми возможными числовыми значениями случайной величины

и вероятностями их появления в совокупности.  Может быть представлен:
аналитической зависимостью в

виде формулы;
в виде графического изображения;
в виде таблицы.


ВИД РАСПРЕДЕЛЕНИЯсоответствие, устанавливаемое между всеми возможными числовыми значениями случайной величины и вероятностями их появления в совокупности.  Может

Слайд 9О.Ю. Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ

STATISTICA. – М.: МедиаСфера, 2002. – 312 с.

О.Ю. Реброва. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312

Слайд 10ДИСКРЕТНОЕ РАСПРЕДЕЛЕНИЕ
Используются для описания событий с недифференцируемыми характеристиками, определёнными в

изолированных точках. 

ДИСКРЕТНОЕ РАСПРЕДЕЛЕНИЕИспользуются для описания событий с недифференцируемыми характеристиками, определёнными в изолированных точках. 

Слайд 11ДИСКРЕТНОЕ РАСПРЕДЕЛЕНИЕ 

ДИСКРЕТНОЕ РАСПРЕДЕЛЕНИЕ 

Слайд 12БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Описывает распределение частоты события, обладающего постоянной вероятностью появления при многократных

испытаниях. То есть это распределение количества «успехов» в последовательности из некоторого числа независимых случайных

экспериментов, таких, что вероятность «успеха» в каждом из них постоянна.
БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕОписывает распределение частоты события, обладающего постоянной вероятностью появления при многократных испытаниях.  То есть это распределение количества «успехов»

Слайд 13РАСПРЕДЕЛЕНИЕ ПУАССОНА 
Описывает события, при которых с возрастанием значения случайной величины,

вероятность появления ее в совокупности резко уменьшается. Характерно для редких

событий.
РАСПРЕДЕЛЕНИЕ ПУАССОНА Описывает события, при которых с возрастанием значения случайной величины, вероятность появления ее в совокупности резко уменьшается.

Слайд 14НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕ
это распределение случайной вещественной величины, принимающей значения, принадлежащие некоторому промежутку конечной длины,

характеризующееся тем, что плотность вероятности на этом промежутке почти всюду постоянна.
По другому, непрерывной называется случайная величина,

которая может принимать любые значения внутри некоторого интервала (масса, температура, рост)
НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕэто распределение случайной вещественной величины, принимающей значения, принадлежащие некоторому промежутку конечной длины, характеризующееся тем, что плотность вероятности на этом промежутке почти всюду постоянна.По другому,

Слайд 15НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕ

НЕПРЕРЫВНОЕ РАСПРЕДЕЛЕНИЕ

Слайд 16НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ (гауссово, симметричное, колоколообразное)
Описывает совместное воздействие на изучаемое явление

небольшого числа случайно сочетающихся факторов (по сравнению с общей суммой

факторов), число которых неограниченно велико. 
Встречается в природе наиболее часто, поэтому называется «нормальным»
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ  (гауссово, симметричное, колоколообразное)Описывает совместное воздействие на изучаемое явление небольшого числа случайно сочетающихся факторов (по

Слайд 17НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Слайд 19Все статистические показатели делятся  на 3 большие группы:
Меры центральной тенденции

- показывают расположение среднего, типичного значения признака, вокруг которого сгруппированы

остальные наблюдения
Меры рассеяния (меры изменчивости, показатели вариации) - характеризуют значения между отдельными показателями выборки. Позволяют судить о степени однородности полученного множества, и о надежности полученных результатов
Меры связи (меры корреляции) - позволяют изучить взаимосвязь между двумя признаками/переменными
Все статистические показатели делятся  на 3 большие группы:Меры центральной тенденции - показывают расположение среднего, типичного значения признака,

Слайд 20Среднее значение (М) - среднее арифметическое
Медиана (Ме) - средняя точка

распределения
Если кол-во значений нечетное, то Ме - среднее значение в

ранжированном списке
Если кол-во значений четное, то Ме - среднее арифметическое между двумя центральными значениями     
Мода (Мо) - наиболее часто встречающееся значение признака в выборке
                                                    1   2   2   3   3   3   3   4   5   6   7   8   9   

Меры центральной тенденции (меры положения, меры локализации) 

Показывают наиболее типичное значение для данной выборки

Среднее значение (М) - среднее арифметическоеМедиана (Ме) - средняя точка распределенияЕсли кол-во значений нечетное, то Ме -

Слайд 21МЕРЫ РАССЕЯНИЯ  (МЕРЫ ИЗМЕНЧИВОСТИ, ПОКАЗАТЕЛИ ВАРИАЦИИ)

Дисперсия - характеризует, насколько частные значения

отклоняются от средней величины в данной выборке (чем больше дисперсия,

тем больше "разброс данных"). 
Среднее квадратическое (стандартное) отклонение (СКО, s, SD) -  позволяет оценить, насколько бОльшая часть результатов данного исследования отклоняется от среднего значения.
Стандартная ошибка (SE-standard error) - оценка возможного отличия между значением среднего в анализируемой выборке и истинным средним, характерным для всей популяции. С увеличением выборки уменьшается данная ошибка, так как чем больше наблюдений, тем больше вероятность, что полученные данные близки к истинным.

Показывают разброс значений признака в выборке​

МЕРЫ РАССЕЯНИЯ  (МЕРЫ ИЗМЕНЧИВОСТИ, ПОКАЗАТЕЛИ ВАРИАЦИИ)Дисперсия - характеризует, насколько частные значения отклоняются от средней величины в данной

Слайд 22Меры рассеяния (меры изменчивости, показатели вариации)
Размах - разность максимального и

минимального значения (Недостаток: не характеризует распределение целиком, а только крайние

значения)
Интерпроцентильный размах/интервал - значения каких-либо процентилей распределения, например, 10-го и 90-го
Интерквартильный размах/интервал - значения 25-го и 75-го процентилей (такой интервал независимо от вида распределения включает 50% значений признака в выборке)

Показывают разброс значений признака в выборке

Меры рассеяния  (меры изменчивости, показатели вариации)Размах - разность максимального и минимального значения  (Недостаток: не характеризует

Слайд 23Понятие о квантилях
  Квантили (ед.ч. - Квантиль) - величины, разделяющие

ранжированный ряд на равные части. Разновидности квантилей:
1. Медиана - делит на 2

равные части (пополам)
2. Квартили - делит  на 4 равные части 
3. Децили - делит на 10 равных частей
4. Перцентили - делит на 100 равных частей

Понятие о квантилях  Квантили (ед.ч. - Квантиль) - величины, разделяющие  ранжированный ряд на равные части.  Разновидности

Слайд 24Подробнее о квартилях
Квартили делят ранжированный ряд на 4 равные части
Нижний

(первый) квартиль Q1 - это медиана левой половины упорядоченного ряда.

25% значений меньше Q1

Верхний (третий) квартиль Q3 - медиана правой половины упорядоченного ряда. 25% значений больше Q3

Второй квартиль Q2 - медиана
Подробнее о квартиляхКвартили делят ранжированный ряд на 4 равные частиНижний (первый) квартиль Q1 - это медиана левой

Слайд 25Анализ количественных признаков
Первый этап - анализ вида распределения
От вида распределения

зависят:
Выбор способа описания центральной тенденции
Выбор способа описания изменчивости значений признака 
Выбор методов дальнейшего

анализа данных

Анализ количественных признаковПервый этап - анализ вида распределения От вида распределения зависят:Выбор способа описания центральной тенденцииВыбор способа описания

Слайд 26Как определить вид распределения?
4 способа с помощью программы STATISTICA:
Качественные:
1.  Построение

гистограммы (Graphs =>  Histograms=> "выбираем необходимые признаки" => OK)
2. График

функции распределения в специальных координатах (Graphs => 2D Graphs => Probability-Probability plots => => Distribution – normal => "выбираем необходимые признаки" => OK)

Слайд 27     Количественные:
3. Оценка симметричности распределения признаков        

                   

                              СКО<(M/2) (Среднее квадратическое отклонение должно быть меньше половины среднего арифметического) 
4. Проверка статистических гипотез (используется крайне редко):
Нулевая гипотеза (H0) - утверждает, что распределение исследуемого признака в генеральной совокупности соответствует закону нормального распределения
Альтернативная гипотеза (H1) - утверждает, что распределение исследуемого признака в генеральной совокупности не соответствует закону нормального распределения
     Количественные:3. Оценка симметричности распределения признаков                    

Слайд 283 критерия: 
Колмогорова - Смирнова (λ-критерий):  применяется, если среднее значение и

среднее квадратическое отклонение известны априори
Лиллиефорса: применяется, когда среднее значение и среднее

квадратическое отклонение не известны априори, а вычисляются по выборке
Шапиро-Уилка: применяется так же, если известны среднее значение и среднее квадратическое отклонение априори, однако данный критерий предпочтителен, так как является самым "мощным", точным и универсальным


3 критерия: Колмогорова - Смирнова (λ-критерий):  применяется, если среднее значение и среднее квадратическое отклонение известны априориЛиллиефорса: применяется, когда среднее

Слайд 29Определение критериев в программе STatistica
Statistics => Basic Statistics/Tables => =>Descriptive

statistics => Normality (здесь же, но во вкладке Advanced можно

высчитать моду, медиану и среднее значение) => "выбираем критерии" => => Histograms
Далее оцениваем гистограмму и значение р


Слайд 30Интерпретация результатов
После использования программы STATISTICA будут получены результаты анализа распределения

каждого признака - р. 
Если р < 0,05  =>  принимается альтернативная

гипотеза -> распределение отличается от нормального -> далее будут использованы непараметрические методы анализа данных
Если р ⩾ 0,05  =>  принимается нулевая гипотеза -> нормальное распределение -> далее будут использованы параметрические методы анализа данных 
Р никак не отражает величину различий между группами, поэтому часто рассчитывают ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ (ДИ)              Доверительный интервал - диапазон значений вокруг истинного значения. ДИ с определённой вероятностью включает в себя истинные значения в генеральной совокупности.  
Интерпретация результатовПосле использования программы STATISTICA будут получены результаты анализа распределения каждого признака - р. Если р < 0,05 

Слайд 31КАКИЕ ДАННЫЕ НЕОБХОДИМО УКАЗЫВАТЬ ПРИ ОПИСАНИИ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ?
Число наблюдений (объектов

исследования)
Среднее значение
Среднее квадратическое отклонение (СКО)
Число наблюдений (объектов исследования)
Медиану
Верхний и нижний

квартили

Для описания распределения, отличающегося от нормального:

Для описания нормального распределения:

КАКИЕ ДАННЫЕ НЕОБХОДИМО УКАЗЫВАТЬ ПРИ ОПИСАНИИ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ?Число наблюдений (объектов исследования)Среднее значениеСреднее квадратическое отклонение (СКО)Число наблюдений (объектов

Слайд 32При описаниии количественных признаков следует обязательно указывать число наблюдений (объектов

исследования) - N
Пример:
        Исследуют группу из 1600

человек по 2-ум признакам: вес и анализ крови.         По каким-то причинам в ходе исследования не была получена информация о весе 10-ти объектов исследования и не были получены результаты анализа крови у 16-ти объектов. Следовательно, мы должны указать, что: 
Для признака ВЕС n=1590
Для признака АНАЛИЗ КРОВИ n=1584

В данном случае разница допустима (это нормально)
При описаниии количественных признаков следует обязательно указывать число наблюдений  (объектов исследования) - NПример:       

Слайд 33
Статистические методы делят на:
Параметрические (основываются на оценке параметров: среднее значение или стандартное отклонение; применяются

для количественных признаков, если наверняка известно, что вид распределения - нормальный)
Непараметрические

(не связаны напрямую с оценкой параметров; могут применяться для количественных признаков при любом виде распределения + для качественных признаков)
Так как непараметрические методы можно использовать при любом виде распределения, то их используют гораздо чаще


Второй этап анализа - выбор статистического метода

Статистические методы делят на:Параметрические (основываются на оценке параметров: среднее значение или стандартное отклонение; применяются для количественных признаков, если наверняка известно, что

Слайд 34Сравнение параметрических и непараметрических методов
           

  К преимуществам непараметрических методов можно отнести следующие:
могут быть использованы,

когда характеристики популяции, из которой делается выборка, частично неизвестны;
бόльшая мощность;
относительная несложность вычислений (в большинстве случаев);
менее жесткие начальные допущения

             Недостатками непараметрических методов являются:
меньшая эффективность, чем у параметрических методов;
меньшая специфичность;
потенциальная трудоемкость при применении к большим массивам данных.

Сравнение параметрических и непараметрических методов              К преимуществам непараметрических методов можно отнести

Слайд 35Параметрические методы
1. Непарный t-тест (тест Стьюдента) - с его помощью

проводят проверку нулевой гипотезы ("H0") об отсутствии различий средних значений переменной в

двух независимых выборках (историческое значение)
2. Если данные зависимые (повторные наблюдения за одним и тем же человеком или исследование людей по парам), то рекомендуется применять парный t-тест
3. T-тест Уэлча (t-критерий неравных дисперсий) - используется для проверки гипотезы о том, что две популяциии меют равные средние значения.
4. Дисперсионный анализ - направлен на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях.

Параметрические методы1. Непарный t-тест (тест Стьюдента) - с его помощью проводят проверку нулевой гипотезы (

Слайд 36Непараметрические методы
I. Для непрерывных переменных (данные, полученные на непрерывной шкале:

АД, масса, рост)
U-тест Манна-Уитни (Mann-Whitney U) или тест Манна-Уитни-Вилкоксона (MWW) 
Тест

Крускала-Уоллиса (Kruskal-Wallis)
Тест знаковых рангов Вилкоксона (Wilcoxon signedrank)
II. Для дискретных переменных (данные в виде целых чисел: кол-во людей)
точный тест Фишера (англ. Fisher’s exact test)
хиквадрат (χ2) тест (англ. chi-square test); или «хи-квадрат Пирсона» ( с англ. - Pearson’s chisquare)
Непараметрические методыI. Для непрерывных переменных (данные, полученные на непрерывной шкале: АД, масса, рост)U-тест Манна-Уитни (Mann-Whitney U) или

Слайд 37U-тест Манна-Уитни (Mann-Whitney U) или тест Манна-Уитни-Вилкоксона (MWW) 

U-критерий Манна-Уитни -

используется для сравнения двух независимых выборок по уровню какого-либо признака,

измеренного количественно. 
Метод основан на определении того, достаточно ли мала зона перекрещивающихся значений между двумя ранжированными рядами.
Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.

Statistics => Nonparametrics => Comparing to independent samples => Variables (в первом окне выбираем зависимую переменную - возраст; во втором - группирующую переменную - пол) => M-W U test => оцениваем р 
(Р должен быть больше 0,05)
U-тест Манна-Уитни (Mann-Whitney U)  или тест Манна-Уитни-Вилкоксона (MWW) U-критерий Манна-Уитни - используется для сравнения двух независимых выборок

Слайд 39Качественная переменная
Количественная переменная
?
Две переменные 

Качественная переменнаяКоличественная переменная?Две переменные 

Слайд 40Как узнать, будут ли зависимы друг от друга две переменные? 
Две

разные переменные зависимы в том случае, если они согласованы. 

Как узнать, будут ли зависимы друг от друга две переменные? Две разные переменные зависимы в том случае, если они

Слайд 441 выборка случайных переменных

1 выборка случайных переменных

Слайд 45Величина
100
100
Из случайной выборки у каждого мужчины лейкоцитов больше, чем у

случайно выбранных женщин
Из случайной выборки у каждой женщины лейкоцитов меньше,

чем у случайно выбранных мужчин

Может предсказать зависимость двух переменных при случайно выборке

Величина100100Из случайной выборки у каждого мужчины лейкоцитов больше, чем у случайно выбранных женщинИз случайной выборки у каждой

Слайд 462 выборка случайных переменных

2 выборка случайных переменных

Слайд 47Надежность (истинность)
100
100
Из случайной выборки у одной женщины лейкоцитов больше, чем

у случайно выбранных мужчин
Из случайной выборки у мужчин лейкоцитов больше,

чем у случайно выбранных женщин, кроме одной

Показывает, распространяется ли данная зависимость на все случайные выборки

Надежность (истинность)100100Из случайной выборки у одной женщины лейкоцитов больше, чем у случайно выбранных мужчинИз случайной выборки у

Слайд 48Что такое p-уровень (значимость)
Значимость – оценённая мера уверенности в его

«истинности». Р-уровень находится в обратной зависимости от надежности результата. Более

высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. 

Р-уровень

Надежность

Что такое p-уровень (значимость)Значимость – оценённая мера уверенности в его «истинности». Р-уровень находится в обратной зависимости от

Слайд 49100
100
Значимость
Данная зависимость встретилась лишь 5 раз из 100 выборок. Р-уровень

= 0,05. Связь является значимой лишь в этих 5 случайных

выборках.
100100ЗначимостьДанная зависимость встретилась лишь 5 раз из 100 выборок.  Р-уровень = 0,05. Связь является значимой лишь

Слайд 50Статистическая значимость - мера уверенности в "истинности" результата
Статистическая значимость определяется

значением р-уровня (р-value)
Чем выше р-уровень, тем ниже уровень доверия к

полученным результатам (обратная зависимость)
↑ р-уровень     ⇒     ↓ уровень доверия
Р > 0,05  результатам нельзя доверять
р ⩽ 0,05 статистически значимые результаты
Р < 0,01 статистически высокозначимые результаты
Пример: р-уровень - 5% (0,05) показывает, что сделанный при анализе вывод является случайной особенностью с вероятностью 5%. Другими словами, с вероятностью 95% вывод можно распространить на все объекты.

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика