Слайд 1Статистические методы обработки данных научного исследования
Слайд 21 этап. Формулировка цели и задач исследования. Обоснование актуальности (литературный
обзор)
2 этап. Определение дизайна исследования
3 этап. Сбор данных
4 этап. Статистическая
обработка полученных данных
Методология проведения научного исследования
Слайд 3Порядок преобразований первоначально полученной информации:
Упорядочивание и группировка данных исследования
Составлние
таблицы распределения данных (матрицы), доступной для обработки в специализированных приложениях
Проведение
статистического анализа
Формулировка выводов
Слайд 4Статистические программы:
1. Универсальные пакеты, или пакеты общего назначения (SPSS, STATA,
STATISTICA, S-PLUS, Stadia, STATGRAPHICS, SYSTAT, Minitab). Эти пакеты не ориентированы
на специфическую предметную область и могут применяться для анализа данных из различных областей деятельности.
2. Профессиональные пакеты (например, SAS, BMDP). Позволяют работать со сверхбольшими объемами данных, применять узкоспециализированные методы анализа, создавать собственную систему обработки данных.
3. Специализированные пакеты (например, BioStat, MESOSAUR, DATASCOPE). Предназначены для анализа с использованием ограниченного числа статистических методов или применимы к использованию в отдельно взятой предметной области.
Слайд 5SРSS (Statistical Package for the Social Sciences)
Является одним из лидирующих программных продуктов
в области статистического анализа.
Базовый модуль позволяет осуществлять управление данными и содержит наиболее распространенные методы
статистического анализа данных: проведение описательной статистики; построение линейных и нелинейных моделей; осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций; построение графиков; подготовка отчетов и пр.
Слайд 6Достоинства SPSS:
развитый аппарат статистического анализа;
универсальность;
широкий набор статистических и графических процедур;
высокая
скорость вычислений, простой и удобный интерфейс;
детальная контекстно-ориентированная справочная система;
наличие версий
продукта на различных языках;
совместимость с операционными системами Windows, Mac, Linux;
наличие значительного количества литературы по работе с пакетом.
Слайд 7Недостатки SPSS:
относительно высокие системные требования к ПК (процессор 2 GHz
или более, минимум 2 Гб свободного места на жестком диске,
4 Гб оперативной памяти или более);
высокая цена по сравнению со статистическими пакетами аналогичного уровня (стоимость покупки для индивидуального пользования сроком на год составляет более 1000 USD).
Слайд 8Подготовка данных.
1. Исходные данные
Слайд 9Типы данных:
Количественные - значения переменных, которые регистрируются с помощью чисел,
имеющих содержательный смысл (рост, вес, АД, ЧСС).
Качественные:
Номинальные – не поддающиеся непосредственному
измерению (пол, профессия, семейное положение).
Порядковые или ранжируемые – эти признаки можно расположить в определенном порядке, но при этом отсутствует количественная мера расстояния между величинами (стадия болезни, самооценка состояния здоровья).
Слайд 10Подготовка данных.
2. Матрица данных
Слайд 17Имя переменной
Имена переменных могут содержать буквы и цифры.
Допускаются специальные
символы _ (подчеркивание), . (точка), а также символы @ и
#.
Не разрешаются пробелы и специальные символы, такие как !, ?," и *.
Имя переменной должно начинаться с буквы.
Последний символ имени не может быть точкой или знаком подчеркивания.
Слайд 22Метка переменной и значение
Метка переменной — это название, позволяющая описать
переменную более подробно. Метка переменной может содержать до 256 символов.
В метках переменных различаются прописные и строчные буквы. Они отображаются в том виде, в каком были введены.
Значение — это название, позволяющее более подробно описать возможные значения переменной. Так, например, в случае переменной пол можно задать метку "мужской" для значения «1» и метку "женский" для значения «2»
Слайд 25Пропущенные значения
В SPSS допускаются два вида пропущенных значений:
Пропущенные значения,
определяемые системой: если в матрице данных есть незаполненные численные ячейки.
Этот факт отображается в матрице данных с помощью запятой (,).
Пропущенные значения, задаваемые пользователем: если в определенных случаях у переменных отсутствуют значения, пользователь может объявить эти значения как пропущенные. Пропущенные значения можно исключить из последующих вычислений.
Слайд 27Ширина столбца и выравнивание
Ширина столбца - поле определяет ширину, которую
будет иметь в таблице данный столбец при отображении значений.
Выравнивание
- здесь можно задать вид выравнивания значений (по правому краю, пo левому краю и по центру).
Слайд 28Шкала
По умолчанию принимается количественная шкала измерения.
Если вы загружаете файлы,
созданные в предыдущих версиях SPSS, или шкала измерений не определяется
явно, SPSS вначале автоматически предполагает количественную шкалу.
Здесь можно задать шкалу переменной, которая может быть номинальной, порядковой или количественной.
Слайд 29Предварительные условия для проведения статистического теста
Необходимо выяснить следующие моменты:
К какой
статистической шкале относится данная переменная?
Подчиняются ли данные закону нормального распределения?
Являются
ли сравниваемые выборки зависимыми или независимыми?
Слайд 30Номинальная шкала
Возможности обработки переменных, относящихся к номинальной шкале очень ограничены.
В основном такие переменные подлежат только частотному анализу.
Переменные, относящиеся
к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных.
Слайд 31Порядковая шкала
Кроме частотного анализа, переменные с порядковой шкалой допускают также
вычисление определенных статистических характеристик, таких как медианы.
Если должна быть
установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.
Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты.
Слайд 32Количественная шкала
Переменные, у которых разность (интервал) между двумя значениями имеет
эмпирическую значимость, относятся к количественной шкале.
Могут обрабатываться любыми статистическим
методами без ограничений.
Слайд 33Нормальное распределение
Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к
количественной шкале, исходят из гипотезы, что их значения подчиняются нормальному
распределению.
Колокол Гаусса – кривая
нормального распределения
Слайд 34Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не
встречаются
Перед применением любого метода, который предполагает существование нормального распределения,
наличие последнего нужно проверять в первую очередь.
Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки.
Слайд 37Критерий Колмогорова-Смирнова
Если асимптотическая значимость больше 0,05, то существенного отличия от
нормальности не обнаружено
Слайд 38Зависимость и независимость выборок
Чаще всего зависимые выборки возникают, когда измерение
проводится для одной выборки в разные моменты времени (до начала
лечения, через месяц, 3 месяца, 6 месяцев и т.п.).
Если закономерное и однозначное соответствие между выборками невозможно, эти выборки являются независимыми. Независимые выборки содержат разные наблюдения (например, относящиеся к различным пациентам.
Слайд 39Вероятность ошибки р
Существует общепринятая терминология, которая относится к доверительным интервалам
вероятности.
Различия между показателями с вероятностью ошибки р ≤ 0,05.
называются значимыми; различия с вероятностью ошибки р ≤ 0,01 - очень значимыми, а различия с вероятностью ошибки р ≤ 0,001 - максимально значимыми.
Слайд 40Доверительные интервалы вероятности ошибки р
Слайд 41Сохранение файла данных
По умолчанию SPSS сохраняет файл данных в текущем
каталоге с расширением .sav