Слайд 1ВВЕДЕНИЕ В СТАТАНАЛИЗ
О.А. Клиценко
Слайд 2СТАТИСТИКА – наука о сборе, представлении и анализе данных
БИОСТАТИСТИКА (биометрия)
– статистика в приложении к демографии, эпидемиологии, клиническим исследованиям
Слайд 3Из теории информации
Данные - функциональные значения информационных кодов для действий
аппарата их интерпретации, абстрагированные от природы симметричных взаимодействий лежащих в
основе переноса этих кодов.
Слайд 4Диссертация –
«информационный продукт»
Слайд 5Процесс исследования
1. Замысел, основная идея исследования (из предмета, целей,
задач) (II):
есть эффект - нет эффекта;
выше – ниже;
связь есть –
связи нет;
причина – следствие.
2. Дизайн исследования (план, схема работы):
Единица исследования;
Ее характеристики;
Группы наблюдений, способы их формирования;
Этапы наблюдений и требования к ним (динамика).
Окончательная детализация гипотез(III):
что предполагаем об отдельных параметрах в конкретных группах, подгруппах;
что предполагаем о соотношениях.
3. Выбор методов и методик исследования (целесообразность, возможность).
Слайд 6Процесс исследования
4. Информация:
состав, структура;
способ фиксации;
точность измерений;
правила кодирования;
объем выборок, размеры групп.
5.
Сбор данных.
6. Анализ.
7. Интерпретация результатов (возможен возврат до уровня предмета исследования).
Слайд 7Итог защиты – «признать выводы обоснованными»
Диссертация – описание процесса:
актуальность проблемы
→ цель → задачи →информация →анализ →выводы
Информация – что,
в каком объеме, как собираем + процедуры сбора
Слайд 8Гипотезы - задачи
Интерпретационная – что это?
Описательная – каков этот объект?
Систематизирующая
– упорядоченность в описании, классификации, типологии, эмпирическом обобщении.
Объяснительная – почему?
Экстраполяционная
– в какой степени это имеет значение для другого места, времени и объекта.
Методологическая – как это лучше изучать.
Слайд 9Цель,
задачи
Обоснование
Выводы, практические рекомендации
Научная новизна
Слайд 10Виды клинических задач
Диагностика состояний. Верификация!!!!!!
Возникновение, течение болезни.
Этиология и патогенез. Возможности
измерений.
Прогнозирование состояний. ЧТО??????
Оценка методов профилактики, лечения, реабилитации.
Слайд 11Массивы данных
Состав;
Структура;
Типы данных – правила фиксации, способы кодирования.
Дизайн:
Тип исследования.
Конкретные
группы: суть, размер, способ формирования.
Слайд 12Требования к информации
К структуре массива (зависимые и независимые переменные);
По
типам данных (max количественных);
К правилам кодирования;
К точности измерений;
По
способам фиксации сведений;
Независимые и связные выборки;
Объем выборок, размеры групп, допустимость пропусков
Слайд 13Принципы формирования массива
Минимальная достаточность;
Что обеспечит новизну?;
Единая по одним и
тем же объектам исследования таблица;
Набор показателей «под задачи»;
Показатель
→ набор его значений.
1 показатель – 1 столбик;
Строка – все сведения одного и того же объекта;
Слайд 14Что может статистика?
Статистическое описание, оценивание
Сравнение групп, этапов, проверка гипотез
Статистическое моделирование
Придать
исследованию, анализу наукообразность
Слайд 15Что статистика не может?
Улучшить выборку
Оценить неизвестные признаки
Исправить ошибки в измерениях
Дать
интерпретацию результатов
Слайд 16Этапы статистического анализа
Постановка задачи
Подготовка данных к анализу
Проверка данных
Обоснованный выбор методов
статистического анализа
Анализ.
Интерпретация результатов
Представление результатов
Слайд 17I. Постановка задачи
Garbage in, garbage out
Никакая статистическая обработка данных
не может устранить неизвестную систематическую ошибку
Проверка гипотез (первичный анализ данных)
или выдвижение гипотез (вторичный анализ - post hoc analysis - data dredging)
Слайд 18II. Подготовка данных
Разбиение области значений на интервалы, округление и точность
Предварительные
расчеты
Использование стандартных шкал для клинических признаков
Пропущенные значения
Выбор объекта наблюдений
Контрольные
группы
Интервал нормы
Слайд 19Подготовка данных
Импорт из баз данных, текстовых файлов или электронных таблиц.
Непосредственный
ввод
Верификация данных
Слайд 20III. Проверка данных
Ошибки набора
Артефакты
Выпадающие значения
Слайд 21Типы информации
Массовые исследования (десятки тысяч наблюдений и сотни показателей).
Результаты отдельных
исследований (наблюдения за группами объектов).
Количественные и качественные признаки. Группирующие переменные.
Слайд 22IV. Обоснованный выбор методов статистического анализа
Типы данных
Вид распределения
Одно- и двусторонние
тесты
Связанные и несвязанные выборки
Проблема множественных сравнений (алгоритмы, выбор уровня Р)
Хи-квадрат
или ТКФ
Корреляция или регрессия
Слайд 23VI. Интерпретация результатов
Отсутствие достоверных результатов не является подтверждением нулевой гипотезы
Корреляционная
связь – не причинно-следственная
Валидизация многомерных моделей
Data dredging (post hoc analysis)
Соотношение
статистической и клинической, эпидемиологической и другой предметной значимости
Очень большие и очень маленькие выборки
Суррогатные исходы и конечные точки
Слайд 24VII. Представление результатов
«Единые требования к статьям, представляемым в международные биомедицинские
журналы» (Межд. журнал мед. практики, 1997, N 5, с. 53-64)
Число
наблюдений для каждого признака
Описательная статистика -
M+SD, Me (LQ;UQ), % (n/N)
Точность результатов (оценки, Р)
ДИ (для основных результатов исследования) и Р
Указание на использованные стат. методы
Указание на использованный стат. пакет
Слайд 25V. Основные этапы анализа данных
Подготовка данных: заполнение таблиц, импорт, проверка
и сортировка.
Разведочный анализ: сопоставимость групп!!!, описательные статистики, графические методы.
Сравнение групп,
оценка динамики: параметрические и непараметрические методы.
Выявление связей: корреляционный, факторный анализ.
Анализ зависимостей. Построение линейных и нелинейных моделей.
Слайд 26Разведочный анализ
Нормальное
Можно применять стандартные методы:
t-критерии и дисперсионный анализ.
Определение характера
распределений переменных, визуальный анализ зависимостей и идентификация возможных выбросов.
Отличное от
нормального
(или малая выборка)
Необходимо использовать непараметрические критерии.
Сопоставимость групп: по полу, возрасту, особенностям патологии. Определяется дизайном работы
Слайд 27Описание данных
Основные дескриптивные статистики.
Дескриптивные статистики для группированных данных.
Графики для
дескриптивных статистик.
Слайд 30Описание данных
Возраст Stem-and-Leaf Plot (диаграмма ветвей и листьев)
Слайд 32Моделирование
Корреляционный, регрессионный, факторный анализ.
Классификационные деревья, нейронные сети.
Временные ряды,
анализ выживаемости.
Слайд 33Для графических объектов
Таблицы с цифрами намного хуже диаграмм, графиков, схем.
Секторные
круговые диаграммы – сопоставление частей и целого.
Столбиковые – сравнение групп.
Графики
линейные – отображение динамики, но не более 5-ти линий на одном поле.
Необходимо гораздо чаще демонстрировать корреляционные поля и box&whisker plot – наглядность, полнота.
Слайд 36Секторные круговые диаграммы – сопоставление частей и целого.
Слайд 37Секторные круговые диаграммы – сопоставление частей и целого.
Ж – 65
чел
М – 45 чел
Слайд 38Секторные круговые диаграммы – сопоставление частей и целого.
Слайд 404. Графики линейные – отображение динамики,
Слайд 41box&whisker plot – наглядность, полнота.
Слайд 42box&whisker plot – наглядность, полнота.
Слайд 43box&whisker plot – наглядность, полнота.
Слайд 44box&whisker plot – наглядность, полнота.
Слайд 45box&whisker plot – наглядность, полнота.
Слайд 48BMDP, SAS
Statistica for Windows, SPSS, Stadia
Stata, Statgraphics, EPI, MEDcalc
Статистические системы