Лекционный курс по дисциплине: Статистические методы обработки данных

Содержание

1. Лекционный курс по дисциплине: Статистические методы обработки данных
2. Шкалы измеренийНоминальная шкала (шкала наименований). Эта шкала
3. Математическое ожиданиеЕсли совокупность случайных величин задана в
4. ДисперсияЧисловой характеристикой, показывающей степень разброса значений случайной величины относительно математического ожидания, называется дисперсия
5. Среднеквадратическое отклонениеПоскольку дисперсия имеет размерность квадрата случайной
6. Выборочное среднее, дисперсия и среднеквадратическое отклонениеВыборочное среднее,
7. Понятие закона распределенияПолное описание случайной величины дается
8. Задание закона распределенияЗакон распределения случайной величины можно
9. Нормальное распределениеоно симметрично относительно mимеет максимум равныймонотонно
10. Нормальное распределениеФункция распределения, показывающая вероятность случайной величине принять значение меньшее x, определяется выражением
11. Нормальное распределение
12. Нормальное распределение
13. Нормальное распределение
14. Доверительная вероятность при нормальном распределенииЕсли случайная величина
15. Доверительная вероятность при нормальном распределении
16. Распределение 2
17. Распределение 2
18. Распределение Стьюдента
19. Распределение Стьюдента
20. Проверка статистических гипотезДля того чтобы иметь основания
21. Здесь: m ─ число значений, принятых случайной
22. Непараметрический критерий Вилкоксона для проверки однородности двух
23. Ранги и ранжированиеТрудности в назначении рангов возникают,
24. Непараметрический критерий ВилкоксонаВ критерии Вилкоксона в качестве
25. Непараметрический критерий ВилкоксонаДля проверки с уровнем значимости
26. Критерий Вилкоксона для проверки однородности двух зависимых
27. Критерий Вилкоксона для проверки однородности двух зависимых
28. Критерий Вилкоксона для проверки однородности двух зависимых
29. Однофакторный дисперсионный анализ. Проверка гипотезы о влиянии
30. Проверка гипотезы о влиянии фактора на исследуемую величинуОценка генерального среднегоНесмещенная оценка дисперсии генеральной совокупности
31. Проверка гипотезы о влиянии фактора на исследуемую
32. Проверка гипотезы о влиянии фактора на исследуемую
33. Проверка гипотезы о влиянии фактора на исследуемую
34. Проверка гипотезы о влиянии фактора на исследуемую
35. Проверка гипотезы о влиянии фактора на исследуемую
36. Двухфакторный дисперсионный анализ. Виды взаимосвязи между двумя
37. Виды взаимосвязи между двумя факторамиДва фактора A
38. Виды взаимосвязи между двумя факторамиФактор B группируется
39. Двухфакторный дисперсионный анализ с пересечением уровнейРассматривая совокупность
40. Двухфакторный дисперсионный анализ с пересечением уровнейВходящую в
41. Двухфакторный дисперсионный анализ с пересечением уровнейхарактеризует эффект взаимодействия факторовостаточная сумма квадратов
42. Двухфакторный дисперсионный анализ с пересечением уровнейС учетом
43. Двухфакторный дисперсионный анализ с пересечением уровнейГипотеза H0
44. Двухфакторный дисперсионный анализ с пересечением уровнейГипотеза об
45. Двухфакторный дисперсионный анализ с пересечением уровнейРезультаты дисперсионного анализа представляют следующей таблицей
46. Фактор B группируется фактором A, если каждый
47. Двухфакторный дисперсионный анализ с группировкой уровнейРезультаты дисперсионного анализа оформляются в виде следующей таблицы
48. Двухфакторный дисперсионный анализ с группировкой уровнейСтатистики для
49. Задачи корреляционного анализаВ математическом анализе зависимость между
50. Задачи корреляционного анализаТаким образом задача корреляционного анализа
51. Измерители парной статистической связи. Корреляционное отношение
52. Измерители парной статистической связи. Корреляционное отношение
53. Измерители парной статистической связи В общем
54. Измерители парной статистической связи Таким образом,
55. Регрессионный анализ
56. Основные понятия регрессионного анализа Для математического описания
57. Простая линейная регрессия Простейшей моделью регрессии является
58. Простая линейная регрессия Для нахождения оценок параметров
59. Простая линейная регрессия Для минимизации D приравняем
60. Простая линейная регрессия Решение этих двух уравнений дает:
61. Выражения для оценок параметров a и b можно представить также в виде:Простая линейная регрессия
62. Простая линейная регрессия Тогда эмпирическое уравнение регрессионной прямой Y на X можно записать в виде:
63. Несмещенная оценка дисперсии σ2 отклонений значений yi
64. Проверка значимости линии регрессии Найденная оценка b
65. Проверка значимости линии регрессии Вычисления по проверки значимости регрессии проводят в следующей таблице дисперсионного анализа
66. Проверка адекватности линейной модели регрессии Под адекватностью
67. Коэффициент детерминации Иногда для характеристики качества линии
68. Максимальное значение R2 =
69. Применительно к простой линейной регрессииОтметим, что коэффициент
70. Сравнение двух линий регрессии Часто
71. Сравнение двух линий регрессии Если
72. Сравнение двух линий регрессии Если
73. Сравнение двух линий регрессии Аналогично
74. Сравнение двух линий регрессии Таким
75. Множественная линейная регрессияМодель множественной линейной регрессии имеет
76. Множественная линейная регрессияДля получения оценок параметров b0,
77. Множественная линейная регрессияПриравняв нулю частные производныепосле упрощений получается следующая система нормальных уравнений для нахождения оценок параметров:
78. Множественная линейная регрессияПусть b – вектор-столбец размера
79. Множественная линейная регрессияТогда уравнение модели регрессии можно
80. Множественная линейная регрессияНесмещенной оценкой дисперсии является:Дисперсионный анализ множественной линейной регрессии проводится в следующей таблице:
81. Скачать презентанцию

Шкалы измеренийНоминальная шкала (шкала наименований). Эта шкала используется только для того, чтобы отнести объект или индивидуум в определенный класс (Распределения учащихся по классам, по половому признаку, по месту жительства, по видам

Главная
Разное
Лекционный курс по дисциплине: Статистические методы обработки данных

Слайды и текст этой презентации

Слайд 1Лекционный курс по дисциплине: «Статистические методы обработки данных»
Что нужно знать, чтобы

получить на экзамене от 4 до 9 баллов.

Лекционный курс по дисциплине: «Статистические методы обработки данных»Что нужно знать, чтобы получить на экзамене от 4 до

Слайд 2Шкалы измерений
Номинальная шкала (шкала наименований). Эта шкала используется только для

того, чтобы отнести объект или индивидуум в определенный класс (Распределения

учащихся по классам, по половому признаку, по месту жительства, по видам спорта)
Порядковая шкала. Эта шкала в дополнение к функции отнесения объектов в определенный класс также упорядочивает классы по степени выраженности заданного свойства (учащихся ранжировать по количеству правильно выполненных тестовых заданий)
Интервальная шкала. Эта шкала позволяет не только классифицировать и упорядочивать объекты и индивидуумы, но и количественно оценивать различие между классами (Шкалы на большинстве физических приборов Шкала коэффициента интеллекта IQ)
Шкала отношений. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета (отношений являются меры длины (м, см и т. д.) и массы (кг, г и т. д.). Предмет длиной 100 см вдвое длиннее предмета длиной 50 см.)

Шкалы измеренийНоминальная шкала (шкала наименований). Эта шкала используется только для того, чтобы отнести объект или индивидуум в

Слайд 3Математическое ожидание
Если совокупность случайных величин задана в виде набора дискретных

значений, то математическое ожидание случайной величины определяется как среднее значение

по выборке:

Математическое ожиданиеЕсли совокупность случайных величин задана в виде набора дискретных значений, то математическое ожидание случайной величины определяется

Слайд 4Дисперсия
Числовой характеристикой, показывающей степень разброса значений случайной величины относительно математического

ожидания, называется дисперсия

ДисперсияЧисловой характеристикой, показывающей степень разброса значений случайной величины относительно математического ожидания, называется дисперсия

Слайд 5Среднеквадратическое отклонение
Поскольку дисперсия имеет размерность квадрата случайной величины, то для

характеристики меры рассеяния значений случайной величины относительно математического ожидания пользуются

среднеквадратическим отклонением σ, равным значению квадратного корня из дисперсии:

Среднеквадратическое отклонениеПоскольку дисперсия имеет размерность квадрата случайной величины, то для характеристики меры рассеяния значений случайной величины относительно

Слайд 6Выборочное среднее, дисперсия и среднеквадратическое отклонение
Выборочное среднее, представляющее собой оценку

математического ожидания генеральной совокупности:
Выборочная дисперсия, служащая несмещенной оценкой дисперсии генеральной

совокупности:

Выборочное среднеквадратическое (стандартное) отклонение:

Выборочное среднее, дисперсия и среднеквадратическое отклонениеВыборочное среднее, представляющее собой оценку математического ожидания генеральной совокупности:Выборочная дисперсия, служащая несмещенной

Слайд 7Понятие закона распределения
Полное описание случайной величины дается законом распределения, который

устанавливает зависимость между возможными значениями случайной величины и их вероятностями

Понятие закона распределенияПолное описание случайной величины дается законом распределения, который устанавливает зависимость между возможными значениями случайной величины

Слайд 8Задание закона распределения
Закон распределения случайной величины можно задать в виде

графика, таблицы или аналитического выражения:
P = f(x)

Слайд 9Нормальное распределение
оно симметрично относительно m

имеет максимум равный

монотонно убывает при возрастании

Характеристики распределения Гаусса:
Нормальное распределение величины x описывается следующей функцией:

Нормальное распределениеоно симметрично относительно mимеет максимум равныймонотонно убывает при возрастании Характеристики распределения Гаусса:Нормальное распределение величины x описывается

Слайд 10Нормальное распределение
Функция распределения, показывающая вероятность случайной величине принять значение меньшее

x, определяется выражением

Нормальное распределениеФункция распределения, показывающая вероятность случайной величине принять значение меньшее x, определяется выражением

Слайд 11Нормальное распределение

Слайд 12Нормальное распределение

Слайд 13Нормальное распределение

Слайд 14Доверительная вероятность при нормальном распределении
Если случайная величина распределена по нормальному

закону с математическим ожиданием  и средним квадратическим отклонением ,

то вероятности ее попадания в интервалы между (s + s) и (s - s); между (s + 2s) и (s - 2s); между (s + 3s) и (s - 3s) равны соответственно: 0,683; 0,955; 0,997

Доверительная вероятность при нормальном распределенииЕсли случайная величина распределена по нормальному закону с математическим ожиданием  и средним

Слайд 15Доверительная вероятность при нормальном распределении

Слайд 16Распределение 2

Слайд 17Распределение 2

Слайд 18Распределение Стьюдента

Слайд 19Распределение Стьюдента

Слайд 20Проверка статистических гипотез
Для того чтобы иметь основания принять или отвергнуть

рассматриваемую гипотезу необходимо выработать некоторый критерий, который называют критерием согласия

проверяемой гипотезы с результатами эксперимента

Проверка статистических гипотезДля того чтобы иметь основания принять или отвергнуть рассматриваемую гипотезу необходимо выработать некоторый критерий, который

Слайд 21Здесь: m ─ число значений, принятых случайной величиной, n –

общее число наблюдений, pk ─ вероятность появления k-го значения в

теоретическом законе распределения

Критерий согласия 2 (хи-квадрат)

В качестве меры расхождения между эмпирическим и теоретическим законами распределения Пирсоном была предложена статистика

Здесь: m ─ число значений, принятых случайной величиной, n – общее число наблюдений, pk ─ вероятность появления

Слайд 22Непараметрический критерий Вилкоксона для проверки однородности двух независимых выборок
Большинство непараметрических

критериев основано на использовании рангов наблюдений.
Рангом наблюдения называют тот номер,

который получит это наблюдение в упорядоченной совокупности всех данных после их упорядочения по определенному правилу, например от меньших значений к большим или наоборот.

Непараметрический критерий Вилкоксона для проверки однородности двух независимых выборокБольшинство непараметрических критериев основано на использовании рангов наблюдений.Рангом наблюдения

Слайд 23Ранги и ранжирование
Трудности в назначении рангов возникают, если среди элементов

выборки встречаются совпадающие. В этом случае обычно используют средние ранги.

Ранги и ранжированиеТрудности в назначении рангов возникают, если среди элементов выборки встречаются совпадающие. В этом случае обычно

Слайд 24Непараметрический критерий Вилкоксона
В критерии Вилкоксона в качестве в качестве статистики

используется случайная величина
Здесь Rj – ранги наблюдений второй выборки в

общей объединенной выборке.

Непараметрический критерий ВилкоксонаВ критерии Вилкоксона в качестве в качестве статистики используется случайная величинаЗдесь Rj – ранги наблюдений

Слайд 25Непараметрический критерий Вилкоксона
Для проверки с уровнем значимости α гипотезы H0

об однородности выборок при альтернативной гипотезе H1: Fx(x) > Fy(y)

по имеющимся таблицам находят верхнее критическое значение wв(α, m, n) статистики W, т. е. такое значение, для которого

Гипотезу об однородности выборок следует отвергнуть с уровнем значимости α, если рассчитанное значение статистики W больше критического значения.

Непараметрический критерий ВилкоксонаДля проверки с уровнем значимости α гипотезы H0 об однородности выборок при альтернативной гипотезе H1:

Слайд 26Критерий Вилкоксона для проверки однородности двух зависимых выборок
Порядок применения критерия

следующий:
Вычисляются абсолютные разности наблюдений в паре:

Осуществляется ранжирование этих разностей в

порядке возрастания и каждому значению ранга присваивается знак его разности.

Критерий Вилкоксона для проверки однородности двух зависимых выборокПорядок применения критерия следующий:Вычисляются абсолютные разности наблюдений в паре:Осуществляется ранжирование

Слайд 27Критерий Вилкоксона для проверки однородности двух зависимых выборок
Вычисляется сумма значений

рангов, которая образует статистику T.

Проверяется, принадлежит ли вычисленное значение T

критической области, границы которой находятся по таблицам процентных точек распределения Вилкоксона для парных выборок.

Критерий Вилкоксона для проверки однородности двух зависимых выборокВычисляется сумма значений рангов, которая образует статистику T.Проверяется, принадлежит ли

Слайд 28Критерий Вилкоксона для проверки однородности двух зависимых выборок
Если вычисленное значение

статистики T

то гипотеза об однородности двух выборок отклоняется при уровне

значимости α в пользу альтернативной гипотезы H1: выборки неоднородны.

При альтернативной гипотезе H1: распределение разности смещено вправо относительно нуля, гипотеза об однородности отклоняется, если вычисленное значение статистики T превышает критическое значение

Критерий Вилкоксона для проверки однородности двух зависимых выборокЕсли вычисленное значение статистики Tто гипотеза об однородности двух выборок

Слайд 29Однофакторный дисперсионный анализ. Проверка гипотезы о влиянии фактора на исследуемую

величину
Рассмотрим простейший случай дисперсионного анализа, когда изучается влияние на исследуемую

величину какого-либо одного фактора A. Будем считать, что фактор A изучается на k уровнях A1, A2, ..., Ak. Пусть для простоты рассмотрения на каждом уровне производится одинаковое число n наблюдений исследуемой величины.

Однофакторный дисперсионный анализ. Проверка гипотезы о влиянии фактора на исследуемую величинуРассмотрим простейший случай дисперсионного анализа, когда изучается

Слайд 30Проверка гипотезы о влиянии фактора на исследуемую величину
Оценка генерального среднего
Несмещенная

оценка дисперсии генеральной совокупности

Проверка гипотезы о влиянии фактора на исследуемую величинуОценка генерального среднегоНесмещенная оценка дисперсии генеральной совокупности

Слайд 31Проверка гипотезы о влиянии фактора на исследуемую величину
При справедливости нулевой

гипотезы любая из выборочных дисперсий дает одинаково хорошую оценку. Поэтому

в качестве оценки дисперсии генеральной совокупности возьмем среднее выборочных дисперсий. Эта оценка называется внутри групповой дисперсией:

Проверка гипотезы о влиянии фактора на исследуемую величинуПри справедливости нулевой гипотезы любая из выборочных дисперсий дает одинаково

Слайд 32Проверка гипотезы о влиянии фактора на исследуемую величину
Оценим теперь дисперсию

совокупности по выборочным средним. Поскольку мы предположили, что все выборки

извлечены из одной совокупности, то стандартное отклонение выборочных средних будет служить оценкой ошибки среднего:

Отсюда находим межгрупповую оценку дисперсии

Проверка гипотезы о влиянии фактора на исследуемую величинуОценим теперь дисперсию совокупности по выборочным средним. Поскольку мы предположили,

Слайд 33Проверка гипотезы о влиянии фактора на исследуемую величину
В результате задача

проверки гипотезы H0 сводится к проверке гипотезы о равенстве дисперсий

sA2 и s02. При справедливости допущения о нормальном распределении случайных величин εij отношение

в случае справедливости нулевой гипотезы подчиняется F-распределению с l1 = k-1 и l2 = k(n-1) числом степеней свободы.

Проверка гипотезы о влиянии фактора на исследуемую величинуВ результате задача проверки гипотезы H0 сводится к проверке гипотезы

Слайд 34Проверка гипотезы о влиянии фактора на исследуемую величину
Влияние фактора A

на исследуемый признак считается значимым с уровнем значимости α, если
т.

е. когда расчетное значение статистики F превышает значение α-процентной точки распределения Фишера.

Проверка гипотезы о влиянии фактора на исследуемую величинуВлияние фактора A на исследуемый признак считается значимым с уровнем

Слайд 35Проверка гипотезы о влиянии фактора на исследуемую величину
Результаты дисперсионного анализа

в общем случае обычно представляют в виде следующей таблицы

Проверка гипотезы о влиянии фактора на исследуемую величинуРезультаты дисперсионного анализа в общем случае обычно представляют в виде

Слайд 36Двухфакторный дисперсионный анализ. Виды взаимосвязи между двумя факторами
Пусть на исследуемую

величину могут оказывать влияние два фактора A и B, каждый

из которых имеет конечное число уровней. При этом ставится вопрос, как влияют и влияют ли вообще эти факторы на исследуемую величину. Здесь уже необходимо уделить внимание способу взаимосвязи факторов. Для большинства практических задач достаточно ограничиться двумя способами: пересечением и группировкой.

Двухфакторный дисперсионный анализ. Виды взаимосвязи между двумя факторамиПусть на исследуемую величину могут оказывать влияние два фактора A

Слайд 37Виды взаимосвязи между двумя факторами
Два фактора A и B называются

пересекающимися, если в плане эксперимента предусмотрены все возможные сочетания факторов.

Виды взаимосвязи между двумя факторамиДва фактора A и B называются пересекающимися, если в плане эксперимента предусмотрены все

Слайд 38Виды взаимосвязи между двумя факторами
Фактор B группируется фактором A, если

каждый уровень фактора B сочетается не более, чем с одним

уровнем фактора A.

Виды взаимосвязи между двумя факторамиФактор B группируется фактором A, если каждый уровень фактора B сочетается не более,

Слайд 39Двухфакторный дисперсионный анализ с пересечением уровней
Рассматривая совокупность данных как одну

выборку из генеральной совокупности, получим оценку генерального среднего в виде
и

несмещенную оценку дисперсии генеральной совокупности

Двухфакторный дисперсионный анализ с пересечением уровнейРассматривая совокупность данных как одну выборку из генеральной совокупности, получим оценку генерального

Слайд 40Двухфакторный дисперсионный анализ с пересечением уровней
Входящую в оценку дисперсии генеральной

совокупности сумму квадратов можно представить в виде суммы четырех отдельных

сумм квадратов СКA, СКB, СКAB, СК0:

характеризует разброс наблюдаемых значений между столбцами (уровнями фактора A) таблицы данных

характеризует разброс наблюдаемых значений между строками (уровнями фактора B) таблицы

Слайд 41Двухфакторный дисперсионный анализ с пересечением уровней
характеризует эффект взаимодействия факторов
остаточная сумма

квадратов

Слайд 42Двухфакторный дисперсионный анализ с пересечением уровней
С учетом числа степеней свободы

каждой суммы квадратов, получим следующие выражения для оценок дисперсий:

Двухфакторный дисперсионный анализ с пересечением уровнейС учетом числа степеней свободы каждой суммы квадратов, получим следующие выражения для

Слайд 43Двухфакторный дисперсионный анализ с пересечением уровней
Гипотеза H0 : α1 =

α2 = ... = αk = 0 проверяется с помощью

отношения

Гипотеза H0 : β1 = β2 = ... = βn = 0 проверяется с помощью отношения

Двухфакторный дисперсионный анализ с пересечением уровнейГипотеза H0 : α1 = α2 = ... = αk = 0

Слайд 44Двухфакторный дисперсионный анализ с пересечением уровней
Гипотеза об отсутствии взаимодействия между

факторами (гипотеза об аддитивности) проверяется с помощью отношения

Двухфакторный дисперсионный анализ с пересечением уровнейГипотеза об отсутствии взаимодействия между факторами (гипотеза об аддитивности) проверяется с помощью

Слайд 45Двухфакторный дисперсионный анализ с пересечением уровней
Результаты дисперсионного анализа представляют следующей

таблицей

Слайд 46Фактор B группируется фактором A, если каждый уровень фактора B

сочетается не более, чем с одним уровнем фактора A.
Двухфакторный дисперсионный

анализ с группировкой уровней

Фактор B группируется фактором A, если каждый уровень фактора B сочетается не более, чем с одним уровнем

Слайд 47Двухфакторный дисперсионный анализ с группировкой уровней
Результаты дисперсионного анализа оформляются в

виде следующей таблицы

Слайд 48Двухфакторный дисперсионный анализ с группировкой уровней
Статистики для проверки гипотез имеют

вид:
для гипотезы H0: σb(a) = 0
для гипотезы H0: все αi

= 0

Двухфакторный дисперсионный анализ с группировкой уровнейСтатистики для проверки гипотез имеют вид:для гипотезы H0: σb(a) = 0для гипотезы

Слайд 49Задачи корреляционного анализа
В математическом анализе зависимость между величинами x и

y выражается функцией y = f(x), где каждому значению x

соответствует одно и только одно значение y. Такая связь называется функциональной.

Для случайных величин X и Y такую зависимость можно установить не всегда. Связь между случайными величинами является не функциональной, а случайной (стохастической), при которой изменение переменной X влияет на значения переменной Y через изменение закона распределения случайной величины Y.

Задачи корреляционного анализаВ математическом анализе зависимость между величинами x и y выражается функцией y = f(x), где

Слайд 50Задачи корреляционного анализа
Таким образом задача корреляционного анализа исследование наличия взаимосвязей

между отдельными группами переменных и установление тесноты (силы) связи между

ними.

Задачи корреляционного анализаТаким образом задача корреляционного анализа исследование наличия взаимосвязей между отдельными группами переменных и установление тесноты

Слайд 51Измерители парной статистической связи. Корреляционное отношение
Аналогично определяется квадрат корреляционного

отношения ρ2xy переменной X по Y. Однако между ρ2yx и

ρ2xy нет какой-либо простой зависимости.

Очевидно, что 0 ≤ ρ2yx ≤ 1. Стремление ρ2yx к нулю означает, что доля дисперсии, обусловленная функциональной связью, очень мала. Наоборот, стремление ρ2yx к единице показывает, что случайными изменениями Y можно пренебречь и вся дисперсия обусловлена функциональной зависимостью Y = ϕ(X).

Измерители парной статистической связи. Корреляционное отношение Аналогично определяется квадрат корреляционного отношения ρ2xy переменной X по Y.

Слайд 52Измерители парной статистической связи. Корреляционное отношение
Положительный корень из ρ2yx

носит название корреляционного отношения, которое является показателем статистической связи между

двумя случайными величинами X и Y для самой общей ситуации, когда закон распределения системы (X,Y) является произвольным.

Измерители парной статистической связи. Корреляционное отношение Положительный корень из ρ2yx носит название корреляционного отношения, которое является

Слайд 53Измерители парной статистической связи
В общем случае показатели ρ2xy и

r2 связаны неравенствами
При этом возможны следующие варианты:
r2 = ρ2yx=1 только

тогда, когда имеется строгая линейная функциональная зависимость Y от X
r2 < ρ2yx=1 только тогда, когда имеется строгая нелинейная функциональная зависимость Y от X
r2 = ρ2yx<1 только тогда, когда зависимость Y от X строго линейна, но нет функциональной зависимости
r2 < ρ2yx<1 указывает на то, что не существует функциональной зависимости, а некоторая нелинейная кривая “подходит” лучше, чем “наилучшая” прямая линия.

Измерители парной статистической связи В общем случае показатели ρ2xy и r2 связаны неравенствамиПри этом возможны следующие

Слайд 54Измерители парной статистической связи
Таким образом, в качестве показателя статистической

связи между двумя случайными количественными переменными X и Y следует

выбрать корреляционное отношение ρyx (или ρxy) , если закон распределения системы (X,Y) вызывает сомнение. Если же можно с большой степенью уверенности считать закон распределения системы (X,Y) нормальным, то вместо корреляционного отношения следует использовать коэффициент корреляции r.

Измерители парной статистической связи Таким образом, в качестве показателя статистической связи между двумя случайными количественными переменными

Слайд 55Регрессионный анализ

Слайд 56Основные понятия регрессионного анализа
Для математического описания статистических связей между изучаемыми

переменными величинами следует решить следующие задачи:

подобрать класс функций, в котором

целесообразно искать наилучшую (в определенном смысле) аппроксимацию интересующей зависимости;
найти оценки неизвестных значений параметров, входящих в уравнения искомой зависимости;
установить адекватность полученного уравнения искомой зависимости;
выявить наиболее информативные входные переменные.

Основные понятия регрессионного анализа Для математического описания статистических связей между изучаемыми переменными величинами следует решить следующие задачи:подобрать

Слайд 57Простая линейная регрессия
Простейшей моделью регрессии является простая (одномерная, однофакторная, парная)

линейная модель, имеющая следующий вид:

где εi – некоррелированные между собой

случайные величины (ошибки), имеющие нулевые математические ожидания и одинаковые дисперсии σ2, a и b – постоянные коэффициенты (параметры), которые необходимо оценить по измеренным значениям отклика yi.

Простая линейная регрессия Простейшей моделью регрессии является простая (одномерная, однофакторная, парная) линейная модель, имеющая следующий вид:где εi

Слайд 58Простая линейная регрессия
Для нахождения оценок параметров a и b линейной

регрессии, определяющих наиболее удовлетворяющую экспериментальным данным прямую линию:

применяется метод наименьших

квадратов.

Согласно методу наименьших квадратов оценки параметров a и b находят из условия минимизации суммы квадратов отклонений значений yi по вертикали от “истинной” линии регрессии:

Простая линейная регрессия Для нахождения оценок параметров a и b линейной регрессии, определяющих наиболее удовлетворяющую экспериментальным данным

Слайд 59Простая линейная регрессия
Для минимизации D приравняем к нулю частные производные

по a и b:

В результате получим следующую систему уравнений для

нахождения оценок a и b:

Простая линейная регрессия Для минимизации D приравняем к нулю частные производные по a и b:В результате получим

Слайд 60Простая линейная регрессия
Решение этих двух уравнений дает:

Слайд 61Выражения для оценок параметров a и b можно представить также

в виде:

Простая линейная регрессия

Слайд 62Простая линейная регрессия
Тогда эмпирическое уравнение регрессионной прямой Y на X

можно записать в виде:

Слайд 63Несмещенная оценка дисперсии σ2 отклонений значений yi oт подобранной прямой

линии регрессии дается выражением (остаточная дисперсия)

Простая линейная регрессия

Несмещенная оценка дисперсии σ2 отклонений значений yi oт подобранной прямой линии регрессии дается выражением (остаточная дисперсия)Простая линейная

Слайд 64Проверка значимости линии регрессии
Найденная оценка b ≠ 0 может быть

реализацией случайной величины, математическое ожидание которой равно нулю, т. е.

может оказаться, что никакой регрессионной зависимости на самом деле нет.
Чтобы разобраться с этой ситуацией, следует проверить гипотезу Н0: b = 0 при конкурирующей гипотезе Н1: b ≠ 0.

Проверку значимости линии регрессии можно провести с помощью дисперсионного анализа.

Проверка значимости линии регрессии Найденная оценка b ≠ 0 может быть реализацией случайной величины, математическое ожидание которой

Слайд 65Проверка значимости линии регрессии
Вычисления по проверки значимости регрессии проводят в

следующей таблице дисперсионного анализа

Слайд 66Проверка адекватности линейной модели регрессии
Под адекватностью построенной регрессионной модели понимается

то, что никакая другая модель не дает значимого улучшения в

предсказании отклика.

Если все значения откликов получены при разных значениях x, т. е. нет нескольких значений отклика, полученных при одинаковых xi, то можно провести лишь ограниченную проверку адекватности линейной модели. Основой для такой проверки являются остатки:

- отклонения от установленной закономерности:

Проверка адекватности линейной модели регрессии Под адекватностью построенной регрессионной модели понимается то, что никакая другая модель не

Слайд 67Коэффициент детерминации
Иногда для характеристики качества линии регрессии используют выборочный коэффициент

детерминации R2, показывающий, какую часть (долю) сумма квадратов, обусловленная регрессией

СКр, составляет в полной сумме квадратов СКп:

Чем ближе R2 к единице, тем лучше регрессия аппроксимирует экспериментальные данные, тем теснее наблюдения примыкают к линии регрессии. Если R2 = 0, то изменения отклика полностью обусловлены воздействием неучтенных факторов, и линия регрессии параллельна оси x-ов. В случае простой линейной регрессии коэффициент детерминации R2 равен квадрату коэффициента корреляции r2 .

Коэффициент детерминации Иногда для характеристики качества линии регрессии используют выборочный коэффициент детерминации R2, показывающий, какую часть (долю)

Слайд 68 Максимальное значение R2 = 1 может быть

достигнуто только в случае, когда наблюдения проводились при различных значениях

x-ов. Если же в данных имеются повторяющиеся опыты, то величина R2 не может достичь единицы, как бы ни была хороша модель.
Вместо коэффициента детерминации R2 можно использовать статистику - нормированная (приведенная)
R2– статистика. Она имеет следующий вид:

где p – число параметров линейной модели регрессии.

Коэффициент детерминации

Максимальное значение R2 = 1 может быть достигнуто только в случае, когда наблюдения проводились

Слайд 69Применительно к простой линейной регрессии

Отметим, что коэффициент R2 имеет смысл

рассматривать только при наличии в уравнении регрессии свободного члена a,

так как лишь в этом случае верно равенство

СКп = СКр + СК0

Коэффициент детерминации

Применительно к простой линейной регрессииОтметим, что коэффициент R2 имеет смысл рассматривать только при наличии в уравнении регрессии

Слайд 70Сравнение двух линий регрессии
Часто требуется сравнить линии регрессии, рассчитанные по

двум выборкам. Это можно сделать тремя способами:

Сравнить коэффициенты наклона b
Сравнить

коэффициенты сдвига a
Сравнить линии в целом

Сравнение двух линий регрессии Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно

Слайд 71Сравнение двух линий регрессии
Если нужно проверить, значимо ли различие в

наклоне двух прямых регрессии, критерий Стьюдента t вычисляется по формуле:

где

b1–b2 — разность коэффициентов наклона, a sb1–b2 — ее стандартная ошибка.

Затем вычисленное значение t сравнивают, с критическим значением, имеющим n1+n2–4 степени свободы.

Сравнение двух линий регрессии Если нужно проверить, значимо ли различие в наклоне двух прямых регрессии,

Слайд 72Сравнение двух линий регрессии
Если обе регрессии оценены по одинаковому числу

наблюдений, то стандартная ошибка разности

Если же объемы выборок различны, следует

воспользоваться объединенной оценкой остаточной дисперсии

Тогда стандартная ошибка разности

Сравнение двух линий регрессии Если обе регрессии оценены по одинаковому числу наблюдений, то стандартная ошибка

Слайд 73Сравнение двух линий регрессии
Аналогично сравниваются и коэффициенты сдвига a1 и

а2. В этом случае
где a1–a2 — разность коэффициентов сдвига, a

sa1–a2 — стандартная ошибка разности коэффициентов сдвига

Затем вычисленное значение t сравнивают, с критическим значением, имеющим n1+n2–4 степени свободы.

Сравнение двух линий регрессии Аналогично сравниваются и коэффициенты сдвига a1 и а2. В этом случаегде

Слайд 74Сравнение двух линий регрессии
Таким образом алгоритм сравнения двух линии регрессии

следующий:
Построить прямую регрессии для каждой из выборок.
По остаточным дисперсиям

и каждой из регрессий вычислить объединенную оценку остаточной дисперсии
Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию

Сравнение двух линий регрессии Таким образом алгоритм сравнения двух линии регрессии следующий: Построить прямую регрессии

Слайд 75Множественная линейная регрессия
Модель множественной линейной регрессии имеет следующий вид:
Предположения относительно

множественной линейной регрессии аналогичны тем, которые применялись для простой линейной

регрессии. В частности, что все xi считаются фиксированными и для любого набора xi значения yi распределены по нормальному закону с постоянной дисперсией.

Множественная линейная регрессияМодель множественной линейной регрессии имеет следующий вид:Предположения относительно множественной линейной регрессии аналогичны тем, которые применялись

Слайд 76Множественная линейная регрессия
Для получения оценок параметров b0, b1, ...,bk методом

наименьших квадратов нужно минимизировать по этим параметрам выражение

Множественная линейная регрессияДля получения оценок параметров b0, b1, ...,bk методом наименьших квадратов нужно минимизировать по этим параметрам

Слайд 77Множественная линейная регрессия
Приравняв нулю частные производные
после упрощений получается следующая система

нормальных уравнений для нахождения оценок параметров:

Множественная линейная регрессияПриравняв нулю частные производныепосле упрощений получается следующая система нормальных уравнений для нахождения оценок параметров:

Слайд 78Множественная линейная регрессия
Пусть b – вектор-столбец размера (k+ 1), состоящий

из коэффициентов b0 , b1, …, bk , y –

вектор-столбец из n наблюдений, ε – вектор-столбец из n ошибок и X – матрица наблюдений размером n(k+ 1) :

Множественная линейная регрессияПусть b – вектор-столбец размера (k+ 1), состоящий из коэффициентов b0 , b1, …, bk

Слайд 79Множественная линейная регрессия
Тогда уравнение модели регрессии можно записать в виде:
Выражение

для D можно представить в матричном виде:
тогда вектор оценок b

получается из решения системы уравнений:

решение которой имеет вид:

Множественная линейная регрессияТогда уравнение модели регрессии можно записать в виде:Выражение для D можно представить в матричном виде:тогда

Слайд 80Множественная линейная регрессия
Несмещенной оценкой дисперсии является:
Дисперсионный анализ множественной линейной регрессии

проводится в следующей таблице:

Множественная линейная регрессияНесмещенной оценкой дисперсии является:Дисперсионный анализ множественной линейной регрессии проводится в следующей таблице:

Скачать презентацию

Разделы презентаций