Слайд 2Дисперсионный анализ
Дисперсионный анализ (от латинского Dispersio – рассеивание / на
английском Analysis Of Variance - ANOVA) применяется для исследования влияния
одной или нескольких качественных переменных (факторов-качественные, количественные, случайные) на одну зависимую количественную переменную (отклик).
В дисперсионном анализе используется свойство аддитивности дисперсии независимых факторов.
Р.А.Фишер в 1938 году впервые определил дисперсионный анализ как «отделение дисперсии, приписываемой одной группе причин, от дисперсии, приписываемой другим группам»
Дисперсионный анализ состоит в выделении и оценке отдельных факторов, вызывающих изменчивость изучаемой случайной
величины. Для этого проводят разложение суммарной дисперсии на
составляющие, обусловленные независимыми факторами.
.
Слайд 3Проверка значимости оценок дисперсий проводиться по
F-критерию Фишера:
применяют для
сравнения двух независимых нормально распределенных выборочных совокупностей.
Выборочные дисперсии
, различаются значимо, если частное превышает табличный Fкр критерий Фишера для принятой доверительной вероятности p и чисел степеней свободы f1=n1-1, f2=n2-1.
Слайд 4Допущения в дисперсионном анализе:
1.случайные ошибки наблюдений имеют нормальное распределение;
где и - математическое ожидание
и генеральная дисперсия случайной величины Х.
2.факторы влияют только на изменение средних значений, а дисперсия наблюдений остается постоянной; эксперименты равноточны.
Слайд 5
Факторы, рассматриваемые в дисперсионном анализе, бывают двух родов:
1) со
случайными уровнями (выбор уровней производится из бесконечной совокупности возможных уровней
- модель со случайными уровнями факторов);
2) с фиксированными (все уровни фиксированы – модель с фиксированными уровнями факторов);
3) модель смешанного типа (часть факторов рассматривается на фиксированных уровнях, а уровни остальных выбираются случайным образом).
Слайд 6Однофакторный дисперсионный анализ
Задачей однофакторного дисперсионного анализа является изучение влияния одного
фактора А (количественного или качественного), который принимает k различных значений
(уровней факторов), на рассматриваемый признак (отклик).
На i-м уровне производиться ni наблюдений, результаты которых представлены:
Слайд 7где μ - суммарный эффект во всех опытах;
di - эффект фактора А на i-м уровне
( i = 1,2,…,k);
- ошибка измерения на i-м уровне.
Предположим, что наблюдения на фиксированном уровне фактора
нормально распределены относительно среднего значения
с обшей дисперсией
Проверяется нулевая гипотеза равенства средних значений на различных уровнях фактора А :
m1=m2=…=mk=m.
Общее число опытов равно N :
N=n1+n2+…+nk.
Слайд 8Расчеты при равном числе опытов на каждом уровне фактора А
: n1=n2=…=nk=n.
Слайд 9Обозначим среднее значение наблюдений на i-том уровне:
общее среднее значение для
всей выборки из N наблюдений:
Общую выборочную дисперсию разложим на
составляющие, которые характеризовали бы вклад фактора А и фактора случайности.
Слайд 10Определим выборочную дисперсию на каждом уровне:
Критерий Кохрана
(проверка однородности системы) применяют для сравнения k независимых нормально распределенных
выборочных совокупностей равных объемов ni=const с дисперсиями . Выборочные дисперсии различаются значимо, если критерий Кохрана G превышает табличный Gкр для принятой доверительной вероятности p и числа степеней свободы f=k-1.
Слайд 11Если между выборочными дисперсиями нет значимых различий, для оценки генеральной
дисперсии σ2 , характеризующей фактор случайности, используют выборочную дисперсию Sош2:
(f=k(n-1)=N-k).
Приближенную оценку для дисперсии фактора А можно получить следующим образом:
Более точную оценку для можно получить, рассматривая отклонения средних на отдельных уровнях от общего среднего всей выборки .
Слайд 12Введем следующее обозначение, дисперсия фактора А (проверка нулевой гипотезы по
критерию Фишера):
Влияние фактора является значимым, если:
Слайд 13Алгоритм:
1) итоги по столбцам
2) сумму квадратов всех наблюдений
3) сумму
квадратов итогов по столбцам , деленную на число наблюдений в
столбце
4) квадрат общего итога, деленный на число
всех наблюдений (корректирующий член)
5) сумма квадратов для столбца
6) SSобщ - общая сумма квадратов, равная
разнице между суммой квадратов всех
наблюдений и корректирующим членом
Слайд 14
8) дисперсия
9) дисперсия
7) SSост - остаточная сумма квадратов
для оценки ошибки эксперимента
Слайд 15Результаты расчета представляются в виде таблицы дисперсионного анализа.
Если неравенство,
справедливо, то различие между и
значимо, следовательно значимо влияние фактора А.
Слайд 16 Если выборочные дисперсии различаются в пределах случайного разброса,
то следующим шагом является сравнение выборочных средних.
Выборочные
средние различаются значимо, если t-критерий Стьюдента превышает табличный tp,f для принятой доверительной вероятности p и числа степеней свободы объединенной выборки f=n1+n2-2.
Нулевая гипотеза отвергается и различие между средними считается значимым.
Для выявления различности средних применяют критерии Стьюдента, Фишера или ранговый критерий Дункана.
Слайд 17Пример: применение однофакторного дисперсионного анализа для выяснения влияния вида галоидного
алкила (фактор А) на процесс полимеризации.
Слайд 18Двухфакторный дисперсионный анализ
Изучается влияние на процесс одновременно двух факторов А
и В. Фактор А исследуется , на уровнях a1, a2,…,
ak .Фактор В – на уровнях b1,b2,…,bm .
Слайд 20Общее число наблюдений равно N=nkm
Общее среднее;
эффект фактора А на i-м
уровне, i=1,2,…, K;
эффект фактора В на j-м уровне, j=1,2,…m;
эффект взаимодействия
факторов, представляем собой отклонение
среднего по наблюдениям в (ij)-й серии от суммы первых- трех членов
в модели
учитывает вариацию внутри серии наблюдений (ошибка
воспроизводимости)
Слайд 21Если предположить, что между факторами нет взаимодействия, то можно
использовать
линейную модель:
Слайд 22Линейная модель:
Через и
обозначим соответственно средние значения по строкам и столбцам:
А
- среднее всех результатов
Рассеяние средних по столбцам относительно общего среднего не зависит от фактора В, т.к. все уровни фактора В усреднены.
Это рассеяние связано с влиянием фактора А и случайного фактора. Так как дисперсия среднего в m раз меньше дисперсии единичного измерения, имеем:
Слайд 23
В свою очередь, рассеяние в средних по строкам на зависит
от фактора А и связано с влиянием фактора В:
Эти равенства
позволяют оценить влияние факторов А и В, если известна оценка дисперсии.
Линейная модель:
Для оценки фактора случайности при отсутствии параллельных наблюдений, найдем дисперсию наблюдений по i-му столбцу:
(б)
(а)
Эта дисперсия обусловлена влиянием фактора В и фактора случайности
Вычитая (б) из (а), получим
Отсюда
Обозначим полученную оценку для дисперсии σ2 через Sош2
Слайд 25Введем следующие обозначения:
Величины и
можно считать выборочными дисперсиями с (к-1)
и (m-1) степенями свободы соответственно. Проверяют нулевые гипотезы о незначимости влияния факторов А и В по критерию Фишера.
Нулевая гипотеза значима, αi=0.
Слайд 26
Если
нулеваая гипотеза отвергается и
влияние фактора А считается значимым. Аналогично, если
Гипотеза принимается, βj
=0. При справедливости неравенства:
Влияние фактора В считается значимым.
Слайд 27При проведении дисперсионного анализа в условиях линейной модели, используют следующий
алгоритм расчета:
Находят :
Итоги по столбцам
Итоги по строкам
Сумму квадратов всех наблюдений
Сумму
квадратов итогов по столбцам , деленную на число наблюдений в столбце
Слайд 28
5) Сумму квадратов итогов по строкам., деленную на число наблюдений
в строке
6) Квадрат общего итога, деленный на число всех наблюдений
(корректирующий член)
7) Сумму квадратов для столбца: SSA=SS2-SS4;
8) Сумму квадратов для строки: SSB=SS3-SS4;
9) Общую сумму квадратов, равную разнице между суммой квадратов всех
наблюдений и корректирующим членом: SSобщ=SS1-SS4;
10) Остаточную сумму квадратов:
SSост=SSобщ-SSA-SSB=SS1-SS2-SS3+SS4;
Слайд 2911) Дисперсию :
12) Дисперсию
:
13) Дисперсию :
Слайд 31Рассмотрим модель со взаимодействием факторов А и В. Пусть при
каждом сочетании уровней факторов А и В проводится n параллельный
опытов. Имеется целая серия наблюдений yij1, yij2,…,yijn. Выборочная дисперсия результатов в каждой ячейке, где (n-1)-степень свободы:
Если выборочные дисперсии по всем ячейкам однородны, их можно усреднить и использовать полученную средневзвешенную дисперсию в качестве оценки для дисперсии воспроизводимости σ2 :
Число степеней свободы равно mk(n-1)
Слайд 32Более удобная формула для вычисления дисперсии воспроизводимости
где yij - сумма
наблюдений в ij – й ячейке.
Слайд 33При проведении дисперсионного анализа в условиях модели с учетом взаимодействия
факторов А и В, удобно использовать следующий алгоритм расчета:
Слайд 347) Сумму квадратов итогов по столбцам , деленную на число
наблюдений в столбце
8) Сумму квадратов итогов по строкам.,
деленную на число наблюдений в строке
Слайд 35
9) Квадрат общего итога, деленный на число всех наблюдений (корректирующий
член)
10) Сумму квадратов для столбца
11)Сумму квадратов для строки
12) Сумму квадратов
для дисперсии
воспроизводимости
13) Общую сумму квадратов, равную разнице между суммой квадратов всех наблюдений и корректирующим членом
Слайд 3614) Остаточную сумму квадратов отклонений для эффекта взаимодействия АВ
Слайд 38Для оценки значимости фактора А необходимо составить дисперсионное отношение вида
Слайд 40Многофакторный дисперсионный анализ
Латинские и гипер-греко-латинские квадраты.
Полным факторным экспериментом(ПФЭ) называют эксперимент,
в котором встречаются все возможные сочетания уровни изучаемых факторов. Дробным
факторным экспериментом(ДФЭ) – эксперимент, в котором пропущены некоторые сочетания уровней.
Рассмотрим трехфакторный дисперсионный анализ при одинаковом числе уровней n для каждого фактора. Полный перебор сочетаний уровней факторов потребует N опытов N=n3
Число опытов можно значительно сократить,
используя ДФЭ по схеме латинского квадрата,
введенного впервые Фишером. Латинский квадрат –
n:n – это квадратная матрица, составленная из
n элементов(чисел или букв) таким образом, что
каждый элемент повторяется в каждой строке и в каждом столбце только один раз.
Слайд 41Стандартным или каноническим латиннским квадратами называются такие квадраты, у которых
первая строка и первый столбец построены в алфавитном порядке или
в порядке натурального ряда.
Слайд 42Результат наблюдения, полученный при ПФЭ
При применении латинского квадрата предполагают, что
результаты взаимодействия незначимы и применяют линейную модель
Алгоритм расчета: Для этого
определяют
1) итоги по строкам Аi, столбцам Вj, и латинским буквам Сq.
Например, для латинского квадрата 3:3 итоги по строкам
Итоги по столбцам
Слайд 43Итоги по латинским буквам
3) Сумму квадратов итогов по строкам,
деленную
на число наблюдений в строке
4) Сумму квадратов итогов по столбцам
, деленную на число наблюдений в столбце
Слайд 445)Сумму квадратов итогов по латинским буквам , деленную на число
наблюдений, соответствующих каждой букве
6) Квадрат общего итога, деленный на число
всех наблюдений(корректирующий член)
10) Общую сумму квадратов, равную разнице между суммой квадратов всех наблюдений и корректирующим членом