Слайд 1Лекция № 3. Предпосылки метода наименьших квадратов. Обобщенный МНК
Вопросы
1. Предпосылки
МНК и способы проверки их выполнения.
2. Свойства оценок, полученных с
помощью МНК.
3. Обобщенный МНК.
Слайд 21. При оценке параметров уравнения регрессии с помощью МНК делаются
определенные предпосылки относительно случайной составляющей ε.
В модели
у = а
+ b1x1 + b2x2 +…+ bpxp + ε
случайная составляющая ε представляет собой ненаблюдаемую величину.
Слайд 3После получения оценок параметров модели можно получить оценки ε, вычисляя
разности фактических и теоретических значений результативного признака у. Так как
они не являются реальными случайными остатками, их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т.е. εi .
Слайд 4При изменении спецификации модели, добавлении в нее новых наблюдений выборочные
остатки εi могут меняться. Поэтому в задачу регрессионного анализа входит
не только построение самой модели, но и исследование случайных отклонений εi, т.е. остаточных величин.
Слайд 5Проверяя статистическую достоверность коэффициентов регрессии и корреляции, мы останавливались на
t-критерии Стьюдента, F-критерии Фишера. При этом делались предположения относительно поведения
остатков εi -
Слайд 6это независимые случайные величины; их среднее значение равно 0; они
имеют постоянную дисперсию и подчиняются нормальному закону распределения. Эти предположения
являются условиями теоремы Гаусса-Маркова.
Слайд 72. Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых
предпосылках распределения случайной составляющей εi. Они носят лишь предварительный характер.
Уже после построения уравнения регрессии проводится проверка наличия у оценок εi тех свойств, которые изначально предполагались.
Слайд 8Речь идет о том, что оценки параметров регрессии должны быть
несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК,
имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.
Слайд 9Напомним, что несмещенность оценки означает, что ее математическое ожидание равно
оцениваемому параметру, а математическое ожидание остатков равно нулю. Следовательно, при
большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии bi
Слайд 10можно рассматривать как среднее значение из возможного большого количества несмещенных
оценок. Несмещенные оценки можно сравнивать по разным исследованиям.
Слайд 11Эффективность оценок означает, что они характеризуются наименьшей дисперсией. В практических
исследованиях это означает возможность перехода от точечного оценивания к интервальному.
Слайд 12Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут
не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок
характеризует увеличение их точности с увеличением объема выборки.
Слайд 13Большой практический интерес представляют те результаты регрессии, для которых доверительный
интервал ожидаемого значения параметра регрессии bi имеет предел значений вероятности,
равный единице. То есть вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице.
Слайд 14Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных
способах оценивания.
МНК строит оценки регрессии на основе минимизации суммы квадратов
остатков. Поэтому очень важно исследовать их поведение.
Слайд 15Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют
собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов
регрессии.
Слайд 16Исследования остатков εi предполагают проверку наличия следующих пяти предпосылок МНК:
1)
случайный характер остатков;
2) нулевая средняя величина остатков, не зависящая от
хi;
3) гомоскедастичность – дисперсия каждого отклонения εi одинакова для всех значений х;
Слайд 17 4) отсутствие автокорреляции остатков. Значения остатков εi распределены независимо
друг от друга;
5) остатки подчиняются нормальному распределению.
Если хотя бы одна
предпосылка не выполняется, следует корректиро-
вать модель.
Слайд 18Для проверки первой предпосылки строится график зависимости остатков εi от
теоретических значений результативного признака .
Если все значения остатков εi размещаются
в горизонтальной полосе, то остатки представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения у (рис. 1).
Слайд 19*
Рис.1. Зависимость случайных остатков εi от теоретических значений ŷх
Слайд 20Если же зависимость остатков εi от
проявляется в том, что:
а) остатки εi не
случайны;
б) остатки не имеют постоянной дисперсии;
в) остатки носят систематический характер, то нужно либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки εi не будут случайными величинами.
Слайд 21*
Рис. 2. Зависимость случайных остатков εi от теоретических значений ŷх
Слайд 22Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что
Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых
переменных.
Слайд 23А для моделей, нелинейных относительно оцениваемых параметров и приводимых к
линейному виду с помощью логарифмирования, средняя ошибка равна нулю для
логарифмов исходных данных.
Слайд 24Так, для модели вида
Кроме того, несмещенность оценок коэффициентов регрессии,
полученных МНК, зависит также от независимости случайных остатков от величин
х, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью строится график зависимости случайных остатков ε от факторов хi, включенных в регрессию.
Слайд 25Если остатки на графике расположены в виде горизонтальной полосы, то
они независимы от значений хj. Если же график показывает наличие
указанной зависимости, то модель неадекватна (рис. 2).
Слайд 26*
Рис. 3. Зависимость случайных остатков εi от величины фактора хj
Слайд 27Причины неадекватности могут быть разные: 1) нарушение третьей предпосылки МНК
(дисперсия остатков не постоянна для каждого значения фактора хj);
2)
неправильная спецификация модели, и в нее необходимо ввести дополнительные члены от хj, например, хj2, или преобразовать значения у. Скопление точек в определенных участках значений фактора хj говорит о наличии систематической погрешности модели.
Слайд 28Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии
и корреляции с помощью критериев t, F. Вместе с тем
оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.
Слайд 29Для получения состоятельных оценок параметров регрессии по МНК совершенно необходимо
соблюдение третьей и четвертой предпосылок.
В соответствии с третьей предпосылкой
МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора хj остатки εi имеют одинаковую дисперсию. В противном случае имеем гетероскедастичность.
Слайд 30Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 4).
Слайд 32*
Рис. 4. Примеры гетероскедастичности:
Слайд 33а) дисперсия остатков растет по мере увеличения х;
б) дисперсия остатков
достигает максимальной величины при средних значениях переменной х и уменьшается
при минимальных и максимальных значениях х;
в) максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х.
Слайд 34В случае гомоскедастичности для каждого значения хi распределения остатков одинаковы,
а в случае гетероскедастичности при переходе от одного значения хi
к другому меняется диапазон варьирования остатков.
Слайд 35*
Рис. 5. Гомоскедастичность остатков
Слайд 36*
Рис. 6. Гетероскедастичность остатков
Слайд 37Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше
графику зависимости остатков εi от теоретических значений результативного признака ŷх.
Так, для рисунка 4а) зависимость остатков от ŷх представлена на рис. 7.
Слайд 38*
Рис. 7. Гетероскедастичность: большая дисперсия εi для больших значений ŷх.
Слайд 39Соответственно для зависимостей, изображенных на полях корреляции рис. 4 б)
и в), гетероскедастичность остатков представлена на рис. 8 и 9.
Слайд 40*
Рис. 8. Гетероскедастичность, соответствующая полю корреляции рис. 4б)
Слайд 41*
Рис. 9. Гетероскедастичность, соответствующая полю корреляции рис. 4в)
Слайд 42Наличие гетероскедастичности может в отдельных случаях привести к смещенности оценок
коэффициентов регрессии, хотя несмещенность этих оценок зависит в основном от
соблюдения второй предпосылки МНК. Гетероскедастичность будет сказываться на уменьшении эффективности оценок bi.
Слайд 43Практически при нарушении гомоскедастичности мы имеем неравенства:
и можно записать
При этом
величина Ki может меняться при переходе от одного значения фактора
xi к другому.
Слайд 44Это означает, что сумма квадратов отклонений для зависимости
при наличии гетероскедастичности
должна иметь вид:
Слайд 45При минимизации этой суммы квадратов отдельные ее слагаемые взвешиваются: наблюдениям
с наибольшей дисперсией придается пропорционально меньший вес. Иными словами, для
учета систематического влияния неоднородных элементов Ki вклад каждой пары xi c yi в сумму квадратов остатков должен быть дисконтирован.
Слайд 46Задача состоит в том, чтобы определить величину Ki и внести
поправку в исходные переменные.
С этой целью рекомендуется использовать обобщенный
метод наименьших квадратов, который эквивалентен обыкновенному МНК, примененному к преобразованным данным.
Слайд 473. Обобщенный МНК применяется при нарушении гомоскедастичности и наличии автокорреляции
ошибок.
ОМНК применяется к преобразованным данным и позволяет получать оценки,
обладающие не только свойством несмещенности, но и имеющие наименьшие выборочные дисперсии. Остановимся на использовании ОМНК для корректировки гетероскедастичности.
Слайд 48Как и раньше, будем предполагать, что среднее значение остатков равно
нулю, а дисперсия не остается постоянной для разных значений фактора,
а изменяется пропорционально величине Ki , т.е.
где - дисперсия ошибки при конкретном i-м значении фактора;
Слайд 49σ2 - постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности
остатков;
Ki – коэффициент пропорциональности, меняющийся с изменением величины фактора, что
и обусловливает неоднородность дисперсии.
Слайд 50В общем виде для уравнения
модель примет вид:
Слайд 51В ней остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции,
можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные,
зафиксированные в ходе i-го наблюдения, на
Тогда дисперсия остатков будет величиной постоянной, т.е.
= σ2.
Слайд 52Таким образом, от регрессии у по х мы перейдем к
регрессии на новых переменных:
Уравнение регрессии примет вид:
Слайд 53Исходные данные для данного уравнения будут иметь вид:
Слайд 54По отношению к обычной регрессии уравнение с новыми, преобразованными, переменными
представляет собой взвешенную регрессию, в которой переменные х
и у
взяты с весами
Слайд 55Оценка параметров нового уравнения с преобразованными переменными приводит к взвешенному
методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений
вида
Слайд 56Соответственно получим следующую систему нормальных уравнений:
Слайд 57Если преобразованные переменные х и у взять в отклонениях от
средних уровней, то коэффициент регрессии b можно определить как
Слайд 58При обычном применении МНК для переменных в отклонениях от средних
уровней коэффициент регрессии определяется по формуле
Слайд 59Таким образом, при использовании обобщенного МНК с целью корректировки гетероскедастичности
коэффициент регрессии b представляет собой взвешенную величину по отношению к
обычному МНК с весами 1/K.
Слайд 60Рассмотрим данный подход для уравнения множественной регрессии.
Пусть рассматривается модель вида
y
= a + b1x1 + b2x2 + ε,
для которой дисперсия
остатков оказалась пропорциональной K2i , где Ki – коэффициент пропорциональности, принимающий различные значения для соответствующих i значений факторов х1 и х2.
Слайд 61Так как
рассматриваемая модель примет вид
где ошибки гетероскедастичны.
Слайд 62Для перехода к новому уравнению с гомоскедастичными остатками разделим все
члены исходного уравнения на коэффициент пропорциональности K.
Тогда
Слайд 63Это уравнение не содержит свободного члена. Вместе с тем, найдя
переменные в новом преобразованном виде и применяя к ним обычный
МНК, получим иную спецификацию модели:
Слайд 64Параметры такой модели зависят от концепции, принятой для коэффициентов пропорциональности
Ki. В эконометрических исследованиях довольно часто выдвигается гипотеза, что остатки
εi пропорциональны значениям фактора.
Слайд 65Так, если в уравнении
предположить, что Е = εх1, т.е.
K = x1 и
то ОМНК предполагает оценку параметров следующего
трансформированного уравнения:
Слайд 66Если предположить, что ошибки пропорциональны xp, то модель примет вид:
Слайд 67Применение в этом случае обобщенного МНК приводит к тому, что
наблюдения с меньшими значениями преобразованных переменных x/K имеют при определении
параметров регрессии относительно больший вес, чем с первоначальными переменными.
Слайд 68Вместе с тем следует иметь в виду, что новые преобразованные
переменные получают новое экономическое содержание и их регрессия имеет иной
смысл, чем регрессия по исходным данным.