Разделы презентаций


Тема 7. Корреляция и регрессия

Содержание

ПримерыМенеджер интересуется, зависит ли объем продаж в этом месяце от объема рекламы в этом же периоде?Преподаватель хочет выяснить, есть ли зависимость между количеством часов, потраченных студентом на занятия, и результатами экзамена?Врач

Слайды и текст этой презентации

Слайд 1Тема 7. Корреляция и регрессия
7.1. Корреляция
7.2. Значимость коэффициента корреляции
7.3.

Регрессия
7.4. Надежность прогноза

Тема 7.  Корреляция и регрессия7.1. Корреляция 7.2. Значимость коэффициента корреляции7.3. Регрессия7.4. Надежность прогноза

Слайд 2Примеры
Менеджер интересуется, зависит ли объем продаж в этом месяце от

объема рекламы в этом же периоде?
Преподаватель хочет выяснить, есть ли

зависимость между количеством часов, потраченных студентом на занятия, и результатами экзамена?
Врач исследует, влияет ли кофеин на сердечные болезни и существует ли связь между возрастом человека и его кровяным давлением?
Зоолог стремится узнать, есть ли связь между весом определенного животного при рождении и его продолжительностью жизни.
Социолог исследует, какова связь между уровнем преступности и уровнем безработицы в регионе? Есть ли зависимость между расходами на жилье и совокупным доходом семьи? Связаны ли доход от профессиональной деятельности и продолжительность образования?

На эти вопросы можно ответить, используя методы корреляционного и регрессионного анализа, рассмотренные в материалах этой лекции.

ПримерыМенеджер интересуется, зависит ли объем продаж в этом месяце от объема рекламы в этом же периоде?Преподаватель хочет

Слайд 3Постановка проблемы
Четыре вопроса:

Вопрос 1. Существует ли связь между двумя или

более переменными?

Вопрос 2. Какой тип имеет эта связь?

Вопрос 3.

Насколько она сильна?

Вопрос 4. Какой можно сделать прогноз, основываясь на этой связи?

Постановка проблемыЧетыре вопроса:Вопрос 1. Существует ли связь между двумя или более переменными?Вопрос 2. Какой тип имеет эта

Слайд 4Методы
Корреляция – статистический метод, позволяющий определить, существует ли зависимость между

переменными и на сколько она сильна.

Регрессия – статистический метод,

который используется для описания характера связи между переменными (положительная или отрицательная, линейная или нелинейная зависимость).


МетодыКорреляция – статистический метод, позволяющий определить, существует ли зависимость между переменными и на сколько она сильна. Регрессия

Слайд 5Простая и множественная связь
Множественная связь означает изучение несколько переменных.
Простая

связь означает изучение двух переменных.
Стаж менеджера
по продажам
на

фирме

Годовой объем
продаж

Успеваемость
студента

Успеваемость
в школе

Время
на занятия

Коэффициент
IQ

Простая и множественная связьМножественная связь означает изучение несколько переменных. Простая связь означает изучение двух переменных. Стаж менеджера

Слайд 6Визуальный анализ связи
Рассматриваем две переменные: «продолжительность занятий» студентов перед экзаменом

и «итоговая оценка» (из 100 балов). Пытаемся визуально определить связь.

Правда ли, что чем больше времени занятий, тем выше оценка?
Визуальный анализ связиРассматриваем две переменные: «продолжительность занятий» студентов перед экзаменом и «итоговая оценка» (из 100 балов). Пытаемся

Слайд 7Независимая и зависимая переменные
Независимая переменная – это та переменная в

регрессии, которую можно изменять. В данном случае, переменная «количество часов

занятий» является независимой и обозначается как переменная х.
Зависимая переменная – это переменная в регрессии, которую нельзя изменять. «Экзаменационная оценка» является зависимой переменной. Она обозначается у.

Причиной такого разделения переменных является то, что предполагается, что оценка, которую получает студент, зависит от количества часов, которые он посвятил занятиям. Предполагается также, что студенты могут регулировать количество часов, которое они тратят на занятия.

Не всегда можно ясно определить, какая переменная зависимая, а какая независимая, и выбор иногда делается произвольно.
Независимая и зависимая переменныеНезависимая переменная – это та переменная в регрессии, которую можно изменять. В данном случае,

Слайд 8Положительная и отрицательная зависимость
Визуально видно, что имеет место линейная зависимость,

которая отрицательна. Это означает, что увеличение переменной x приводит к

уменьшению второй переменной y.
Положительная и отрицательная зависимостьВизуально видно, что имеет место линейная зависимость, которая отрицательна. Это означает, что увеличение переменной

Слайд 9Нелинейная зависимость
График показывает, что имеется зависимость, которая не является линейной.

Возможно, эта зависимость квадратичная или какая-то иная.

Нелинейная зависимостьГрафик показывает, что имеется зависимость, которая не является линейной. Возможно, эта зависимость квадратичная или какая-то иная.

Слайд 10Отсутствие зависимости
График сообщает нам об отсутствии зависимости продолжительности занятий в

неделю от количества выпиваемого пива (в бутылках).

Отсутствие зависимостиГрафик сообщает нам об отсутствии зависимости продолжительности занятий в неделю от количества выпиваемого пива (в бутылках).

Слайд 117.1. Корреляция
Связь между двумя переменными

7.1. КорреляцияСвязь между двумя переменными

Слайд 12Коэффициент корреляции
Коэффициент корреляции измеряет силу и направление связи между двумя

переменными.

Обозначения:
Выборочный коэффициент корреляции r
Коэффициент корреляции генеральной совокупности ρ

Коэффициент корреляцииКоэффициент корреляции измеряет силу и направление связи между двумя переменными. Обозначения:Выборочный коэффициент корреляции 			r Коэффициент корреляции

Слайд 13Коэффициент корреляции
выборочное среднее по х
выборочное среднее по y

Коэффициент корреляциивыборочное среднее по хвыборочное среднее по y

Слайд 14Коэффициент корреляции
выборочное среднее по х
выборочное среднее по y
выборочная дисперсия по

x
выборочная дисперсия по y

Коэффициент корреляциивыборочное среднее по хвыборочное среднее по yвыборочная дисперсия по xвыборочная дисперсия по y

Слайд 15Коэффициент корреляции
выборочная ковариация

Коэффициент корреляциивыборочная ковариация

Слайд 16Коэффициент корреляции
выборочная ковариация
выборочный коэффициент корреляции

Коэффициент корреляциивыборочная ковариациявыборочный коэффициент корреляции

Слайд 17Свойства коэффициента корреляции
1)

Свойства коэффициента корреляции1)

Слайд 18Свойства коэффициента корреляции
1)
2) Если

для всех i=1,…n, то

при a>0

при a<0

Коэффициент корреляции – мера линейной зависимости двух случайных
величин

Свойства коэффициента корреляции1)2) Если

Слайд 19Значения коэффициента корреляции

Если между переменными существует сильная положительная связь, то

значение r будет близко к +1.

Если между переменными

существует сильная отрицательная связь, то значение r будет близко к –1.

Когда между переменными нет линейной связи или она очень слабая, значение r будет близко к 0.

-1

+1

0

Сильная
отрицательная
связь

Сильная
положительная
связь

Отсутствие
связи

Значения коэффициента корреляцииЕсли между переменными существует сильная положительная связь, то значение r будет близко к  +1.

Слайд 22Пример вычисления
Вычислим коэффициент корреляции для примера со студентами.

Пример вычисленияВычислим коэффициент корреляции для примера со студентами.

Слайд 23Шаг 1. Достроим таблицу
Достраиваем таблицу тремя столбцами и итоговой строкой.

Проводим необходимые вычисления.

Шаг 1. Достроим таблицуДостраиваем таблицу тремя столбцами и итоговой строкой. Проводим необходимые вычисления.

Слайд 24Шаги 2-3. Подставим в формулу, получим ответ
Подставим данные в формулу

и найдем r :











Ответ. Значение коэффициента корреляции равно 0,92. Это

означает, что существует сильная положительная связь.
Шаги 2-3. Подставим в формулу, получим ответПодставим данные в формулу и найдем r :Ответ. Значение коэффициента корреляции

Слайд 25Шаги 2-3. Подставим в формулу, получим ответ

Шаги 2-3. Подставим в формулу, получим ответ

Слайд 267.2. Значимость коэффициента корреляции
Проверка гипотезы

7.2. Значимость коэффициента корреляцииПроверка гипотезы

Слайд 27Постановка проблемы
Коэффициент корреляции генеральной совокупности ρ – это корреляция, вычисленная

с использованием всевозможных пар значений признаков (х,у) генеральной совокупности. Коэффициент

ρ неизвестен.
Вместо него известна оценка r, полученная по выборке. Предположим, что r=0,07. Можно ли считать, что ρ=0 и связь между признаками отсутствует?


Постановка проблемыКоэффициент корреляции генеральной совокупности ρ – это корреляция, вычисленная с использованием всевозможных пар значений признаков (х,у)

Слайд 28Гипотезы
Гипотезы сформулированы следующим образом.

Основная гипотеза Н0: ρ = 0
Альтернативная гипотеза Н1:

ρ ≠ 0

Основная гипотеза утверждает, что не существует корреляции между

признаками х и у в генеральной совокупности. Альтернативная гипотеза утверждает, что корреляция между признаками х и у в генеральной совокупности значима.

ГипотезыГипотезы сформулированы следующим образом.Основная гипотеза		Н0: ρ = 0 Альтернативная гипотеза	Н1: ρ ≠ 0Основная гипотеза утверждает, что не

Слайд 29Статистика и критическая область
Для проверки гипотезы используется t-критерий с n

– 2 степенями свободы:






Границы двусторонней критической области находятся при помощи
СТЬЮДРАСПОБР(альфа,n-2)

Статистика и критическая областьДля проверки гипотезы используется t-критерий с n – 2 степенями свободы:Границы двусторонней критической области

Слайд 30Пример
Задача. Рассчитан коэффициент корреляции и его значение оказалось равно

0,6. Выборка содержала 6 пар. На уровне значимости 0,05 проверить

гипотезу о значимости коэффициента корреляции.

Пример Задача. Рассчитан коэффициент корреляции и его значение оказалось равно 0,6. Выборка содержала 6 пар. На уровне

Слайд 31Пример
Задача. Рассчитан коэффициент корреляции и его значение оказалось равно

0,6. Выборка содержала 6 пар. На уровне значимости 0,05 проверить

гипотезу о значимости коэффициента корреляции.

Решение.
Шаг 1. Н0: ρ = 0 Н1: ρ ≠ 0
Пример Задача. Рассчитан коэффициент корреляции и его значение оказалось равно 0,6. Выборка содержала 6 пар. На уровне

Слайд 32Пример
Задача. Рассчитан коэффициент корреляции и его значение оказалось равно

0,6. Выборка содержала 6 пар. На уровне значимости 0,05 проверить

гипотезу о значимости коэффициента корреляции.

Решение.
Шаг 1. Н0: ρ = 0 Н1: ρ ≠ 0
Шаг 2.
Пример Задача. Рассчитан коэффициент корреляции и его значение оказалось равно 0,6. Выборка содержала 6 пар. На уровне

Слайд 33Пример
Задача. Рассчитан коэффициент корреляции и его значение оказалось равно

0,6. Выборка содержала 6 пар. На уровне значимости 0,05 проверить

гипотезу о значимости коэффициента корреляции.

Решение.
Шаг 3. Критическая область: α = 0,05
=СТЬЮДРАСПОБР(0,05;6-2)
2,776
Пример Задача. Рассчитан коэффициент корреляции и его значение оказалось равно 0,6. Выборка содержала 6 пар. На уровне

Слайд 34Решение
Шаг 4. Сравниваем значение статистики с критической областью. Нулевую

гипотезу отвергаем, так как значение критерия попадает в область критических

значений.







Делаем вывод, что значимая связь между признаками отсутствует.

2.776

-2.776

1.5

H1

H1

H0

Решение Шаг 4. 	Сравниваем значение статистики с критической областью. Нулевую гипотезу отвергаем, так как значение критерия попадает

Слайд 35Корреляция и причинная связь
Когда проверка гипотезы показывает, что существует значимая

связь между переменными, необходимо получить уравнение, описывающее эту связь.

Корреляция и причинная связьКогда проверка гипотезы показывает, что существует значимая связь между переменными, необходимо получить уравнение, описывающее

Слайд 367.3. Регрессия

7.3. Регрессия

Слайд 37Исследование зависимости
На графическом изображении видно, что с увеличением роста увеличивается

и вес. Зависимость имеет приближенно линейный характер. Значения переменных колеблются

вокруг некоей гипотетической прямой линии, которая называется линией регрессии. Как её построить?







Исследование зависимостиНа графическом изображении видно, что с увеличением роста увеличивается и вес. Зависимость имеет приближенно линейный характер.

Слайд 38МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
y – зависимая (объясняемая) переменная
х – независимая

(объясняющая) переменная
a b – неизвестные параметры модели

- случайная составляющая
МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИy – зависимая (объясняемая) переменнаях – независимая (объясняющая) переменная a b – неизвестные параметры

Слайд 39Y
y1
y2
y3
y4
x1
x2
x3
x4
Если случайной составляющей нет

Yy1y2y3y4x1x2x3x4Если случайной составляющей нет

Слайд 40На самом деле
Y
y2
y1
y4
y3
x1
x2
x3
x4

На самом делеYy2y1y4y3x1x2x3x4

Слайд 41


Задача состоит в нахождении по выборке оценок и

так, чтобы построенная линия регрессии была наилучшей

в определенном смысле среди всех других.




Задача состоит в нахождении по выборке оценок   и    так, чтобы построенная линия

Слайд 42МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
Предположим, что необходимо получить функцию
спроса на

некоторый товар в зависимости от дохода.

Проводится опрос домохозяйств.
1. Среднедушевой доход

домохозяйства?
2. Сколько единиц товара приобрело домохозяйство за месяц?
МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИПредположим, что необходимо получить функцию спроса на некоторый товар в зависимости от дохода.Проводится опрос

Слайд 43МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

Слайд 44МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
Нанесем точки на график

МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИНанесем точки на график

Слайд 45Метод наименьших квадратов
Нанесем точки на график
Точки разбросаны вокруг некоторой прямой!
Как

ее найти?

Метод наименьших квадратовНанесем точки на графикТочки разбросаны вокруг некоторой прямой!Как ее найти?

Слайд 46Метод наименьших квадратов
Нанесем точки на график
Расстояние от каждой точки до

прямой должно
быть как можно меньше!

Метод наименьших квадратовНанесем точки на графикРасстояние от каждой точки до прямой должно быть как можно меньше!

Слайд 47Метод наименьших квадратов
Нанесем точки на график
Плохая прямая!

Метод наименьших квадратовНанесем точки на графикПлохая прямая!

Слайд 48Метод наименьших квадратов
Нанесем точки на график
Хорошая прямая! Но может быть

есть еще лучше?

Метод наименьших квадратовНанесем точки на графикХорошая прямая! Но может быть есть еще лучше?

Слайд 49Метод наименьших квадратов
Нанесем точки на график
Уравнение прямой в общем виде

y=ax+b. Надо
найти наиболее подходящие a и b.

Метод наименьших квадратовНанесем точки на графикУравнение прямой в общем виде y=ax+b. Надо найти наиболее подходящие a и

Слайд 50Обозначим

доход 1-го домохозяйства
спрос 1-го домохозяйства на продукт
x
y
y=ax+b

Обозначим доход 1-го домохозяйстваспрос 1-го домохозяйства на продуктxyy=ax+b

Слайд 51Обозначим

доход 1-го домохозяйства
спрос 1-го домохозяйства на продукт
x
y
y=ax+b
Отклонение точки
от

прямой. Должно быть
как можно меньше!

Обозначим доход 1-го домохозяйстваспрос 1-го домохозяйства на продуктxyy=ax+bОтклонение точки от прямой. Должно бытькак можно меньше!

Слайд 52Обозначим

доход 1-го домохозяйства
спрос 1-го домохозяйства на продукт
x
y
y=ax+b
Отклонение точки
от

прямой. Должно быть
как можно меньше!

Обозначим доход 1-го домохозяйстваспрос 1-го домохозяйства на продуктxyy=ax+bОтклонение точки от прямой. Должно бытькак можно меньше!

Слайд 53А если точка лежит ниже прямой?
Тогда отклонение

x
y
y=ax+b
Отклонение точки
от

прямой. Должно быть
как можно меньше!

А если точка лежит ниже прямой?Тогда отклонение xyy=ax+bОтклонение точки от прямой. Должно бытькак можно меньше!

Слайд 54Как учесть сразу оба случая?
Квадрат отклонения



должен быть как можно меньше.

x

y

y=ax+b

Отклонение точки
от прямой. Должно быть
как можно меньше!

Как учесть сразу оба случая?Квадрат отклонения

Слайд 55Квадрат отклонения до второй точки тоже должен быть как можно

меньше.

Квадрат отклонения до второй точки тоже должен быть как можно меньше.

Слайд 56Квадрат отклонения до второй точки тоже должен быть как можно

меньше.
И для третьей точки

Квадрат отклонения до второй точки тоже должен быть как можно меньше.И для третьей точки

Слайд 57Предположим, что у нас n точек.
Тогда и для последней точки

Предположим, что у нас n точек.Тогда и для последней точки

Слайд 58Как учесть все точки сразу?




Сумма квадратов расстояний от точек до

прямой должна быть как можно меньше.

Как учесть все точки сразу?Сумма квадратов расстояний от точек до прямой должна быть как можно меньше.

Слайд 59Как учесть все точки сразу?




Сумма квадратов расстояний от точек до

прямой должна быть как можно меньше.
обозначение

Как учесть все точки сразу?Сумма квадратов расстояний от точек до прямой должна быть как можно меньше.обозначение

Слайд 60Как учесть все точки сразу?




Получили функцию двух переменных, для которой

надо найти минимум,
т.е. надо исследовать на экстремум.

Как учесть все точки сразу?Получили функцию двух переменных, для которой надо найти минимум,т.е. надо исследовать на экстремум.

Слайд 61это просто числа, нам известные
и

это просто числа, нам известныеи

Слайд 63Вернемся к примеру

Вернемся к примеру

Слайд 64Вернемся к примеру

Вернемся к примеру

Слайд 65y=0,17x+9,33 - функция спроса в зависимости
от дохода.

y=0,17x+9,33 - функция спроса в зависимости от дохода.

Слайд 66y=0,17x+9,33 - функция спроса в зависимости
от дохода.

y=0,17x+9,33 - функция спроса в зависимости от дохода.

Слайд 67Пример вычисления
Найдем линейное уравнение регрессии для нашего примера.

Пример вычисленияНайдем линейное уравнение регрессии для нашего примера.

Слайд 68Шаг 1. Достроим таблицу
Проводим необходимые вычисления.











Ответ. Получили уравнение «наилучшей

прямой»:
y = 5,57 x + 54,54

Шаг 1. Достроим таблицуПроводим необходимые вычисления. Ответ. Получили уравнение «наилучшей прямой»:			 y = 5,57 x + 54,54

Слайд 69Интерпретация
1. Увеличение времени подготовки на 1 час приводит к

улучшению результата на 5,57 балла.

2. Если не заниматься вообще –

получишь 54,5 балла.



Интерпретация некорректна, выходим за границы
анализируемой области!

y = 5,57 x + 54,54

Интерпретация 1. Увеличение времени подготовки на 1 час приводит к улучшению результата на 5,57 балла.2. Если не

Слайд 70Отчет из Excel
Отчет о расчете коэффициентов регрессии, полученный из Excel.

Отчет из ExcelОтчет о расчете коэффициентов регрессии, полученный из Excel.

Слайд 71Будьте осторожны с прогнозами!
Когда прогнозы распространяются за пределы исследуемых данных,

интерпретировать результаты необходимо с особой осторожностью.


Помните, что, когда делаются

прогнозы, они основываются на текущих условиях или на предположении, что существующие ныне тенденции продолжатся в будущем. Это предположение может оправдаться или не оправдаться.
Будьте осторожны с прогнозами!Когда прогнозы распространяются за пределы исследуемых данных, интерпретировать результаты необходимо с особой осторожностью. Помните,

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика