Разделы презентаций


Прогнозирование на основе регрессии. Оценка качества модели

Содержание

Корреляционный и регрессионный анализЕсть два самостоятельных процесса2. Устанавливается, есть ли между ними значимая связь3. Устанавливается – какая математическая связь (уравнение)есть между воздействующим фактором и результативным

Слайды и текст этой презентации

Слайд 1Прогнозирование на основе регрессии. Оценка качества модели

Прогнозирование на основе регрессии. Оценка качества модели

Слайд 2Корреляционный и регрессионный анализ
Есть два
самостоятельных
процесса
2. Устанавливается, есть ли

между ними значимая связь
3. Устанавливается – какая математическая связь (уравнение)
есть

между воздействующим фактором и результативным
Корреляционный и регрессионный анализЕсть два самостоятельных процесса2. Устанавливается, есть ли между ними значимая связь3. Устанавливается – какая

Слайд 3Задача регрессионного анализа

Задача регрессионного анализа

Слайд 4Линейная регрессия

Линейная регрессия

Слайд 5Линейная регрессия
Под моделью линейной регрессии будем понимать модель вида:



где
y

– объясняемый ряд (выходной параметр, отклик, целевой показатель, зависимая переменная),


x1, …, xk – объясняющие ряды (входные параметры, предикторы, независимые переменные),
e – вектор ошибок модели,
b0, b1, …, bk – коэффициенты регрессии.
Необходимо определить коэффициенты регрессии.

Линейная регрессияПод моделью линейной регрессии будем понимать модель вида: гдеy – объясняемый ряд (выходной параметр, отклик, целевой

Слайд 6Применение регрессионных моделей
1 Для предсказания
2 Для исследования

Применение регрессионных моделей1 Для предсказания2 Для исследования

Слайд 7Остатки регрессии

Остатки регрессии

Слайд 8RSS (Residual Sum of Squares)

RSS (Residual Sum of Squares)

Слайд 9RSS (Residual Sum of Squares)

RSS (Residual Sum of Squares)

Слайд 10Метод наименьших квадратов

Метод наименьших квадратов

Слайд 11Метод наименьших квадратов (регрессия на один признак)

Метод наименьших квадратов (регрессия на один признак)

Слайд 12Предобработка данных
Возможно ли уменьшить количество признаков? – применяют методы снижения

размерности признакового пространства
Пропуски в данных?
Выбросы?

Предобработка данныхВозможно ли уменьшить количество признаков? – применяют методы снижения размерности признакового пространстваПропуски в данных? Выбросы?

Слайд 13Построение модели регрессии с использованием SAS/STAT
1. Исследовать данные с помощью

утилит Описание данных, Фильтрация данных (при необходимости), Стандартизация данных, Исследование

данных, Сводная статистика
2. Установить наличие и характер связи между признаками с помощью утилиты Корреляционный анализ. Предикторы (входные переменные), имеющие сильную взаимную связь – кандидаты на исключение из модели.
(Выявление мультиколлинеарности и возможности снижения размерности признакового пространства)
Построение модели регрессии  с использованием SAS/STAT1. Исследовать данные с помощью утилит Описание данных, Фильтрация данных (при

Слайд 14Качественная оценка тесноты связи

Качественная оценка тесноты связи

Слайд 15boston.csv
CRIM - уровень преступности на душу населения по районам
ZN -

доля жилой земли, зонированной для участков более 25 000 кв.
INDUS

- доля неторговых площадей на город
CHAS - фиктивная переменная Чарльза (= 1, если тракт ограничивает реку; 0 в противном случае)
NOX - концентрация оксидов азота (частей на 10 миллионов)
RM - среднее количество комнат в доме
AGE - доля владельцев домов, построенных до 1940 года
DIS - взвешенные расстояния до пяти бостонских центров занятсти
RAD - индекс доступности к радиальным магистралям
TAX - ставка налога на имущество на полную стоимость за 10 000 долл.
PTRATIO - соотношение учеников и учителей по районам
Black - доля чернокожих по районам
LSTAT - % населения низкого статуса
MEDV - средняя стоимость домов, занимаемых владельцами, в 1000 долл.
boston.csvCRIM - уровень преступности на душу населения по районамZN - доля жилой земли, зонированной для участков более

Слайд 16Качественная оценка тесноты связи

Качественная оценка тесноты связи

Слайд 17Построение модели регрессии с использованием SAS/STAT
3. Разбиение выборки (обучающая и

тестовая)
4. Настройка ролей (зависимая и независимые переменные)

Построение модели регрессии  с использованием SAS/STAT3. Разбиение выборки (обучающая и тестовая) 4. Настройка ролей (зависимая и

Слайд 18Построение модели регрессии с использованием SAS/STAT
5. Выбор инструментов моделирования в

SAS/STAT:
выбор вида модели и формирование математической конструкции модели с помощью

Конструктора эффектов модели;
выбор алгоритмов отбора признаков в модель
Построение модели регрессии  с использованием SAS/STAT5. Выбор инструментов моделирования в SAS/STAT:выбор вида модели и формирование математической

Слайд 19Выбор инструментов в SAS/STAT

Выбор инструментов в SAS/STAT

Слайд 20Выбор инструментов в SAS/STAT-1

Выбор инструментов в SAS/STAT-1

Слайд 21Выбор инструментов в SAS/STAT
Y = f(x1, x2, x3, x4,

x5…x12)
Y =b1x1 + b2x2+ b3x3+ b4x4…+ b12x12 – линейная модель
Y

=b1x12 + b2x2+ b3х1x3+ b4x42…+ b12x9x12 – нелинейная модель
Y =b1x1x2 + b2x23+ b3x3+ b4x4…+ b12x12 – нелинейная модель

В Конструкторе эффектов модели можно формировать различные математические модели для одного и того же набора входных/выходных переменных
Выбор инструментов в SAS/STAT Y = f(x1, x2, x3, x4, x5…x12)Y =b1x1 + b2x2+ b3x3+ b4x4…+ b12x12

Слайд 22Выбор инструментов в SAS/STAT-2
NONE - не выполняет выбор переменных,

использует полную модель
FORWARD - использует алгоритм прямого выбора для выбора

переменных. Этот метод начинается с отсутствия переменных в модели и добавляет переменные одну за другой в модель. На каждом шаге добавляемая переменная лучше всего подходит для модели.
BACKWARD - использует алгоритм обратного исключения для выбора переменных (начинается с полной модели и исключает переменные по одной из модели). На каждом шаге переменная, которая вносит наименьший вклад в модель, удаляется
LASSO
LAR (использует регрессию наименьшего угла)
MAXR - использует максимальное улучшение R-квадрата для выбора моделей
MINR - использует минимальное улучшение R-квадрата для выбора моделей.
RSQUARE
ADJRSQ
Выбор инструментов в SAS/STAT-2 NONE - не выполняет выбор переменных, использует полную модельFORWARD - использует алгоритм прямого

Слайд 23Построение модели регрессии с использованием SAS/STAT
6. Оценка качества модели
7. Сравнение

моделей и выбор наилучшей модели по заданному критерию

Построение модели регрессии  с использованием SAS/STAT6. Оценка качества модели7. Сравнение моделей и выбор наилучшей модели по

Слайд 24Оценка значимости коэффициентов регрессии
оценка значимости каждого коэффициента регрессии (t-статистика Стьюдента,

p-уровень значимости (

Оценка значимости коэффициентов регрессииоценка значимости каждого коэффициента регрессии (t-статистика Стьюдента, p-уровень значимости (

Слайд 25Качество регрессионной модели
Коэффициент детерминации / скорректированный коэффициент детерминации (>0,75)
F-статистика Фишера,

p-уровень значимости (

ошибка (MAE)
Среднее квадратичное отклонение (MSE) Среднеквадратичная ошибка (RMSE) ( min)
Качество регрессионной моделиКоэффициент детерминации / скорректированный коэффициент детерминации (>0,75)F-статистика Фишера, p-уровень значимости (

Слайд 26Качество регрессионной модели

Качество регрессионной модели

Слайд 27Качество регрессионной модели

Качество регрессионной модели

Слайд 28Качество регрессионной модели
Скорректированный коэффициент детерминации
Проблемы с использованием R2 заключаются в том, что

его значение не уменьшается при добавлении в уравнение факторов, сколь

плохи бы они ни были. Поэтому сравнивать модели с разным количеством факторов, используя R2, не имеет смысла. Для этого используется скорректированный коэффициент детерминации Adj R2:

где k – число факторов, включенных в модель.
Коэффициент Adj R2 также принимает значения от 0 до 1, но никогда не будет больше, чем значение R2.

Качество регрессионной моделиСкорректированный коэффициент детерминацииПроблемы с использованием R2 заключаются в том, что его значение не уменьшается при добавлении в

Слайд 29Качество регрессионной модели
Анализ регрессионных остатков
Модель считается качественной, если остатки модели

не коррелируют между собой, то есть являются независимыми нормально распределенными

случайными величинами с нулевым средним, и в их значениях должен отсутствовать тренд. Анализ регрессионных остатков - это процесс проверки выполнения этих условий. В противном случае имеет место постоянное однонаправленное воздействие на объясняемую переменную не учтённых в модели факторов. Это влияет на качество оценок модели, делая их неэффективными.
http://www.machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D1%85_%D0%BE%D1%81%D1%82%D0%B0%D1%82%D0%BA%D0%BE%D0%B2
Качество регрессионной моделиАнализ регрессионных остатковМодель считается качественной, если остатки модели не коррелируют между собой, то есть являются

Слайд 30Анализ остатков

Анализ остатков

Слайд 31Качество регрессионной модели

Качество регрессионной модели

Слайд 32Задание 3
1. На основе индивидуальных данных о недвижимости (файл “boston.csv”)

проведите оценку основных статистических характеристик набора данных с использованием SAS

Studio.
2. Исследуйте набор данных на наличие мультиколлинеарности.
3. С помощью корреляционного анализа ответьте на вопросы: «Можно ли снизить размерность признакового пространства? Целесообразно ли это? Почему?» Обоснуйте свой ответ.
4. Протестируйте различные методы отбора переменных для линейной и нелинейной модели. Эффекты моделей задайте самостоятельно с использованием Конструктора эффектов модели. Для пошаговых методов отбора переменных исследуйте влияние порогов для p-value для входных (включаемых в регрессию) и выходных (исключаемых из регрессии) переменных. Сравните построенные модели по критериям оценки качества модели, рассмотренным в данной презентации. Результаты сравнения сведите в таблицу.
5. Выберите «наилучшую» модель на основе проведенных исследований.
Задание 31. На основе индивидуальных данных о недвижимости (файл “boston.csv”) проведите оценку основных статистических характеристик набора данных

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика