Разделы презентаций


Статистические методы в QSAR Часть 2 Многомерный анализ данных

Содержание

Затронутые темыМногомерный анализ данныхПонятие о дескрипторном пространстве, химическом расстоянииПонятие о дискриминантном и кластерном анализахМетрика дескрипторного пространства. Коллинеарные и ортогональные дескрипторыЛатентные дескрипторы, оценки (scores) и нагрузки (loading)Понятие о факторном анализе и методе

Слайды и текст этой презентации

Слайд 1Статистические методы в QSAR
Часть 2
Многомерный анализ данных

Статистические методы в QSAR Часть 2Многомерный анализ данных

Слайд 2Затронутые темы
Многомерный анализ данных
Понятие о дескрипторном пространстве, химическом расстоянии
Понятие о

дискриминантном и кластерном анализах
Метрика дескрипторного пространства. Коллинеарные и ортогональные дескрипторы
Латентные

дескрипторы, оценки (scores) и нагрузки (loading)
Понятие о факторном анализе и методе главных компонент (PCA)
Метод частичных наименьших квадратов (PLS)
Затронутые темыМногомерный анализ данныхПонятие о дескрипторном пространстве, химическом расстоянииПонятие о дискриминантном и кластерном анализахМетрика дескрипторного пространства. Коллинеарные

Слайд 3Многомерный анализ данных
Традиционные регрессионные процедуры - число столбцов в матрицах

дескрипторов X относительно невелико, и между ними отсутствуют линейные зависимости


Процедуры многомерного анализа данных могут работать с матрицами дескрипторов X, содержащими большое количество столбцов, многие из которых линейно-зависимы

Многомерный анализ данныхТрадиционные регрессионные процедуры - число столбцов в матрицах дескрипторов X относительно невелико, и между ними

Слайд 4Центрирование данных для многомерного анализа
, где
, где

Центрирование данных для многомерного анализа, где, где

Слайд 5Дескрипторное пространство (пространство признаков, feature space, M-пространство)
Оси x1, x2 – дескрипторы,

точки x1, x2 – соединения

Дескрипторное пространство (пространство признаков, feature space,  M-пространство)Оси x1, x2 – дескрипторы, точки x1, x2 – соединения

Слайд 6Пространство соединений (пространство объектов, object space, N-пространство)
Оси x1, x2 –

соединения, вектора x1, x2 – дескрипторы

Пространство соединений (пространство объектов, object space,  N-пространство)Оси x1, x2 – соединения, вектора x1, x2 – дескрипторы

Слайд 7Метрика дескрипторного пространства (химическое расстояние)
Эвклидово расстояние
Манхэттоновское расстояние
Метрика Минковского

Метрика дескрипторного пространства  (химическое расстояние)Эвклидово расстояниеМанхэттоновское расстояниеМетрика Минковского

Слайд 8Принцип сходства (Similarity Principle)
Постулируется принцип: структурно близкие химические соединения обладают сходными

свойствами
Предполагается, что всегда можно найти такой набор дескрипторов и такую

метрику дескрипторного пространства, чтобы этот принцип выполнялся
Принцип сходства (Similarity Principle)Постулируется принцип: структурно близкие химические соединения обладают сходными свойствамиПредполагается, что всегда можно найти такой

Слайд 9Дискриминантный анализ
активное соединение
неактивное соединение

Дискриминантный анализактивное соединениенеактивное соединение

Слайд 10Дискриминантный анализ
Da
Dna
Соединение спрогнозировано как активное, поскольку Da < Dna

Дискриминантный анализDaDnaСоединение спрогнозировано как активное, поскольку Da < Dna

Слайд 11Дискриминантный анализ (выбор набора дескрипторов)
Плохой набор дескрипторов
Хороший набор дескрипторов

Дискриминантный анализ  (выбор набора дескрипторов)Плохой набор дескрипторовХороший набор дескрипторов

Слайд 12Дискриминантный анализ (выбор метрики)
Метрика Эвклида
Метрика Махаланобиса

Дискриминантный анализ  (выбор метрики)Метрика ЭвклидаМетрика Махаланобиса

Слайд 13Метод ближайших соседей (kNN – k Nearest Neighbours)
Соединение прогнозируется как

активное, поскольку Da < Dna

Метод ближайших соседей  (kNN – k Nearest Neighbours)Соединение прогнозируется как активное, поскольку Da < Dna

Слайд 14Кластерный анализ
Задача кластерного анализа – изучение внутренней структуры и выявление

группировки данных
Дендограмма

Кластерный анализЗадача кластерного анализа – изучение внутренней структуры и выявление группировки данныхДендограмма

Слайд 15Свойства пространства соединений
- скалярное произведение векторов
- косинус угла между векторами
-

ковариация
- коэффициент корреляции

Свойства пространства соединений- скалярное произведение векторов- косинус угла между векторами- ковариация- коэффициент корреляции

Слайд 16Свойства пространства соединений
Коллинеарные вектора – дескрипторы статистически эквивалентны
Перпендикулярные вектора –

дескрипторы линейно независимы

Свойства пространства соединенийКоллинеарные вектора – дескрипторы статистически эквивалентныПерпендикулярные вектора – дескрипторы линейно независимы

Слайд 17Латентные переменные
Одной из главных задач многомерного анализа данных является выявление

таких комбинаций исходных переменных (дескрипторов), которые бы позволили эффективно решать

актуальные задачи:

Описать данные наименьшим числом переменных (факторный анализ)
Добиться максимального разделения классов (факторный дискриминантных анализ)
Построить регрессионную модель с наилучшей прогнозирующей способностью (метод частичный наименьших квадратов)
и т.д.

Подобные комбинации исходных переменных называются латентными переменными (скрытыми факторами, оценками)

Латентные переменныеОдной из главных задач многомерного анализа данных является выявление таких комбинаций исходных переменных (дескрипторов), которые бы

Слайд 18Линейные латентные переменные
Матрица оценок (scores)
Матрица нагрузок (loading)
Вектора s обычно берутся

ортогональными,
т.е. латентные переменные линейно независимы

Линейные латентные переменныеМатрица оценок (scores)Матрица нагрузок (loading)Вектора s обычно берутся ортогональными, т.е. латентные переменные линейно независимы

Слайд 19Метод главных компонент (PCA – Principal Component Analysis)
Цель метода главных компонент

– описание данных минимально возможным количеством латентных переменных
- SVD (Singular

Value Decomposition) разложение

Матрица сингулярных значений

Метод главных компонент (PCA – Principal Component Analysis)Цель метода главных компонент – описание данных минимально возможным количеством

Слайд 20Метод главных компонент (PCA – Principal Component Analysis)
C = XTX –

матрица ковариаций

Метод главных компонент (PCA – Principal Component Analysis)C = XTX – матрица ковариаций

Слайд 21Отбор главных компонент

Отбор главных компонент

Слайд 22Главные компоненты

Главные компоненты

Слайд 23Определение размерности данных
K=3
K=2
K=1

Определение размерности данныхK=3K=2K=1

Слайд 24Графики оценок и нагрузок
График в координатах главных оценок
График в координатах

главных нагрузок

Графики оценок и нагрузокГрафик в координатах главных оценокГрафик в координатах главных нагрузок

Слайд 25Резюме метода главных компонент
Вычисляется матрица ковариаций
Находятся ее собственные вектора и

собственные значения
Отбираются латентные переменные, соответствующие двум наибольшим собственным значениям
Строятся 2-мерные

графики оценок и нагрузок
Резюме метода главных компонентВычисляется матрица ковариацийНаходятся ее собственные вектора и собственные значенияОтбираются латентные переменные, соответствующие двум наибольшим

Слайд 26Факторный анализ
Определяется число латентных переменных, необходимых для воспроизведения данных с

заданной точностью
Путем вращения векторов исходных латентных переменных ищутся легко интерпретируемые

варианты
Факторный анализОпределяется число латентных переменных, необходимых для воспроизведения данных с заданной точностьюПутем вращения векторов исходных латентных переменных

Слайд 27Факторный (канонический) дискриминантный анализ
Ищутся латентные переменные, позволяющие получить наилучшее разделение

классов путем максимизации отношения межгрупповой к общей дисперсии

Факторный (канонический) дискриминантный анализИщутся латентные переменные, позволяющие получить наилучшее разделение классов путем максимизации отношения межгрупповой к общей

Слайд 28Метод частичных наименьших квадратов (PLS – Partial Least Squares)
В методе

частичных наименьших квадратов ищется набор латентных переменных, позволяющий получить регрессионную

модель с наилучшей прогнозирующей способностью
Метод частичных наименьших квадратов (PLS – Partial Least Squares)В методе частичных наименьших квадратов ищется набор латентных переменных,

Слайд 29Определение оптимального числа латентных переменных
Оптимальное число латентных переменных - 5

Определение оптимального числа латентных переменныхОптимальное число латентных переменных - 5

Слайд 30Резюме метода PLS
Один за одним отбираются латентные переменные, максимально коллинеарные

с вектороми свойств или ошибок
При помощи процедуры скользящего контроля определяется

прогнозирующая способность модели
Выбирается оптимальное число латентных переменных К, максимизирующее критерий Q2
Построенная на K латентных переменных регрессионная модель далее используется в для прогноза

Резюме метода PLSОдин за одним отбираются латентные переменные, максимально коллинеарные с вектороми свойств или ошибокПри помощи процедуры

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика