Разделы презентаций


Филогенетический анализ и молекулярная эволюция

Содержание

Задачи молекулярной эволюции Изучение законов изменения наследственной информации в живых системах, включая неклеточные и клеточные формы жизниИзучение истории развития жизни на Земле, установление родственных отношений между формами жизни (филогения)Кафедра биоинформатики МБФ РНИМУ

Слайды и текст этой презентации

Слайд 1Филогенетический анализ и молекулярная эволюция
Кафедра биоинформатики МБФ РНИМУ
Лекция 5

Филогенетический анализ и молекулярная эволюцияКафедра биоинформатики МБФ РНИМУЛекция 5

Слайд 2Задачи молекулярной эволюции
Изучение законов изменения наследственной информации в живых системах,

включая неклеточные и клеточные формы жизни
Изучение истории развития жизни на

Земле, установление родственных отношений между формами жизни (филогения)

Кафедра биоинформатики МБФ РНИМУ

Задачи молекулярной эволюции	Изучение законов изменения наследственной информации в живых системах, включая неклеточные и клеточные формы жизниИзучение истории

Слайд 3Филогенетический анализ и молекулярная эволюция
На молекулярном уровне эволюция является процессом

мутации и селекции
Молекулярная эволюция изучает изменения генов и белков на

протяжении разных ветвей древа жизни.
Филогенез является представлением эволюционных отношений. Традиционно, филогения опиралась на сопоставлении морфологических признаков между организмами. В настоящее время данные о молекулярных последовательностях также используются для филогенетического анализа.

Кафедра биоинформатики МБФ РНИМУ

Филогенетический анализ и молекулярная эволюцияНа молекулярном уровне эволюция является процессом мутации и селекцииМолекулярная эволюция изучает изменения генов

Слайд 4Квагга (вымерла) больше похожа на зебру или лошадь?

Квагга (вымерла) больше похожа на зебру или лошадь?

Слайд 5Кафедра биоинформатики МБФ РНИМУ

Кафедра биоинформатики МБФ РНИМУ

Слайд 6Мутации
Ошибки, происходящие при репликации генома
Могут происходить как в половых, так

и в соматических клетках
Соматические мутации не наследуются в поколениях, исключены

из эволюционного процесса

Кафедра биоинформатики МБФ РНИМУ

МутацииОшибки, происходящие при репликации геномаМогут происходить как в половых, так и в соматических клеткахСоматические мутации не наследуются

Слайд 7Классификации мутаций
По числу затронутых нуклеотидов (по длине мутации)

Точечные мутации (point

mutations)

Изменения в нескольких соседних нуклеотидах
Кафедра биоинформатики МБФ РНИМУ

Классификации мутацийПо числу затронутых нуклеотидов (по длине мутации)	Точечные мутации (point mutations)	Изменения в нескольких соседних нуклеотидахКафедра биоинформатики МБФ

Слайд 8Классификации мутаций
По типам событий, происходящих при мутации
Замена одного нуклеотида

на другой (nucleotide substitution)

Вставка одного или более нуклеотидов (insertion)
Частный случай

– дупликация (duplication)

Удаление одного или нескольких соседних нуклеотидов (deletion)

Поворот участка длиной минимум 2 нуклеотида на 180 градусов – инверсия (inversion)

Кафедра биоинформатики МБФ РНИМУ

Классификации мутацийПо типам событий, происходящих при мутации 	Замена одного нуклеотида на другой (nucleotide substitution)	Вставка одного или более

Слайд 9В кодирующих участках вставки и делеции могут приводить к сдвигу

рамки считывания => изменение всей аминокислотной последовательности полипептидной цепи =>

потеря функции белка => нежизнеспособность потомства!

Кафедра биоинформатики МБФ РНИМУ

В кодирующих участках вставки и делеции могут приводить к сдвигу рамки считывания => изменение всей аминокислотной последовательности

Слайд 10Нуклеотидные замены Транзиции
Замена пурина на другой пурин:
A  G или G

 A

Замена пиримидина на другой пиримидин:
C  T или T

 C


Кафедра биоинформатики МБФ РНИМУ

Нуклеотидные замены ТранзицииЗамена пурина на другой пурин:A  G или G  AЗамена пиримидина на другой пиримидин:C

Слайд 11Нуклеотидные замены Трансверсии
Замена между пуринами и пиримидинами:
A  T
A  C
G

 T
G  C
T  A
T  G
C  A
C

 G



Кафедра биоинформатики МБФ РНИМУ

Нуклеотидные замены ТрансверсииЗамена между пуринами и пиримидинами:A  TA  CG  TG  CT  AT

Слайд 12SNP
Однонуклеотидный полиморфизм (англ. Single nucleotide polymorphism, SNP) — любая единичная

замена основания (A, T, G или C) в геноме (или

в другой сравниваемой последовательности) представителей одного вида или между гомологичными участками гомологичных хромосом индивида.

Кафедра биоинформатики МБФ РНИМУ

SNPОднонуклеотидный полиморфизм (англ. Single nucleotide polymorphism, SNP) — любая единичная замена основания (A, T, G или C)

Слайд 13Кафедра биоинформатики МБФ РНИМУ

Кафедра биоинформатики МБФ РНИМУ

Слайд 14Нонсенс и миссенс мутации
Замена кодирующего триплета на стоп-кодон – нонсенс

мутация (nonsence mutation)

Замена кодирующего триплета на другой кодирующий (кроме стоп-кодона)

– миссенс мутация (missence mutation)

Кафедра биоинформатики МБФ РНИМУ

Нонсенс и миссенс мутацииЗамена кодирующего триплета на  стоп-кодон – нонсенс мутация (nonsence mutation)Замена кодирующего триплета на

Слайд 15Эволюция нуклеотидной последовательности

11111111112222222222233
12345678901234567890123456789012
0 ATCTATACGGTCGATGCTAGCTGATCGATCGA
1 --------------------------------
2 ------T--------A----------------
3 ---------------C------C---------
4 -----...-----T-C------CG--------
5 -----...—A---T--------CG--------
Кафедра

биоинформатики МБФ РНИМУ

Ideintical

Similar (имеют эволюционную дистанцию)

Эволюция нуклеотидной последовательности         11111111112222222222233123456789012345678901234567890120 ATCTATACGGTCGATGCTAGCTGATCGATCGA 1 --------------------------------2 ------T--------A----------------3 ---------------C------C---------4

Слайд 16Эволюция нуклеотидной последовательности

11111111112222222222233
12345678901234567890123456789012
0 ATCTATACGGTCGATGCTAGCTGATCGATCGA
1 --------------------------------
2 ------T--------A----------------
3 ---------------C------C---------
4 -----...-----T-C------CG--------
5 -----...—A---T--------CG--------
Кафедра

биоинформатики МБФ РНИМУ
Эволюция нуклеотидной последовательности         11111111112222222222233123456789012345678901234567890120 ATCTATACGGTCGATGCTAGCTGATCGATCGA 1 --------------------------------2 ------T--------A----------------3 ---------------C------C---------4

Слайд 17Эволюция нуклеотидной последовательности
Идентичные
Похожие
Находятся на определенной эволюционной дистанции
Первичные и вторичные замены
Обратная

замена или реверсия
Изменчивые (вариабельные) позиции
Консервативные позиции (инвариантные и относительно консервативные)
Кафедра

биоинформатики МБФ РНИМУ
Эволюция нуклеотидной последовательностиИдентичныеПохожиеНаходятся на определенной эволюционной дистанцииПервичные и вторичные заменыОбратная замена или реверсияИзменчивые (вариабельные) позицииКонсервативные позиции (инвариантные

Слайд 18Эволюция нуклеотидной последовательности
Дивергенция – разделение на независимые родственные эволюционные линии
Параллельные

мутации – мутации, произошедшие в родственных эволюционных линиях независимо друг

от друга
Диверсификация – процесс, ведущий к образованию гетерогенной группы

Кафедра биоинформатики МБФ РНИМУ

Эволюция нуклеотидной последовательностиДивергенция – разделение на независимые родственные эволюционные линииПараллельные мутации – мутации, произошедшие в родственных эволюционных

Слайд 19Эволюция нуклеотидной последовательности
Гомологичные последовательности – последовательности, имеющие общее эволюционное происхождение
Группа

гомологичных последовательностей, произошедших от общего предка называется монофилетической группой.

Кафедра биоинформатики

МБФ РНИМУ
Эволюция нуклеотидной последовательностиГомологичные последовательности – последовательности, имеющие общее эволюционное происхождениеГруппа гомологичных последовательностей, произошедших от общего предка называется

Слайд 20Кафедра биоинформатики МБФ РНИМУ

Кафедра биоинформатики МБФ РНИМУ

Слайд 21Эволюция нуклеотидной последовательности
MRCA – most recent common ancestor (наиболее недавний

общий предок)

LUCA – last universal common ancestor (Последний общий предок

всех форм жизни на Земле)


Бритва Оккама:
«без необходимости не стоит утверждать многого»
То, что можно объяснить посредством меньшего, не следует выражать посредством большего

Кафедра биоинформатики МБФ РНИМУ

Эволюция нуклеотидной последовательностиMRCA – most recent common ancestor (наиболее недавний общий предок)LUCA – last universal common ancestor

Слайд 22Консенсусные последовательности
Искусственная последовательность, содержащая в каждой позиции нуклеотид, встречаемый наиболее

часто у анализируемых последовательностей
Обычно, присутствующий минимум в 50% анализируемых последовательностей

(строгость пороговых критериев!)

Кафедра биоинформатики МБФ РНИМУ

Консенсусные последовательностиИскусственная последовательность, содержащая в каждой позиции нуклеотид, встречаемый наиболее часто у анализируемых последовательностейОбычно, присутствующий минимум в

Слайд 23Консенсусные последовательности
В консенсусной последовательности можно отображать разнообразие нуклеотидов в конкретной

позиции (гетерогенность позиции)
Если в некоторой позиции у одних последовательностей обнаружена

А, а у других – Т, то А/Т-гетерогенность можно отобразить как W (IUPAC)

Кафедра биоинформатики МБФ РНИМУ

Консенсусные последовательностиВ консенсусной последовательности можно отображать разнообразие нуклеотидов в конкретной позиции (гетерогенность позиции)Если в некоторой позиции у

Слайд 24Кафедра биоинформатики МБФ РНИМУ

Кафедра биоинформатики МБФ РНИМУ

Слайд 25Концепция молекулярных часов
Закрепление мутаций в популяции занимает определённое время и

постоянна
Цукеркандль и Поллинг сформулировали концепцию молекулярных часов в эволюции живых

систем:
Для конкретной генетической последовательности скорость эволюции постоянна во времени и одинакова у всех дочерних последовательностей

Кафедра биоинформатики МБФ РНИМУ

Концепция молекулярных часовЗакрепление мутаций в популяции занимает определённое время и постояннаЦукеркандль и Поллинг сформулировали концепцию молекулярных часов

Слайд 26Концепция молекулярных часов
Если известно, что дивергенция двух, различающихся между собой

на один нуклеотид последовательностей произошла 10 лет тому назад, то

дивергенция между этими двумя последовательностями и третьей, имеющей 2 отличия от них, произошла 20 лет назад (с учетом доверительного интервала)

Кафедра биоинформатики МБФ РНИМУ


Концепция молекулярных часовЕсли известно, что дивергенция двух, различающихся между собой на один нуклеотид последовательностей произошла 10 лет

Слайд 27Кафедра биоинформатики МБФ РНИМУ

Кафедра биоинформатики МБФ РНИМУ

Слайд 28Влияние отбора на мутации
Мутации, улучшающие приспособленность организма, подвергаются действию положительного

естественного отбора — эволюционным силам, факторам, направленным на отбор такой

мутации, ее преимущественное закрепление в популяции.
Мутации, ухудшающие приспособленность организма, подвергаются действию отрицательного естественного отбора — эволюционным силам, факторам, направленным на преимущественное удаление такой мутации из популяции.
Мутации, не изменяющие приспособленности организма к окружающей среде, называют селективно нейтральными.
Процесс изменения частоты мутации в популяции под действием стохастических процессов называют случайным генетическим дрейфом (random genetic drift).
Для кодирующих нуклеотидных последовательностей основными факторами естественного отбора являются эволюционные факторы, действующие на уровне белка. Соответственно действию этих факторов подвергаются несинонимичные, изменяющие белок, а не синонимичные замены.
В целом синонимичные замены принято считать селективно нейтральными, или близкими к нейтральным.

Кафедра биоинформатики МБФ РНИМУ

Влияние отбора на мутацииМутации, улучшающие приспособленность организма, подвергаются действию положительного естественного отбора — эволюционным силам, факторам, направленным

Слайд 29Измерение отбора путем анализа последовательностей белок-кодирующих генов (Hurst, 2002; Li,

1997)
Отношение Ka/Ks (где Ka – частота несинонимичных замен, Ks –

синонимичных; обе вычисляются с коррекцией на множественные замены) является количественной мерой отбора, действующего на уровне белковых последовательностей.

Кафедра биоинформатики МБФ РНИМУ

http://www.rumvi.com/products/ebook/логика-случая-о-природе-и-происхождении-биологической-эволюции/c4e78da6-26bb-491e-b262-aa73b9043637/preview/preview.html

Измерение отбора путем анализа последовательностей белок-кодирующих генов (Hurst, 2002; Li, 1997)Отношение Ka/Ks (где Ka – частота несинонимичных

Слайд 30Ka/Ks = 1 – нейтральная эволюция белковой последовательности (кодируемый белок

не подвергается отбору).
Для большинства белок-кодирующих генов Ka/Ks ≪ 1 –

отсекающий отбор.
Для прокариот типично Ka/Ks < 0,1.
Для эукариот типично Ka/Ks ≈ 0,1–0,2.
Ka/Ks > 1 – положительный отбор; достаточно редко встречается для белок-кодирующих генов, но для некоторых категорий генов, несомненно, присутствует, например, для генов, участвующих в антипаразитической защите или в сперматогенезе, а также в вирусных белках, таких как гемагглютинин вируса гриппа.
Для измерения Ka/Ks для индивидуальных сайтов используют методы максимального правдоподобия; большинство белок-кодирующих генов содержат несколько сайтов, подверженных положительному отбору.

Кафедра биоинформатики МБФ РНИМУ

Ka/Ks = 1 – нейтральная эволюция белковой последовательности (кодируемый белок не подвергается отбору).Для большинства белок-кодирующих генов Ka/Ks

Слайд 31Использование Ka/Ks для измерения уровня отбора предполагает нейтральность синонимичных сайтов.
Однако

Ka и Ks положительно коррелируют между собой – таким образом,

отбор затрагивает и синонимичные сайты.
Некодирующие сайты, такие как интронные последовательности, могут использоваться как фон нейтральной эволюции при измерении отбора на синонимичных сайтах (Ks/Ki, где Ki – частота замен для интронных сайтов).

Кафедра биоинформатики МБФ РНИМУ

Использование Ka/Ks для измерения уровня отбора предполагает нейтральность синонимичных сайтов.Однако Ka и Ks положительно коррелируют между собой

Слайд 32Критерий Макдональда – Крейтмана (Aquadro, 1997; McDonald and Kreitman, 1991) широко

используется для измерения отбора. Он сравнивает внутривидовые вариации (частота полиморфизма,

P) с межвидовыми вариациями (дивергенция, D).

 Dn/Ds = Pn/Ps – нейтральная эволюция белковой последовательности.
Dn/Ds < Pn/Ps – отсекающий отбор.
Dn/Ds > Pn/Ps – положительный отбор.

Dn - скорость эволюции по несинонимичным сайтам; Ds - по синонимичным

Кафедра биоинформатики МБФ РНИМУ

Критерий Макдональда – Крейтмана (Aquadro, 1997; McDonald and Kreitman, 1991) широко используется для измерения отбора. Он сравнивает внутривидовые

Слайд 33Филогенетические деревья
Кафедра биоинформатики МБФ РНИМУ
The time will come, I believe,

though I shall not live to see it, when we

shall have fairly true genealogical trees of each great kingdom of Nature.

Charles Darwin

Филогенетические деревьяКафедра биоинформатики МБФ РНИМУThe time will come, I believe, though I shall not live to see

Слайд 34Причина подобия – общее происхождение!
Кафедра биоинформатики МБФ РНИМУ

Причина подобия – общее происхождение!Кафедра биоинформатики МБФ РНИМУ

Слайд 35Гомология – происхождение от общего предка
Подобие – наблюдаемые данные, собранные

сейчас не подразумевающие каких-либо исторических гипотез
Кластеризация – объединение вместе сходных

по определенным признакам объектов (Иерархическая классификация)
Филогения – описание биологических взаимосвязей, обычно в виде филогенетического дерева

Кафедра биоинформатики МБФ РНИМУ

Гомология – происхождение от общего предкаПодобие – наблюдаемые данные, собранные сейчас не подразумевающие каких-либо исторических гипотезКластеризация –

Слайд 36Зачем нужны филогенетические деревья?
Биологические задачи:

сравнение 3-х и более объектов


(кто на кого более похож .... )
реконструкция эволюции

(кто от кого, как и когда произошел…)

Кафедра биоинформатики МБФ РНИМУ

Зачем нужны филогенетические деревья?Биологические задачи: сравнение 3-х и более объектов (кто на кого более похож .... )

Слайд 37 Реальные события : Данные:

Построенное дерево
эволюция в природе или в

например, древовидный граф,
лаборатории, а.к. последо- вычисленный на основе
компьютерная симуляция вательности или данных, может
количество отражать или не
щетинок отражать реальные
события

>Seq4 GCGCTGFKI
. . . . .

>Seq1 ASGCTAFKL
. . .

>Seq3 GCGCTLFKI

A -> G

I -> L

Кафедра биоинформатики МБФ РНИМУ

Реальные события :    Данные:   Построенное дерево   эволюция в природе

Слайд 38Основные термины
Узел (node) — точка разделения предковой последовательности (вида, популяции) на

две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию.
Лист (leaf, OTU

– оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа.
Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа. Корень (root) — гипотетический
общий предок.
Клада (clade) - группа двух или
более таксонов или последователь-
ностей ДНК, которая включает как
своего общего предка, так и всех его
потомков.

Кафедра биоинформатики МБФ РНИМУ

Основные терминыУзел (node) — точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине

Слайд 39Какие бывают деревья?
Бинарное (разрешённое)
(в один момент времени может
произойти только

одно событие )
Небинарное (неразрешённое)
(может ли в один момент времени


произойти два события? )

Время

Кафедра биоинформатики МБФ РНИМУ

Какие бывают деревья?Бинарное (разрешённое)(в один момент времени может произойти только одно событие )Небинарное (неразрешённое) (может ли в

Слайд 40Какие бывают деревья?
Укорененное дерево (rooted tree) отражает направление эволюции
Неукорененное (бескорневое) дерево (unrooted

tree) показывает
только связи между узлами
Время
Если число листьев равно n,

существует (2n-3)!!
разных бинарных укоренных деревьев.
По определению, (2n-3)!! = 1·3 ·... ·(2n-3)

Существует (2n-5)!! разных бескорневых
деревьев с n листьями

Кафедра биоинформатики МБФ РНИМУ

Какие бывают деревья?Укорененное дерево (rooted tree) отражает направление эволюцииНеукорененное (бескорневое) дерево (unrooted tree) показывает только связи между

Слайд 41Рутинная процедура, или как строят деревья?
Составление выборки последовательностей

Множественное выравнивание




Построение дерева
фрагмент записи в виде

скобочной формулы:



Визуализация и редактура дерева

(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,
max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,

Кафедра биоинформатики МБФ РНИМУ

Рутинная процедура, или как строят деревья?  Составление выборки последовательностей  Множественное выравнивание  Построение дерева фрагмент

Слайд 42(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей
(((C,D),E)),(A,B)); только топология
Скобочная формула (Newick format)
A
B
C
D
E
5.2
7.5
6.3
6.1
7.7
8.0
3.2
5.5
Кафедра биоинформатики

МБФ РНИМУ

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей(((C,D),E)),(A,B));  только топологияСкобочная формула (Newick format)ABCDE5.27.56.36.17.78.03.25.5Кафедра биоинформатики МБФ РНИМУ

Слайд 43Как выбирать последовательности для дерева?
Кроме случаев очень близких последовательностей, проще

работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (

50 последовательностей)
Избегайте:
фрагментов;
ксенологов;
рекомбинантных последовательностей;
многодоменных белков и повторов
Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

Кафедра биоинформатики МБФ РНИМУ

Как выбирать последовательности для дерева?Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК)Придерживайтесь

Слайд 44Самое главное – хорошее выравнивание!
Максимальный вклад в финальное дерево: нельзя

построить хорошее дерево по плохому выравниванию
Блоки, содержащие много гэпов, плохо

выровненные N- и C- концы можно просто вырезать.

Кафедра биоинформатики МБФ РНИМУ

Самое главное – хорошее выравнивание!Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниваниюБлоки, содержащие

Слайд 45Основные алгоритмы построения филогенетических деревьев
Методы, основанные на оценке
расстояний (матричные

методы):
Вычисляются эволюционные
расстояния между всеми листьями
(OTUs) и строится дерево, в

котором
расстояния между вершинами
наилучшим образом соответствуют
матрице попарных расстояний.
UPGMA
Neighbor-joining
Минимальная эволюция
Квартеты («топологический»)
...


Максимального
правдоподобия,
Maximal likelihood, ML
Используется модель эволюции
и строится дерево, которое наиболее
правдоподобно при данной модели



Максимальной экономии (бережливости),
maximal parsimony, MP
Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных

Кафедра биоинформатики МБФ РНИМУ

Основные алгоритмы построения филогенетических деревьевМетоды, основанные на оценке расстояний (матричные методы):Вычисляются эволюционные расстояния между всеми листьями(OTUs) и

Слайд 46Пример матрицы расстояний
1 2 3

4 5 6 7 8
0.00

10.53 9.77 12.78 12.03 16.54 13.53 25.00 HUMAN 1
0.00 9.02 12.03 9.77 15.79 9.02 27.27 HORSE 2
0.00 9.77 9.02 16.54 12.03 24.24 RABIT 3
0.00 2.26 17.29 10.53 25.76 MOUSE 4
0.00 15.79 8.27 25.76 RAT 5
0.00 10.53 29.55 BOVIN 6
0.00 25.00 PIG 7
0.00 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Кафедра биоинформатики МБФ РНИМУ

Пример матрицы расстояний	  1	  2	  3	  4	  5	  6	  7

Слайд 47Как понимать расстояние между объектами?
Как время, в течение которого

они эволюционировали
Как число «эволюционных событий» (мутаций)
В первом случае объекты

образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно)

Но время непосредственно измерить невозможно

Кафедра биоинформатики МБФ РНИМУ

Как понимать расстояние между объектами? Как время, в течение которого они эволюционировали Как число «эволюционных событий» (мутаций)В

Слайд 48Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962)
За равное время во всех ветвях

эволюции накапливается
равное число мутаций
Если гипотеза молекулярных часов принимается, число

различий между выровненными последовательностями можно считать примерно пропорциональным времени. Отклонения от ультраметричности можно считать случайными. Эволюция реконструируется в виде ультраметрического дерева.

Укоренённое дерево называется ультраметрическим, если расстояние от корня до любого из листьев одинаково.

Кафедра биоинформатики МБФ РНИМУ

Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962)За равное время во всех ветвях эволюции накапливается равное число мутацийЕсли гипотеза

Слайд 49UPGMA Unweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода


Расстояние между

кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из

кластеров

Кафедра биоинформатики МБФ РНИМУ

UPGMA Unweighted Pair Group Method with Arithmetic Meanразновидность кластерного методаРасстояние между кластерами вычисляется как среднее арифметическое всевозможных

Слайд 50Кафедра биоинформатики МБФ РНИМУ

Кафедра биоинформатики МБФ РНИМУ

Слайд 51Гипотеза молекулярных часов не всегда справедлива
A
B
C
D
E
(длина ветвей пропорциональна числу мутаций)
Кафедра

биоинформатики МБФ РНИМУ

Гипотеза молекулярных часов не всегда справедливаABCDE(длина ветвей пропорциональна числу мутаций)Кафедра биоинформатики МБФ РНИМУ

Слайд 52Недостатки UPGMA
Алгоритм строит ультраметрическое дерево, а это означает, что


скорость эволюции предполагается одинаковой для всех ветвей дерева. Использовать этот

алгоритм имеет смысл только в случае
ультраметрических данных (справедливости «молекулярных
часов»).

Реальное дерево

UPGMA

Кафедра биоинформатики МБФ РНИМУ

Недостатки UPGMA Алгоритм строит ультраметрическое дерево, а это означает, что скорость эволюции предполагается одинаковой для всех ветвей

Слайд 53Метод ближайших соседей (Neighbor-joining, NJ)
Строит неукоренённое дерево

Может работать с большим

количеством данных

Достаточно быстрый

Хорошо зарекомендовал себя на практике: если есть недвусмысленное

с точки зрения эксперта дерево, то оно будет построено.

Могут появиться ветви с длиной <0

Кафедра биоинформатики МБФ РНИМУ

Метод ближайших соседей  (Neighbor-joining, NJ)Строит неукоренённое деревоМожет работать с большим количеством данныхДостаточно быстрыйХорошо зарекомендовал себя на

Слайд 54Метод Neighbor-joining
Рисуем «звездное» дерево и будем «отщипывать» от него

по паре
листьев

Пусть ui = Σk Mik/(n-2)

— среднее расстояние от листа i до других листьев

1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с минимальным значением величины

Mij – ui –uj

т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех остальных.

Кафедра биоинформатики МБФ РНИМУ

Метод Neighbor-joining Рисуем «звездное» дерево и будем «отщипывать» от него по паре  листьев  Пусть ui

Слайд 55Метод ближайших соседей (Neighbor-joining, NJ)
2. Кластер (i, j) –

новый узел дерева

Расстояние от i или от

j до узла (i,j):
D(i, (i,j)) = 0,5·(Mij + ui – uj)
D(j, (i,j)) = 0,5· (Mij + uj – ui)
т.е. длина ветви зависит от среднего расстояния
до других вершин

3. Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk – Mij
2

5. В матрице М убираем i и j и добавляем (i, j).

Повторяем, пока не останутся 3 узла ...


Кафедра биоинформатики МБФ РНИМУ

Метод ближайших соседей (Neighbor-joining, NJ)2.  Кластер (i, j) – новый узел дерева   Расстояние от

Слайд 56Стандартная ситуация
Понимаем расстояние как число мутаций
Реальное (неизвестное

нам) дерево — укоренённое, но не ультраметрическое
Мы реконструируем неукоренённое

дерево (топологию и длины ветвей). Его надо понимать как множество всех возможных укоренений.

Если данные таковы, что гипотеза молекулярных часов не проходит, то реконструкция укорененного дерева намного менее надёжна, чем реконструкция неукоренённого

Кафедра биоинформатики МБФ РНИМУ

Стандартная ситуация Понимаем расстояние как число мутаций Реальное (неизвестное нам) дерево — укоренённое, но не  ультраметрическое

Слайд 57Как изобразить дерево? Топология дерева
Топология дерева — только листья, узлы,

(корень) и связывающие их ветви (топология не зависит

от способа изображения дерева)

A

B

C

D

E

Два изображения одной и той же топологии

Кафедра биоинформатики МБФ РНИМУ

Как изобразить дерево?  Топология дереваТопология дерева — только листья, узлы, (корень)   и связывающие их

Слайд 58Филограмма:
Длина ребер пропорциональна эволюционному расстоянию между узлами.
Кладограмма:
представлена только топология,

длина ребер игнорируется.
Arabidopsis
Caenorhabditis
Drosophila
Anopheles
Tenebrio
Trout
Mus
0.1 substitutions per site
Arabidopsis
Caenorhabditis
Drosophila
Anopheles
Tenebrio
Trout
Mus
Как можно нарисовать построенное дерево?
Кафедра

биоинформатики МБФ РНИМУ
Филограмма:Длина ребер пропорциональна эволюционному расстоянию между узлами.Кладограмма: представлена только топология, длина ребер игнорируется.ArabidopsisCaenorhabditisDrosophilaAnophelesTenebrioTroutMus0.1 substitutions per siteArabidopsisCaenorhabditisDrosophilaAnophelesTenebrioTroutMusКак можно

Слайд 59Достоверность топологии. Bootstraps


Создадим псевдоданные:
N множественных выравниваний

той же длины, что и исходное, каждое из псевдовыравниваний -

случайный набор столбцов из исходного (выборка с возвращением!)
Построим N деревьев:
на каждой внутренней ветви отметим долю
случаев из N, в которых появлялся
этот узел.

Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…

Есть множественное выравнивание и
построенное по нему дерево.
Верим ли мы в топологию дерева?

Кафедра биоинформатики МБФ РНИМУ

Достоверность топологии. BootstrapsСоздадим псевдоданные:    N множественных выравниваний той же длины, что и исходное, каждое

Слайд 60Какие on-line программы строят деревья?
ClustalW. “Tree type” – nj, phylip:

строит только методом NJ, но результат – в разных форматах,

no bootstraps
Phylip (Felsenstein, 1993) – пакет программ для построения филогенетических деревьев (stand-alone)
On-line (partly): например,
http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html
PAUP (Phylogenetic Analysis Using Parsimony)

Кафедра биоинформатики МБФ РНИМУ

Какие on-line программы строят деревья?ClustalW. “Tree type” – nj, phylip: строит только методом NJ, но результат –

Слайд 61Phylip
Кафедра биоинформатики МБФ РНИМУ

PhylipКафедра биоинформатики МБФ РНИМУ

Слайд 62Пакет Phylip
protdist — оценка эволюционных расстояний между белковыми последовательностями (вход

— множественное выравнивание, выход — матрица попарных расстояний)
dnadist — то

же для нуклеотидных последовательностей
protpars – оценка числа нуклеотидных мутаций для наблюдаемой частоты белковых замен (близкие последовательности)
neighbor — реконструкция филогении по матрице расстояний методами NJ и UPGMA
drawtree — рисование неукоренённого дерева
drawgram — рисование кладограмм и филограмм

Кафедра биоинформатики МБФ РНИМУ

Пакет Phylipprotdist — оценка эволюционных расстояний между белковыми последовательностями (вход — множественное выравнивание, выход — матрица попарных

Слайд 63Bootstrapping with Phylip
Надо выбрать Bootstrap options в protdist, выставить не

менее 100 итераций, нечетное число в “Random number of seed”
Затем,

при запуске “Neighbor” снова выбрать “Bootstrap options” и выставить указанное в пред. пункте количество наборов данных и отметить “Compute a consensus tree”

Кафедра биоинформатики МБФ РНИМУ

Bootstrapping with PhylipНадо выбрать Bootstrap options в protdist, выставить не менее 100 итераций, нечетное число в “Random

Слайд 64Общий план действий с пакетом Phylip
Множественное выравнивание -> protdist
Bootstrap options

- ?
Результат – или сразу, или URL по e-mail (предлагают

продолжить с программой построения дерева)
Выбрать Neighbor, Neighbor-Joining, Boostrap…?, outgroup – позиция outgroup в выравнивании
Выход: outfile.consense – текстовый рисунок
+ outtree.consense – в Newick формате
Представление дерева в графическом режиме одной из программ – Drawtree или Drawgram (без bootstraps) - или другими программами

Кафедра биоинформатики МБФ РНИМУ

Общий план действий с пакетом PhylipМножественное выравнивание -> protdistBootstrap options - ?Результат – или сразу, или URL

Слайд 65MEGA: филогенетический анализ последовательностей
http://www.megasoftware.net/
Кафедра биоинформатики МБФ РНИМУ

MEGA: филогенетический анализ последовательностейhttp://www.megasoftware.net/Кафедра биоинформатики МБФ РНИМУ

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика