Слайд 1Компьютерные методы анализа нуклеотидных последовательностей
Бабкин Игорь Викторович
Тикунов Артем Юрьевич
Слайд 2Раздел дисциплины
Методы изучения генома, основные понятия и определения.
Биоинформационные подходы, позволяющие
планировать эксперименты. Дизайн праймеров.
Анализ данных секвенирования.
Базы данных, извлечение и депонирование
информации. Поиск гомологичных последовательностей.
Выравнивания и филогенетические деревья.
Определение функционально важных областей.
Предсказание структуры и свойств биополимеров.
Слайд 3Основная литература:
1. И.В. Бабкин, Н.В. Тикунова, С.В. Нетесов. Компьютерные методы
анализа нуклеотидных последовательностей. Новосибирский государственный университет, 2017.
2. Леск А. Введение
в биоинформатику. Изд-во «Бином», Москва, 2009.
3. Игнасимуту С. Основы биоинформатики. Изд-во «Регулярная и хаотичная динамика», Ижевск, 2007.
4. Лукашов В.В. Молекулярная эволюция и филогенетический анализ. Изд-во «Бином», Москва, 2009.
Дополнительная литература:
1. Сетубал Ж., Мейданис Ж. Введение в вычислительную молекулярную биологию. Изд-во «Регулярная и хаотичная динамика», Ижевск, 2007.
Слайд 4Полезные Интернет-сайты:
1. http://www.ncbi.nlm.nih.gov/
2. http://www.ebi.ac.uk/
3. http://web.expasy.org/
4. http://evolution.genetics.washington.edu/phylip/software.html#methods
5. http://blast.ncbi.nlm.nih.gov/Blast.cgi
6. http://mafft.cbrc.jp/alignment/server/index.html
7. http://unafold.rna.albany.edu/?q=mfold/DNA-Folding-Form
8. http://molbiol.ru/
Слайд 5Освежим свою память
ДНК, РНК, нуклеотид, нуклеозид
Основная парадигма молекулярной биологии
Слайд 6Терминология:
Вектор – самореплицирующая молекула ДНК (например, бактериальная плазмида), используемая
в генетической инженерии для переноса генов от организма-донора в организм-реципиент,
а также для клонирования нуклеотидных последовательностей
Выравнивание - процесс или результат согласования нуклеотидных или аминокислотных остатков двух или более биологических последовательностей для достижения максимальных уровней идентичности.
Глобальное выравнивание - выравнивание двух последовательностей нуклеиновых кислот или белков по всей их длине.
Локальное выравнивание - выравнивание областей с высоким коэффициентом сходства двух последовательностей нуклеиновых кислот или белков.
Гомология – сходство, объясняемое происхождением от общего предка. Гомологичные биологические компоненты (гены, белки, структуры) называются гомологами. Идентичность - доля одинаковых остатков в одинаковых положениях у двух выровненных (нуклеотидных или аминокислотных) последовательностей, часто выраженная в процентах.
Домен - дискретная часть белка, которая предположительно складывается независимо от остальной части белка и обладает собственными функциями.
Контиг представляет собой набор перекрывающихся сегментов ДНК, которые в совокупности представляют собой консенсусную область ДНК. В задаче сборки генома контиги представляют собой продолжительные участки ДНК (строки из нуклеотидов), полученные в процессе сборки.
Рид (read) – короткая секвенированная нуклеотидная последовательность.
Слайд 7Современная молекулярная биология немыслима без привлечения компьютеров. История
1202 г. —
Леонардо Пизанский (Фибоначчи) опубликовал книгу «Liber abaci», которая содержала решение
задачи о размножении кроликов.
1925 и 1926 гг. — Вито Вольтерра и Альфред Лотка предложили математическую модель совместного существования «хищник—жертва».
1950 г. — Пер Виктор Эдман предложил метод секвенирования пептидов.
1951 г. — Лайнус Полинг открыл белковую α-спираль, что ознаменовало рождение новой науки — структурной биологии.
1953 г. — Джеймс Уотсон и Френсис Крик открыли структуру ДНК в форме двух комплементарных цепей, образующих двойную спираль.
1953 г. — Первый расчет состояния идеализированной молекулярной системы методом Монте-Карло.
1957 г. — Первый расчет молекулярной динамики идеализированной молекулярной системы.
1964 г. — Первая система компьютерной визуализации молекул.
1967 г. — Создание метода самосогласованных силовых полей — основы современной молекулярной динамики.
Слайд 81967 г. — Пер Эдман совместно с Джофри Бэггом создали
первый автоматический белковый секвенатор.
1970 г. — Полина Хогевег предложила
термин «биоинформатика».
1970 г. — Первый алгоритм выравнивания последовательностей.
1975 г. — Фредерик Сенгер предложил первый метод секвенирования ДНК.
1975 г. — Первая работа по изучению белок—белковых взаимодействий с применением компьютеров.
1977 г. — Фредерик Сенгер опубликовал метод определения последовательности ДНК, «метод терминаторов», который лег в основу современного автоматического секвенирования в капиллярных секвенаторах.
1977 г. — Секвенировали геном бактерифага φX-174 — первый полный геном; первый случай использования «метода дробовика».
1977 г. — Первый расчет молекулярной динамики белковой глобулы.
1981 г. — Секвенировали митохондриальную ДНК человека: 16 659 нуклеотидных пар (п.н.).
1982 г. — Первая программа для молекулярного докинга.
1984 г. — Секвенировали геном вируса Эпштейна—Барр: 172 281 п.н.
Слайд 91986 г. — Первый автоматический ДНК-секвенатор (Applied Biosystems, США).
1990
г. — Разработали программу BLAST.
1990 г. — Запустили международный
проект «Геном человека».
1995 г. — Секвенировали первый бактериальный геном (Haemophilus influenzae).
1996 г. — Полная последовательность генома дрожжей Saccharomyces cerevisiae (первый геном эукариот).
1999 г. — Корпорация Celera закончила секвенирование генома Drosophila melanogaster — самого «популярного» объекта в молекулярной генетике.
1999 г. — Опубликовали полную последовательность одной из хромосом человека.
2000 г. — Окончание секвенирования генома человека (в общих чертах).
2003 г. — Реальное окончание секвенирования генома человека.
2006 г. — Публикация полной последовательности последней человеческой хромосомы: фактическое завершение проекта «Геном человека».
Слайд 10Используемые форматы данных
FASTA-формат
>Rattus_norvegicus | Rattus norvegicus heat shock 20kDa protein
(Loc192245), mRNA
GCAGGATGGAGATCCGGGTGCCTGTGCAGCCTTCTTGGCTGCGCCGTGCTTCAGCTCCTTTACCGGGTTTTTCCACTCCGGGACGCCTCTTTGACCAGCGTTTCGGCGAAGGGCTGCTTGAGGCAGAGCTGGCTTC
>Homo_sapiens | Homo sapiens cDNA FLJ32389 fis, clone SKMUS1000138,
highly similar to HEATSHOCK 20 KDA LIKEPROTEIN P20.
ACTGCAACGCGGAGGAGCAGGATGGAGATCCCTGTGCCTGTGCAGCCGTCTTGGCTGCGCCGCGCCTCGGCCCCGTTGCCCGGACTTTCGGCGCCCGGACGCCTCTTTGACCAGCGCTTCGGCGAGGGGCTGCTG
>Mus_musculus | Mus musculus similar to heat shock 20kDa protein (LOC243912), mRNA.
GGCAGCGTAGGAACAGGATGGAGATCCCCGTGCCTGTGCAGCCTTCTTGGCTGCGCCGTGCTTCAGCTCCTTTACCAGGTTTCTCTGCTCCGGGACGCCTCTTTGACCA
Слайд 11Буквенные обозначения нуклеотидов
Слайд 12Nexus файл
#NEXUS
Begin data;
Dimensions ntax=4 nchar=15;
Format datatype=dna missing=? gap=-;
Matrix
Species1 atgctagctagctcg
Species2
atgcta??tag-tag
Species3 atgttagctag-tgg
Species4 atgttagctag-tag
;
End;
Слайд 13Nexus файл
Файлы данных Nexus всегда начинаются с символов #nexus, но в остальном
организованы в основные блоки. Некоторые блоки распознаются большинством программ, использующих формат
файла Nexus, тогда как другие блоки являются частными (распознаются только одной программой).
Блоки в свою очередь организованы в команды после которых стоит точка с запятой . Очень важно помнить, что все команды должны заканчиваться точкой с запятой .