Метод российских генетиков позволит больше узнать об эволюции видов 250-500 миллионов лет назад


Ученые столетиями исследуют происхождение жизни и картину эволюции видов на Земле. Для этого палеонтологи изучают ископаемые останки, извлекаемые из пластов, образовавшиеся сотни тысяч и миллионы лет назад. Но по сохранившимся фрагментам можно получить ограниченную информацию. Дополнить эти знания позволяют современные методы молекулярной генетики. Ученые из ФИЦ Биотехнологии РАН разработали новый метод обработки данных об изменениях геномов, которые происходили в интервале 250-500 миллионов лет назад. Принципы нового метода, который генетики сравнили с «эволюционным телескопом», изложены в статье в International Journal of Molecular Sciences — журнала из первого квартиля с импакт-фактором выше 6.

Каждый живой организм содержит генетическую информацию, которая представлена в виде текста, длиной от сотен тысяч до десятков миллиардов оснований ДНК. Например, геном человека содержит 3 миллиарда оснований ДНК. Основаниями ДНК, или нуклеотидами, являются аденин, тимин, цитозин и гуанин — сокращенно А, Т, C и G. Эти «буквы» составляют «текст», где записана вся информация о эволюционном происхождении человека и данные об его индивидуальных особенностях. Тройки нуклеотидов кодируют аминокислоты — фрагменты, из которых строятся белки организма. Поэтому сравнение последовательности нуклеотидов в ДНК или последовательности аминокислот в белках разных видов (в том числе и человека) помогает изучить их родство и происхождение, проясняя их эволюционную историю. Особенно хорошо этот подход заработал после того, как началось масштабное секвенирование геномов различных организмов. Чтобы извлекать информацию из этих текстов, применяются специальные математические методы. Один из таких методов, подходящий для анализа древнейших эволюционных изменений, создали российские ученые.

«Разработанные в настоящее время математические методы позволяют проследить эволюционный процесс в среднем до 250-300 миллионов лет назад. Проследить более древние события в большинстве случаев возможно только для некоторых медленно меняющихся белков. Это связано с тем, что все живые организмы накапливают мутации, которые состоят в замене одних оснований ДНК на другие, а также в создании вставок или делеций — вырезании фрагментов — различной длины. В результате изменений геномы близкородственных видов накапливают мутации, все больше отличающие их от общего предка. При накоплении достаточно большого числа мутаций заметить подобие геномов или их частей (например, генов и аминокислотных последовательностей) становится невозможно. Это обычно происходит в том случае, если общий предок существовал более 250 миллионов лет назад», — рассказал один из авторов статьи, доктор биологических наук, профессор Евгений Коротков, руководитель группы математического анализа последовательностей ДНК и белков.

В процессе работы генетики протестировали существующие подходы T-Coffee, MUSCLE, Clustal Omega, Kalign, MAFFT, PRANK и созданный ими в прошлом году алгоритм MAHDS (multiple alignments of highly diverged sequences, или метод множественного выравнивания высоко дивергентных последовательностей) на 21 семействе сильно дивергентных белков — то есть, тех, которые далеко разошлись в процессе эволюции. Данные о белках взяли из баз Pfam и HOMSTRAD. Для решения такой задачи ученые предложили новый математический способ построения так называемого множественного выравнивания последовательностей как на уровне нуклеотидов, из которых состоит цепь ДНК, так и на уровне аминокислот, из которых по ДНК-инструкции строится белок. Метод MAHDS основан на новом эвристическом решении так называемой NP-полной задачи по построению множественного выравнивания. Под множественным выравниванием понимается сравнение сразу нескольких последовательностей между собой.

MAHDS лучше всего справился с задачей: хотя иногда уступал по точности выравнивания, однако давал более статистически значимые результаты и находил совпадения даже там, где другие методы их упускали. Математический метод MAHDS позволяет заметить сходства аминокислотных последовательностей белков, которые имели «общего предка» приблизительно 500 миллионов лет назад или более — а значит, помогает заглянуть в глубь веков примерно вдвое дальше, чем существующие методы. Следовательно, MAHDS лучше подходит для поиска высоко дивергентных последовательностей, которые за сотни миллионов лет эволюции накопили множество мутаций.

«Разработанный нами подход значительно расширяет возможности для изучения молекулярной эволюции как полных геномов, так и их фрагментов (генов, промоторов и так далее), а также аминокислотных последовательностей белков. В результате применения этого метода мы будем лучше понимать, как происходила эволюция различных видов во временном интервале от 250 до 500 миллионов лет назад. Также разработанный подход может помочь при решении важных фундаментальных задач как молекулярной биологии, так и медицины», — подытоживает Евгений Коротков.