Ученые из ФИЦ Биотехнологии РАН разработали математический алгоритм, позволяющий с высокой точностью находить повторяющиеся элементы в геномах. Авторы протестировали подход на генетических последовательностях девяти видов бактерий, и у всех из них обнаружили ранее неизвестные повторы. Так, например, оказалось, что почти 50% генома кишечной палочки представлено довольно длинными повторами (размером 400–600 пар нуклеотидов). Эти повторы представляют собой определенный код, который наложен на существующие гены бактерий поверх кодирования аминокислот. Найденные повторы могут помочь находить новые генетические мишени, интересные с точки зрения биотехнологии, например, участки ДНК, воздействие на которые позволит увеличить продуктивность бактериальных штаммов. Результаты исследования опубликованы в International Journal of Molecular Sciences.
В геномах многих эукариотических (многоклеточных) организмов — от дрожжей до человека — встречаются повторяющиеся последовательности нуклеотидов, которые являются своего рода буквами, из которых состоит ДНК. Каждый такой повтор имеют длину в несколько сот нуклеотидов, и они раскиданы по всему геному. Все вместе они образуют семейство, которое может иметь значительное число отдельных членов. Число таких семейств, а также расположение и количество повторов в каждом семействе отличается у разных видов, а потому они могут рассказать об эволюции и происхождении различных живых организмов. Для поиска в геномах дисперсных повторов (те, которые более или менее равномерно распределены по геному) существует множество математических алгоритмов, которые даже позволяют обнаружить «искаженные» копии, то есть те повторы, в которых произошли какие-либо мутации и последовательности которых отличаются. Однако подобных изменений в процессе эволюции может накопиться так много, что найти в геноме недостаточно похожие друг на друга последовательности становится невозможно. В связи с этим ученые ищут новые подходы для обнаружения дисперсных повторов, «разбросанных» в геномах различных организмов. Важно отметить, что такие семейства повторов были обнаружены ранее только в геномах эукариот (многоклеточных организмов), тогда как в геномах бактерий они не были известны.
Ученые из ФИЦ Биотехнологии РАН предложили новый метод поиска повторяющихся последовательностей. Принцип его работы можно сравнить с поиском математической матрицы, состоящей из столбцов и строк, которая наилучшим образом описывает семейство повторов. Предложенный алгоритм является оптимальным по точности нахождения «разбросанных» повторов в полном геноме, так как учитывает возможность замен нуклеотидов и их вставок и делеций, то есть мутаций.
Исследователи протестировали алгоритм на искусственно сгенерированных последовательностях, содержащих по тысяче повторов, часть из которых содержала мутации. Сравнение с широко применяемыми в биоинформатике системами поиска показало, что предложенный авторами метод позволяет точнее выявлять повторы одного семейства с большим числом мутаций между ними (вплоть до замены половины нуклеотидов в последовательности).
Затем авторы исследования применили алгоритм для поиска повторов в геномах девяти видов бактерий: Escherichia coli, Bacillus subtilis, Azotobacter vinelandii, Clostridium tetani, Methylococcus capsulatus, Mycobacterium tuberculosis, Shigella sonnei, Treponema pallidum и Yersinia pestis. Анализ позволил ученым впервые выявить у Escherichia coli три семейства повторов длиной 400–600 пар нуклеотидов, которые суммарно занимают практически 50% всего генома бактерии. Ранее у этого микроорганизма были известны подобные элементы только меньшей длины — до 300 пар нуклеотидов — и в значительно меньшем количестве. В генетических последовательностях других бактерий удалось обнаружить 1–2 семейства столь же крупных (400–600 пар нуклеотидов) повторов. При этом меньше всего их оказалось у Treponema pallidum, что может быть связано с маленьким размером генома этого микроорганизма.
«Найденные семейства повторов обнаружены в генах, и они представляют собой определенный код, наложенный на гены поверх триплетного кода, обеспечивающего кодировку генами аминокислотных последовательностей. Причем совершенно неважно на какой нити ДНК находятся гены. Обнаруженный код может служить основой для сворачивания ДНК в так называемый нуклеоид, который в значительной степени определяет экспрессию генов бактерий. Можно сказать, что в бактериальной ДНК присутствует код, обеспечивающий её свертку в нуклеоид и мы получили сейчас возможность управлять им. Это открывает большие возможности в создании новых полезных для человека микроорганизмов», — рассказывает про результаты исследования Евгений Коротков, д.б.н., руководитель группы математического анализа последовательностей ДНК и белков ФИЦ Биотехнологии РАН.
Предложенный учеными подход может использоваться для анализа не только бактериальных геномов, но также генетических последовательностей многоклеточных организмов, например животных и растений. Это может помочь лучше понять эволюцию геномов и отдельных их элементов, а также в случае бактерий найти мишени для создания новых антибиотиков или повышения продуктивности ценных для биотехнологии штаммов.