От последовательности аминокислот в белке зависит, как он будет сворачиваться в трехмерном пространстве и какие функции он будет выполнять в клетке. Сравнивая разные белки между собой, можно определить и родство организмов, которым они принадлежат. Биоинформатики ФИЦ Биотехнологии РАН доказали, что созданная ими математическая модель MADHS для сопоставления последовательностей у белков, разошедшихся на эволюционном древе сотни миллионов лет назад, превосходит лучшие зарубежные аналоги. Результаты исследования на масштабной выборке в 490 белковых семейств опубликованы в журнале Symmetry.
Белки — это незаменимые для живых клеток молекулы со множеством различных функций. Именно их строение и многообразие «записано» в нашей ДНК. Каждый белок — это длинная цепь, состоящая из звеньев-аминокислот, которые могут иметь различную форму, как фигурные подвески на браслете. Сравнивая их последовательность у «родственных» белков, можно найти сохраняющиеся мотивы — это короткие похожие отрывки, связанные с выполнением одной биологической функции. Благодаря их изучению можно определять, какую форму принимает белковая цепь в пространстве, узнавать больше о работе белков и строить эволюционные деревья организмов. Поэтому поиск мотивов — одна из важнейших задач вычислительной биологии.
Для него часто используется множественное выравнивание, при котором «родственные» последовательности располагают друг над другом и сравнивают при помощи математических моделей. Одна из таких моделей, к примеру, легла в основу предсказывающего пространственную структуру белков алгоритма AlphaFold, разработчики которого получили Нобелевскую премию по химии в 2024 году. Однако если аминокислотные последовательности сильно отличаются, существующие методы могут оказаться неточными, пропуская мотивы или находя их там, где их на самом деле нет. Исследователи ФИЦ Биотехнологии РАН создали собственный алгоритм для множественного выравнивания, MADHS, который снижает частоту подобных ошибок. В новой работе они проверили эффективность метода на масштабной выборке последовательностей семейств белков, которые за свою историю накопили много отличий.
«Мы показали, что метод MAHDS позволяет получить статистически значимые результаты там, где остальные методы выдают совершенно случайный вариант множественного выравнивания последовательностей. Наш новый математический метод уже работает, и мы создали доступный для любого пользователя сервер», — рассказал соавтор публикации Дмитрий Костенко, младший научный сотрудник группы математического анализа последовательностей ДНК и белков ФИЦ Биотехнологии РАН.