Для белков внешний вид имеет значение. Эти важные молекулы в значительной степени формируют структуру клетки и выполняют ее функции: белки контролируют рост и влияют на подвижность, служат катализаторами, транспортируют или хранят другие молекулы. Одномерная аминокислотная последовательность, состоящая из длинных цепочек аминокислот, может показаться бессмысленной на бумаге. Тем не менее, при рассмотрении в трех измерениях исследователи могут увидеть, какова структура белка и как структура белка, и особенно то, как он складывается, определяет его функции.
В базе данных Pfam насчитывается около 15 000 белковых семейств - групп семейств, имеющих общее эволюционное происхождение. Почти для трети (4 752) этих семейств белков в каждом семействе есть по крайней мере один белок, который уже имеет экспериментально определенную структуру. Для еще одной трети (4886) белковых семейств сравнительные модели можно построить с некоторой степенью уверенности. Однако для последней трети (5 211) белковых семейств в базе данных отсутствует структурная информация.
В выпуске журнала Science от 20 января 2017 г. группа под руководством Дэвида Бейкера из Вашингтонского университета в сотрудничестве с исследователями из Объединенного института генома Министерства энергетики США (DOE JGI), пользовательского центра Управления науки Министерства энергетики США, сообщает, что структурные модели были созданы для 614 или 12 процентов белковых семейств, для которых ранее не было доступной структурной информации. «То, что это можно сделать с помощью методов компьютерного моделирования, еще 5 лет назад было совершенно не очевидно», - отметила команда в своей статье. Это достижение стало возможным благодаря сотрудничеству, в ходе которого сервер прогнозирования структуры белка Rosetta лаборатории Бейкера проанализировал метагеномные последовательности, общедоступные в системе Integrated Microbial Genomes (IMG), управляемой JGI Министерства энергетики США.
«Большое количество белковых семейств (в Pfam) имеют небольшое количество последовательностей», - сказал первый автор исследования Сергей Овчинников, аспирант лаборатории Бейкера. «Это привело к двум последствиям: 1) никто не заботился об этих семьях (поскольку они были маленькими); и 2) методы коэволюции нельзя было применить для их изучения. С помощью метагеномики мы обнаружили, что некоторые из этих забытых семей имели только несколько последовательностей до сих пор могут стать такими же большими, как некоторые из наиболее изученных, если принять во внимание данные метагеномики! Кроме того, мы можем предложить 3D-модель репрезентативной последовательности из семейства. Мы надеемся, что это вызовет интерес в некоторых из этих семей."
Вооружившись последовательностями генома, такие исследователи, как Бейкер, смогли идентифицировать наборы аминокислот, которые эволюционируют одновременно, даже если они находятся далеко друг от друга в развернутой цепи. Такие события предполагают, что эти аминокислоты являются соседями в свернутом белке, что дает исследователям подсказки относительно структуры белка. Структурная близость может указывать на функциональную взаимосвязь, и, таким образом, естественный отбор, воздействуя на функцию, может благоприятствовать не одной аминокислоте, а всем присутствующим в наборе.
Никос Кирпидес, глава программы DOE JGI Prokaryote Super, сказал, что сотрудничество между лабораторией Baker и DOE JGI позволило команде разработать мощный способ прогнозирования структур и структурных выравниваний. «Такие усилия ранее были ограничены семействами белков, созданными из последовательностей, обнаруженных только в геноме изолята. Эти геномы включают около 200 миллионов последовательностей. Как и ожидалось, когда мы добавили к ним наши метагеномные данные, используя 5 миллиардов собранных последовательностей метагенома, доступных IMG/M, мы смогли значительно увеличить охват многих известных семейств белков. Усилия, подобные этому, в значительной степени зависят от доступности собранных метагеномных последовательностей, что является преимуществом, которое DOE JGI предлагает к столу с нашим высоким качеством. сборки."
Кирпидес добавил, что эта работа, в которой также участвовали исследователи JGI Министерства энергетики США Неха Варгезе и Джордж Павлопулос, олицетворяет еще один вид сотрудничества, которое он хотел бы поощрять. «Люди пришли к нам, потому что мы поддерживаем самую большую интеграцию собранных метагеномов. Применение таких инструментов к нашим данным дает отличный пример того, как более широкое сообщество может использовать ресурсы JGI для открытий. Мы очень хотели бы видеть больше историй успеха. как этот, через новый вызов Data Science между JGI и Национальным научно-вычислительным центром энергетических исследований (NERSC)."
Конкурс JGI-NERSC Microbiome Data Science позволит пользователям проводить современные вычислительные исследования в области геномики и метагеномики и поможет им преобразовать информацию о последовательностях, полученную в DOE JGI или где-либо еще, в биологические открытия. Этот конкурс предложений основан на успехе инициативы «Учреждения, интегрирующие сотрудничество для пользовательской науки» (FICUS), созданной для поощрения и предоставления исследователям возможности более легко интегрировать опыт и возможности нескольких национальных пользовательских учреждений в свои исследования.