Новый подход к глубокому обучению предсказывает структуру белка по аминокислотной последовательности

Новый подход к глубокому обучению предсказывает структуру белка по аминокислотной последовательности
Новый подход к глубокому обучению предсказывает структуру белка по аминокислотной последовательности

Почти каждый фундаментальный биологический процесс, необходимый для жизни, осуществляется белками. Они создают и поддерживают форму клеток и тканей; представляют собой ферменты, катализирующие поддерживающие жизнь химические реакции; действуют как молекулярные фабрики, транспортеры и моторы; служить как сигнал и приемник для сотовой связи; и многое другое.

Состоящие из длинных цепочек аминокислот, белки выполняют эти бесчисленные задачи, складываясь в точные трехмерные структуры, которые управляют тем, как они взаимодействуют с другими молекулами. Поскольку форма белка определяет его функцию и степень его дисфункции при заболевании, усилия по выяснению белковых структур занимают центральное место во всей молекулярной биологии - и, в частности, в терапевтической науке и разработке спасающих и изменяющих жизнь лекарств.

В последние годы вычислительные методы добились значительных успехов в предсказании того, как белки укладываются, на основе знания их аминокислотной последовательности. В случае полной реализации эти методы могут изменить практически все аспекты биомедицинских исследований. Современные подходы, однако, ограничены масштабом и объемом белков, которые могут быть определены.

Теперь ученый из Гарвардской медицинской школы использовал форму искусственного интеллекта, известную как глубокое обучение, для эффективного предсказания трехмерной структуры любого белка на основе его аминокислотной последовательности.

В онлайн-репортаже Cell Systems от 17 апреля системный биолог Мохаммед Аль-Кураиши подробно описывает новый подход к компьютерному определению структуры белка, достигая точности, сравнимой с текущими современными методами, но со скоростью, превышающей в миллион раз.

«Сворачивание белков было одной из самых важных проблем для биохимиков за последние полвека, и этот подход представляет собой принципиально новый способ решения этой проблемы», - сказал Аль Курайши, преподаватель системной биологии в Институте Блаватника в HMS и сотрудник Лаборатории системной фармакологии. «Теперь у нас есть совершенно новая перспектива для изучения фолдинга белков, и я думаю, что мы только начали царапать поверхность».

Легко сформулировать

Хотя процессы, использующие физические инструменты для идентификации белковых структур, весьма успешны, они дороги и требуют много времени даже при использовании современных методов, таких как криоэлектронная микроскопия. Таким образом, подавляющее большинство белковых структур и влияние на эти структуры вызывающих болезни мутаций до сих пор в значительной степени неизвестны.

Вычислительные методы, которые рассчитывают, как сворачиваются белки, могут значительно сократить затраты и время, необходимые для определения структуры. Но проблема трудна и остается нерешенной после почти четырех десятилетий интенсивных усилий.

Белки состоят из библиотеки из 20 различных аминокислот. Они действуют как буквы в алфавите, объединяясь в слова, предложения и абзацы, создавая астрономическое количество возможных текстов. Однако, в отличие от букв алфавита, аминокислоты представляют собой физические объекты, расположенные в трехмерном пространстве. Часто секции белка будут находиться в непосредственной физической близости, но разделены большими расстояниями с точки зрения последовательности, поскольку его цепи аминокислот образуют петли, спирали, слои и повороты.

«Что интересно в этой проблеме, так это то, что ее довольно легко сформулировать: возьмите последовательность и определите форму», - сказал Аль Курайши. «Белок начинается как неструктурированная цепочка, которая должна принять трехмерную форму, и возможные наборы форм, в которые может быть сложена цепочка, огромны. Многие белки состоят из тысяч аминокислот, и сложность быстро превышает возможности человеческая интуиция или даже самые мощные компьютеры."

Сложно решить

Чтобы решить эту проблему, ученые используют тот факт, что аминокислоты взаимодействуют друг с другом на основе законов физики, ища энергетически благоприятные состояния, как мяч, катящийся вниз по склону, чтобы осесть на дне долины.

Самые передовые алгоритмы рассчитывают структуру белка, работая на суперкомпьютерах - или на краудсорсинговой вычислительной мощности в случае таких проектов, как Rosetta@Home и Folding@Home - для имитации сложной физики взаимодействий аминокислот методом грубой силы. Чтобы уменьшить огромные вычислительные требования, эти проекты основаны на сопоставлении новых последовательностей с предопределенными шаблонами, которые представляют собой белковые структуры, ранее определенные экспериментально.

Другие проекты, такие как AlphaFold от Google, в последнее время вызвали огромный ажиотаж благодаря использованию достижений в области искусственного интеллекта для предсказания структуры белка. Для этого эти подходы анализируют огромные объемы геномных данных, которые содержат план белковых последовательностей. Они ищут последовательности у многих видов, которые, вероятно, эволюционировали вместе, используя такие последовательности как индикаторы непосредственной физической близости к сборке направляющих структур.

Эти подходы ИИ, однако, не предсказывают структуры, основываясь исключительно на аминокислотной последовательности белка. Таким образом, они имеют ограниченную эффективность для белков, для которых нет предварительных знаний, эволюционно уникальных белков или новых белков, разработанных людьми.

Углубленная тренировка

Для разработки нового подхода AlQuraishi применил так называемое сквозное дифференцируемое глубокое обучение. Эта ветвь искусственного интеллекта резко сократила вычислительную мощность и время, необходимые для решения таких задач, как распознавание изображений и речи, что позволило использовать такие приложения, как Siri от Apple и Google Translate..

По сути, дифференцируемое обучение включает в себя единую огромную математическую функцию - гораздо более сложную версию уравнения школьного исчисления - организованную в виде нейронной сети, где каждый компонент сети передает информацию вперед и назад.

Эта функция может настраивать и настраивать себя снова и снова на невообразимых уровнях сложности, чтобы «узнать» точно, как последовательность белка математически соотносится со своей структурой.

AlQuraishi разработал модель глубокого обучения, названную рекуррентной геометрической сетью, которая фокусируется на ключевых характеристиках фолдинга белков. Но прежде чем он сможет делать новые прогнозы, его нужно обучить, используя ранее определенные последовательности и структуры.

Для каждой аминокислоты модель предсказывает наиболее вероятный угол химических связей, соединяющих аминокислоту с ее соседями. Он также предсказывает угол поворота вокруг этих связей, который влияет на то, как любой локальный участок белка геометрически соотносится со всей структурой.

Это делается неоднократно, при этом каждый расчет информируется и уточняется относительным положением каждой другой аминокислоты. После того, как вся структура завершена, модель проверяет точность своего предсказания, сравнивая его с «наземной» структурой белка.

Весь этот процесс повторяется для тысяч известных белков, при этом модель обучается и повышает свою точность с каждой итерацией.

Новая перспектива

Как только его модель была обучена, Аль-Курайши проверил ее предсказательную силу. Он сравнил его эффективность с другими методами, применявшимися за несколько последних лет в рамках ежегодного эксперимента Critical Assessment of Protein Structure Prediction, который проверяет вычислительные методы на их способность делать прогнозы с использованием белковых структур, которые были определены, но не опубликованы..

Он обнаружил, что новая модель превзошла все другие методы предсказания белковых структур, для которых не существует ранее существовавших шаблонов, включая методы, использующие данные о коэволюции. Он также превзошел все методы, кроме лучших, когда для прогнозирования были доступны уже существующие шаблоны.

Хотя эти улучшения в точности относительно невелики, AlQuraishi отмечает, что добиться каких-либо улучшений в верхней части этих тестов сложно. И поскольку этот метод представляет собой совершенно новый подход к фолдингу белков, он может дополнять существующие методы, как вычислительные, так и физические, для определения гораздо более широкого диапазона структур, чем это было возможно ранее.

Удивительно, но новая модель выполняет свои прогнозы примерно на шесть-семь порядков быстрее, чем существующие вычислительные методы. Обучение модели может занять месяцы, но после обучения она может делать прогнозы за миллисекунды по сравнению с часами или днями, которые требуются при использовании других подходов. Это существенное улучшение частично связано с единственной математической функцией, на которой оно основано и требует для запуска всего несколько тысяч строк компьютерного кода вместо миллионов.

Высокая скорость прогнозов этой модели позволяет использовать новые приложения, которые раньше были медленными или трудными для реализации, сказал Аль Курайши, например, прогнозирование того, как белки меняют свою форму при взаимодействии с другими молекулами.

«Подходы к глубокому обучению, не только мои, будут продолжать расти в своей предсказательной силе и популярности, потому что они представляют собой минимальную, простую парадигму, которая может легче интегрировать новые идеи, чем современные сложные модели», - добавил он..

Новая модель еще не готова к немедленному использованию, скажем, при открытии или разработке лекарств, сказал Аль-Курайши, потому что ее точность в настоящее время колеблется где-то около 6 ангстрем - все еще на некотором расстоянии от 1-2 ангстрем, необходимых для разрешения проблемы. Полная атомная структура белка. Но есть много возможностей оптимизировать этот подход, сказал он, включая дальнейшую интеграцию правил, взятых из химии и физики.

«Точное и эффективное предсказание фолдинга белка было святым Граалем для этой области, и я надеюсь и ожидаю, что этот подход в сочетании со всеми другими замечательными методами, которые были разработаны, сможет это сделать. в ближайшее время», - сказал Аль-Курайши. «Возможно, мы решим эту проблему в ближайшее время, и я думаю, что пять лет назад никто бы так не сказал. Это очень интересно и в то же время немного шокирует».

Чтобы помочь другим участвовать в разработке методов, AlQuraishi сделал свое программное обеспечение и результаты свободно доступными через платформу обмена программным обеспечением GitHub.

Одной примечательной особенностью работы АлКурайши является то, что один научный сотрудник, включенный в богатую исследовательскую экосистему Гарвардской медицинской школы и бостонского биомедицинского сообщества, может конкурировать с такими компаниями, как Google, в одной из самых горячих областей компьютерных технологий. науки», - сказал Питер Зоргер, профессор системной фармакологии HMS Otto Krayer в Институте Блаватника в HMS, директор Лаборатории системной фармакологии в HMS и академический наставник AlQuraishi..

«Неразумно недооценивать разрушительное влияние таких блестящих парней, как AlQuraishi, работающих с общедоступным программным обеспечением с открытым исходным кодом», - сказал Зоргер.