Слушаем, как разговаривают белки, и изучаем их язык: машинное обучение ускоряет разработку синтетических белков с желаемыми функциями, способствуя будущим терапевтическим, диагностическим и b

Слушаем, как разговаривают белки, и изучаем их язык: машинное обучение ускоряет разработку синтетических белков с желаемыми функциями, способствуя будущим терапевтическим, диагностическим и b
Слушаем, как разговаривают белки, и изучаем их язык: машинное обучение ускоряет разработку синтетических белков с желаемыми функциями, способствуя будущим терапевтическим, диагностическим и b

Биологи-синтетики взяли эволюцию белков в свои руки, изменив некоторые из них в природе или даже синтезировав их с нуля. Такие сконструированные белки используются в качестве высокоэффективных лекарств, компонентов синтетических генных цепей, воспринимающих биологические сигналы, или в производстве ценных химических веществ способами, которые более эффективны и устойчивы, чем методы, основанные на нефти.

Чтобы спроектировать их, они используют два совершенно разных подхода. В «направленной эволюции» они случайным образом изменяют линейную последовательность строительных блоков аминокислот, кодирующих природный белок, и отбирают варианты с желаемой активностью; или они используют «рациональный дизайн» для моделирования белков на основе их реальной трехмерной структуры, чтобы идентифицировать аминокислоты, которые, вероятно, будут влиять на функцию белка. Однако направленная эволюция может покрыть лишь малую часть огромного пространства возможных белковых последовательностей, в то время как подходы к рациональному проектированию ограничены относительной нехваткой тщательно решенных трехмерных белковых структур.

Теперь исследовательская группа во главе с Джорджем Черчем, доктором философии. в Гарвардском институте биологической инженерии Висса и Гарвардской медицинской школе (HMS) разработали третий подход к инженерии белков, который использует глубокое обучение для выделения фундаментальных характеристик белков непосредственно из их аминокислотной последовательности без необходимости дополнительной информации. Подход надежно предсказывает функции как природных, так и белков, разработанных de novo, и переносит множество трудоемких лабораторных экспериментов на компьютер, обеспечивая снижение затрат на два порядка по сравнению с существующими подходами. Исследование опубликовано в журнале Nature Methods..

Черч является одним из основателей Института Висса и руководителем его платформы синтетической биологии. Он также является профессором генетики Роберта Уинтропа в Гарвардской медицинской школе и профессором медицинских наук и технологий в Гарвардском университете и Массачусетском технологическом институте (MIT).

«Вместо подробного описания белков, чтобы понять принципы их построения, мы использовали нейронную сеть для беспристрастного изучения этих правил путем систематического поиска паттернов в огромном количестве сырых белковых последовательностей в общедоступных базах данных», - сказал он. Суроджит Бисвас, один из трех соавторов исследования, аспирант группы Черча.«Нейронная сеть изучила множество правил, которые мы, люди, узнали ранее благодаря многим кропотливым исследованиям, и помимо этого она также открыла новые свойства белков».

Подход с использованием нейронных сетей, который исследователи назвали «унифицированным представлением» (UniRep), можно сравнить с изучением языка, когда учащийся строит семантическое понимание того, как сложные предложения строятся из строк букв и слов. На белковом языке UniRep был обучен предсказывать следующую аминокислоту в белковой последовательности, начиная с первой, исследуя все возможности в белковых последовательностях, содержащихся в общедоступных базах данных. Важно отметить, что, проходя через оставшуюся часть белка, по одной аминокислоте за раз, UniRep создает и использует внутреннюю «резюме» последовательности, которую он видел до сих пор в белке, которую команда называет «скрытым состоянием». учитывать его индивидуальную последовательность и структурные особенности. Передавая эту информацию и результаты многих других белков обратно в свой алгоритм, UniRep постепенно пересматривает способ построения скрытых состояний, что со временем улучшает его возможности прогнозирования. В языковой аналогии учащийся сможет предсказывать следующее слово предложения, которое он читает, с возрастающей вероятностью, основываясь на постоянно улучшающемся понимании синтаксиса и выборе слов.

"Мы обучали UniRep примерно 24 миллионам белковых последовательностей в течение примерно 3 недель, чтобы он мог предсказывать последовательности и их связь с такими характеристиками, как стабильность белка, вторичная структура и доступность внутренних последовательностей для окружающих растворителей в белках, которые он никогда не делал. видел раньше», - сказал Григорий Химуля, который был студентом Гарвардского колледжа, а также является соавтором вместе с Бисвасом и Итаном Элли. «UniRep точно описал эти особенности в белках из очень разных белковых семейств, структура которых была хорошо охарактеризована в предыдущих исследованиях, даже в синтетических белках, не имеющих аналогов в природе."

Команда сделала UniRep еще на один шаг и использовала его как инструмент для предсказания того, как замены отдельных аминокислот влияют на функцию белков. Нейронная сеть надежно определила эффекты мутаций отдельных аминокислот в восьми различных белках с различными биологическими функциями, включая ферментативный катализ, связывание ДНК, молекулярное зондирование. Кроме того, используя зеленый флуоресцентный белок (GFP) Aequorea victoria в качестве модели, они поручили UniRep проанализировать 64 800 вариантов белка, каждый из которых несет от 1 до 12 мутаций, что продемонстрировало, что он может точно предсказать, как распределение и относительная нагрузка мутаций изменили яркость белка.

"По сравнению с другими стратегиями, наша это делает ее действительно мощным инструментом для белковых инженеров во многих областях."

Этот новый вычислительный подход к белковой инженерии, основанный на глубоком обучении, может ускорить разработку синтетических белков с функциями, адаптированными для любого желаемого применения, будь то терапия, диагностика, биопроизводство, биокатализ или любые другие заявление. Это буквально может изменить то, как мы осуществляем молекулярный дизайн в будущем», - сказал директор-основатель Wyss Дональд Ингбер, доктор медицинских наук, который также является профессором сосудистой биологии Джуды Фолкмана в HMS и программы сосудистой биологии в Бостонском детском университете. Госпиталь, а также профессор биоинженерии в Гарвардской школе инженерии и прикладных наук имени Джона А. Полсона.

Исследование также было проведено научным сотрудником HMS Мохаммедом Аль-Куараиши. Он финансировался Национальным институтом здравоохранения, Национальным научным фондом и Гарвардским институтом биологической инженерии имени Висса.