Модель машинного обучения дает подробное представление о белках

Модель машинного обучения дает подробное представление о белках
Модель машинного обучения дает подробное представление о белках

Новый «инструментарий» машинного обучения, который может считывать и анализировать последовательности белков, был описан сегодня в журнале eLife с открытым доступом.

Исследование показывает, что искусственные нейронные сети, обученные считывать данные о последовательности, называемые ограниченными машинами Больцмана (RBM), могут предоставить обширную информацию о структуре, функциях и эволюционных особенностях белка. Считается, что это первый метод, который может извлекать такой уровень детализации только из данных последовательности.

Белки состоят из последовательностей молекул, называемых аминокислотами, которые определяют структурные и функциональные свойства данного белка. Но понять, какие части последовательностей отвечают за какие свойства, сложно. «Ответ на этот вопрос может иметь серьезные последствия для развития фармацевтики», - объясняет соавтор Жером Тубиана, бывший аспирант физической лаборатории Высшей нормальной школы (ENS), Париж, Франция. «Например, это может помочь в разработке новых белков с желаемыми функциями или в прогнозировании будущей эволюции последовательности белков в живых организмах, таких как патогены, и определении подходящих мишеней для лекарств».

Чтобы изучить этот вопрос, Тубиана и его сотрудники применили RBM к 20 белковым «семействам» - группе белков, имеющих общее эволюционное происхождение. Исследователи представили подробные результаты для четырех семейств белков, включая два коротких белковых домена, называемых Kunitz и WW, один длинный белок-шаперон, называемый Hsp70, и синтетические решетчатые белки для сравнительного анализа.

Они обнаружили, что после обучения связи между искусственными нейронами в RBM поддаются интерпретации и связаны со структурой белка, функцией (например, активностью) или филогенезом - эволюционными отношениями между белковыми последовательностями. Кроме того, команда обнаружила, что они могут использовать RBM для разработки новых белковых последовательностей, компонуя и активируя или понижая различные искусственные нейронные единицы по желанию.

«Наша модель RBM показывает, как методы машинного обучения могут решать задачи распознавания сложных данных и делать выводы из данных интерпретируемым способом», - говорит соавтор Симона Кокко, директор по исследованиям CNRS в физической лаборатории ENS. «Это противоречит более сложным моделям черного ящика, которые традиционно используются в науке о данных, поскольку статистический анализ, предоставляемый этими инструментами, в значительной степени не поддается интерпретации. Интерпретируемость нашего метода является большим преимуществом для ученых - он обещает позволить их для создания белков с желаемыми функциями контролируемым образом».

«Теперь будет интересно применить нашу модель к белкам в патогенах», - добавляет старший автор Реми Монассон, также директор CNRS по исследованиям в физической лаборатории ENS и заместитель директора Института Анри Пуанкаре (CNRS/Сорбонна). университет), Франция.«Патогены, особенно вирусы, часто могут ускользать от лекарств благодаря мутациям, которые делают лечение неэффективным. Наш метод можно использовать для предсказания путей мутационного ускользания, которые доступны для функционального белка из его текущей последовательности, и помочь определить, какая комбинация участков белка должна быть нацелены на наркотики, чтобы заблокировать все пути."