Что искусственный интеллект может рассказать нам о белках

Что искусственный интеллект может рассказать нам о белках
Что искусственный интеллект может рассказать нам о белках

Интеллектуальные виртуальные помощники, такие как Alexa, Siri и Google Assistant, уже давно вошли в нашу повседневную жизнь. И интеллектуальные вычислительные программы, так называемые алгоритмы, также превратились в неотъемлемый инструмент научных исследований. Огромные объемы данных, генерируемых в исследованиях в области наук о жизни, можно эффективно исследовать на наличие повторяющихся закономерностей с помощью алгоритмов. Некоторые программы способны выявлять повторяющиеся структуры в больших белковых молекулах, а затем использовать эту информацию, чтобы делать выводы о том, какие клеточные задачи выполняют эти молекулы, например, функционируют ли они как генные переключатели, молекулярные моторы или сигнальные молекулы. Предсказания, сделанные такими алгоритмами на основе белковых последовательностей, состоящих из ряда белковых строительных блоков, соединенных вместе, как жемчужное ожерелье, теперь невероятно точны.

Однако основным недостатком предыдущих методов является то, что пользователи остаются в полном неведении относительно того, почему алгоритм присваивает определенную функцию определенным последовательностям белков. Точные знания компьютера о белках недоступны напрямую, несмотря на то, что такие знания могут оказаться бесценными для продвижения исследований и разработки новых агентов.

Студенческая команда под руководством Роланда Эйлса и Ирины Леманн из Берлинского института здравоохранения (BIH) и Charité - Universitätsmedizin Berlin в сотрудничестве с Домиником Ниопеком из Института фармации и молекулярной биотехнологии (IPMB) в Гейдельберге университета, поставила перед собой цель отпереть эти знания от компьютера. Он начал работать над этой темой в 2017 году и разработал алгоритм под названием «DeeProtein», комплексную и интеллектуальную нейронную сеть, которая может предсказывать функции белков на основе последовательности отдельных строительных блоков белка, аминокислот. Как и большинство алгоритмов обучения, DeeProtein представляет собой «черный ящик», а это означает, что принцип их работы остается загадкой как для программистов, так и для пользователей. Но теперь студенты применили «трюк», чтобы разгадать тайну этой сети.

Молодые ученые начали с разработки способа, образно говоря, смотреть через плечо программы, когда она выполняет свою работу. «В анализе чувствительности мы последовательно маскируем каждую позицию в последовательности белка и позволяем DeeProtein рассчитать или, скорее, предсказать функцию белка на основе этой неполной информации», - объясняет Джулиус Апмайер цу Бельзен. Он является студентом магистерской программы по молекулярной биотехнологии в IPMB и ведущим автором статьи, которая была только что опубликована в журнале Nature Machine Intelligence. «Затем мы предоставляем DeeProtein полную информацию о последовательности и сравниваем два набора прогнозов», - добавляет Апмайер цу Белзен. «Таким образом мы рассчитываем для каждой позиции в белковой последовательности, насколько важна эта позиция для предсказания правильной функции. Это означает, что мы присваиваем каждому положению или каждой аминокислоте в белковой цепи значение чувствительности для функции белка».

Затем ученые используют новую аналитическую технику для определения областей белков, жизненно важных для их функции. Этот метод работает для сигнальных белков, которые играют роль в канцерогенезе, а также для инструмента редактирования генов CRISPR-Cas9, который уже был протестирован в большом количестве доклинических и клинических исследований. «Анализ чувствительности позволяет нам идентифицировать участки белка, которые хорошо или плохо переносят изменения», - говорит Доминик Ниопек. «Это важный первый шаг, если мы хотим внести целенаправленные изменения в белки, чтобы наделить их новыми функциями или «отключить» нежелательные свойства».

«С помощью этой работы мы показываем, что предсказания нейронных сетей могут быть не только полезными, но и то, что теперь мы впервые можем использовать это неявное знание для практических целей», - объясняет Роланд Эйлс. Такой подход актуален для многих вопросов молекулярной биологии и медицины. «Если, например, мы хотим разработать таргетные лекарства или генную терапию, нам нужно точно знать, на чем сосредоточить наше внимание», - добавляет Эйлс. «DeeProtein теперь может помочь нам в этом».