В наш век «больших данных» искусственный интеллект (ИИ) стал ценным союзником ученых. Алгоритмы машинного обучения, например, помогают биологам разобраться в головокружительном количестве молекулярных сигналов, управляющих работой генов. Но по мере того, как разрабатываются новые алгоритмы для анализа еще большего количества данных, они также становятся все более сложными и трудными для интерпретации. Количественные биологи Джастин Б. Кинни и Аммар Тарин разработали стратегию разработки передовых алгоритмов машинного обучения, которые биологам будет легче понять.
Алгоритмы представляют собой тип искусственной нейронной сети (ИНС). Вдохновленные тем, как нейроны соединяются и разветвляются в мозгу, ИНС являются вычислительной основой для передового машинного обучения. И, несмотря на свое название, ИНС используются не только для изучения мозга.
Биологи, такие как Тарин и Кинни, используют ИНС для анализа данных экспериментального метода, называемого «массивно-параллельным репортерным анализом» (MPRA), который исследует ДНК. Используя эти данные, количественные биологи могут создавать ИНС, которые предсказывают, какие молекулы контролируют определенные гены в процессе, называемом регуляцией генов.
Клеткам не нужны все белки постоянно. Вместо этого они полагаются на сложные молекулярные механизмы, чтобы включать и выключать гены, производящие белки, по мере необходимости. Когда эти правила не работают, обычно следуют расстройство и болезнь.
«Это механистическое знание - понимание того, как работает что-то вроде регуляции генов - очень часто является разницей между способностью разрабатывать молекулярные методы лечения болезней и неспособностью», - сказал Кинни.
К сожалению, способ формирования стандартных ИНС на основе данных MPRA сильно отличается от того, как ученые задают вопросы в науках о жизни. Это несоответствие означает, что биологам трудно интерпретировать, как происходит регуляция генов.
Теперь Кинни и Тарин разработали новый подход, который устраняет разрыв между вычислительными инструментами и тем, как думают биологи. Они создали собственные ИНС, математически отражающие общие представления биологии о генах и молекулах, которые их контролируют. Таким образом, пара, по сути, заставляет свои алгоритмы машинного обучения обрабатывать данные таким образом, чтобы их мог понять биолог.
Эти усилия, объяснил Кинни, показывают, как современные промышленные технологии искусственного интеллекта могут быть оптимизированы для использования в науках о жизни. Проверив эту новую стратегию создания пользовательских ИНС, лаборатория Кинни применяет ее для исследования широкого спектра биологических систем, включая цепи ключевых генов, участвующих в заболеваниях человека.