Учитывая недавние замечательные достижения в области генетики, легко предположить, что ученые 21-го века имеют в своем распоряжении четкий и быстрый способ запустить сканирование геномной последовательности и выяснить, какие гены из тысяч могут быть экспрессированы, а какие нет. Экспрессия генов - это процесс, посредством которого информация, закодированная в генах, приводит к ключевым продуктам, таким как белки.
Удивительно, но до сих пор это было невозможно. Биологи Калифорнийского университета в Сан-Диего разработали первую систему определения экспрессии генов на основе машинного обучения. Учитывая отсутствие такого метода, новый процесс считается для биологов своего рода генетическим розеттским камнем.
«Эта статья представляет собой первый метод различения генов, которые могут быть экспрессированы, от тех, которые не могут», - сказал Стив Бриггс, профессор отделения биологических наук и старший автор статьи. «Это основа всей биологии. Будь то открытие лекарств, селекция растений или эволюция, это касается фундаментальных исследований биологии».
Метод, разработанный аспирантом Райаном Сартором, Бриггсом и их коллегами, описан 12 августа 2019 года в Proceedings of the National Academy of Sciences.
Биологи ранее классифицировали экспрессию генов с помощью экспериментальных наблюдений и ссылок на научную литературу. Но в области геномики отсутствовал формализованный процесс раскрытия этой информации, называемый «экспрессируемым набором генов», или EGS, который включает в себя все гены, кодирующие белок, которые потенциально могут быть экспрессированы.
«В биологии нет способа сделать это», - сказал Бриггс. «В прошлом у нас были только эмпирические подходы к созданию каталогов - у нас не было научных критериев, классифицирующих гены на основе их молекулярных характеристик».
Новый метод использует машинное обучение, использование алгоритмов и других процессов для анализа данных и основан на наборе примеров из почти 30 000 генов растений кукурузы, содержащих конкретные, подробные молекулярные характеристики. Усовершенствованный алгоритм был обучен на данных и «научился» классифицировать экспрессию генов с точностью 99,4%.
Ключом к прогрессу является объединение биологии хроматина, которая способствует регулированию упаковки ДНК в клетках, с молекулярными особенностями, которые, как известно, определяют экспрессию генов. Сочетая их с математическим машинным обучением, новый метод определения общевидового набора транскрибируемых генов, или «экспрессомы», затем создает атлас экспрессируемых генов. Этот метод также может быть полезен для понимания эволюционных механизмов, которые заглушают определенные гены.
В настоящее время Бриггс применяет этот метод к сорго, важному зерну для производства продуктов питания и кормов, но говорит, что он может быть полезен не только для видов растений. В конечном счете, по его словам, новый метод похож на декодер слов.
«Последовательность генома похожа на книгу», - сказал Бриггс. «Слова - это гены. До сих пор мы не могли сказать, какие последовательности ДНК были настоящими словами, а какие просто напоминали слова. Удалив не-слова, мы получили гораздо более точное прочтение книги».
Соавторы статьи Жаклин Ношай и Натан Спрингер из Университета Миннесоты. Программа исследований генома растений Национального научного фонда поддержала исследование.