Крупнейший набор данных Populus SNP обещает биотопливо, материалы и метаболиты

Крупнейший набор данных Populus SNP обещает биотопливо, материалы и метаболиты
Крупнейший набор данных Populus SNP обещает биотопливо, материалы и метаболиты

Исследователи из Национальной лаборатории Ок-Риджа (ORNL) Министерства энергетики опубликовали крупнейший в истории набор данных о полиморфизме одиночных нуклеотидов (SNP) о генетических вариациях тополей. биотоплива, материаловедения и вторичного метаболизма растений.

В течение почти 10 лет исследователи из Научного центра биоэнергетики при Министерстве энергетики США (BESC), исследовательского центра биоэнергетики Министерства энергетики под руководством ORNL, изучали геном Populus - быстрорастущего многолетнего дерева, известного своим экономическим потенциалом в производстве биотоплива.. Сегодня они выпустили набор данных Genome-Wide Association Study (GWAS), который включает более 28 миллионов однонуклеотидных полиморфизмов или SNP, полученных примерно из 900 повторно секвенированных генотипов тополя. Каждый SNP представляет собой вариант одного нуклеотида ДНК или строительного блока и может действовать как биологический маркер, помогая ученым находить гены, связанные с определенными характеристиками, состояниями или заболеваниями.

Данные «дают нам беспрецедентную статистическую мощность для связи изменений ДНК с фенотипами [физическими признаками]», - сказал Джеральд Тускан, корпоративный сотрудник и руководитель группы системной биологии растений в отделе биологических наук ORNL. Сегодня Tuskan представит данные GWAS на конференции по геномам растений и животных в Сан-Диего. Результаты этого анализа были использованы для поиска генетического контроля неподатливости клеточных стенок - естественной характеристики клеточных стенок растений, которая предотвращает высвобождение сахаров при микробной конверсии и ингибирует производство биотоплива.

Ученые BESC также используют набор данных для определения молекулярных механизмов, контролирующих отложение лигнина в структурах растений. Лигнин, полимер, который укрепляет стенки клеток растений, действует как барьер для доступа к целлюлозе и тем самым предотвращает расщепление целлюлозы на простые сахара для ферментации.

С новым набором данных GWAS по тополям «мы можем идентифицировать гены и генетические варианты [т. работать с микробами для получения целевого продукта», - сказал Тускан. Такие продукты включают модифицированный лигнин, адаптированный для химических веществ, полимеров и материалов. Хотя самые непосредственные применения набора данных связаны с наукой о растениях, исследователи ORNL планируют использовать данные GWAS для информирования биологической работы в таких областях, как более чистое, устойчивое транспортное топливо, углеродное волокно для легких транспортных средств и альтернативы обычным пластикам и строительным изоляционным материалам.

Даже медицина может извлечь выгоду из этой работы: исследователи ORNL, например, использовали GWAS тополя для идентификации генов, которые контролируют образование мозолей или клеток, покрывающих рану растения. Работа имеет значение для исследования рака.

«Гены, связанные с образованием костной мозоли, аналогичны многим генам, участвующим в формировании опухолей у людей», - сказал Тускан. «Это открытие и связанная с ним сеть экспрессии генов, окружающая такие гены, могут помочь в работе, связанной с Cancer Moonshot», - добавил он, имея в виду федеральную инициативу, направленную на ускорение прогресса в исследованиях рака.

Тускан, работающий по совместительству в Объединенном институте генома Министерства энергетики в Калифорнии, около десяти лет назад нашел вдохновение для работы в секвенировании генома человека. Исследователи поняли, как эти типы исследований могут быть использованы для решения проблем Министерства энергетики в области секвестрации углерода, биообработки и материаловедения.

Tuskan подчеркнул важность технологических достижений в работе. Возможности секвенирования и вычислительные возможности «сделали работу возможной», сказал он. «Мы работаем в сфере больших данных, и, к счастью, в национальной лаборатории у нас есть платформы и инфраструктура для проведения такого анализа».

В рамках своей работы исследователи использовали вычислительные ресурсы, доступные в ORNL в рамках программы Compute and Data Environment for Science (CADES) в рамках Управления вычислительных и вычислительных наук ORNL, а также суперкомпьютер Titan в Ок-Ридже. Вычислительный центр Leadership Computing Facility, пользовательский центр Министерства энергетики США.

Исследование также включает мониторинг и каталогизацию фенотипов тополей в регионах от юга Британской Колумбии до центральной Калифорнии. «Никакая сложная геномика и вычислительная наука ничего бы не значили без полевых исследований. Генетика, вычислительная наука, а также измерение и каталогизация фенотипов - это три опоры платформы, на которой мы стоим в BESC», - сказал Тускан.

Исследователи планируют расширить существующий набор данных и сотрудничать с другими научными группами для сбора и анализа дополнительных фенотипов.