Целый ботанический сад геномов

Статья, опубликованная сегодня в журнале открытого доступа GigaScience, содержит данные, которые фактически утроили количество видов растений с доступными данными о геноме. Этот гигантский объем работы стал результатом растущих усилий научного сообщества по секвенированию большего количества геномов растений, чтобы помочь понять их сложную эволюцию и предоставить практическую информацию для повышения урожайности сельскохозяйственных культур. На сегодняшний день секвенировано около 350 геномов наземных растений. Стремление к большему количеству последовательностей генома растений недавно было подчеркнуто объявлением о проекте 10KP, целью которого является секвенирование 10 000 геномов растений, чтобы выяснить эволюцию всех основных ветвей древа жизни растений. Работа здесь предоставляет изображения, необработанные данные секвенирования, собранные геномы хлоропластов и предварительные сборки ядерного генома - все в свободном доступе. По сути, эта работа представляет собой цифровое представление всего ботанического сада.

Исследователи из Китайского национального банка генов, BGI и Бюро лесного хозяйства города Жуйли, Китай, отобрали и секвенировали 761 образец, представляющий 689 видов сосудистых растений из 137 семейств и 49 отрядов. Все образцы растений взяты из ботанического сада площадью 500 гектаров в Жуйли, субтропической части Китая, граничащей с Мьянмой. Находясь в биологически богатой части Китая, сад стремится защищать находящиеся под угрозой исчезновения и эндемичные для Китая растения, включая сохранение и архивирование этих ресурсов зародышевой плазмы, чтобы помочь в их долгосрочном сохранении. Этот проект является первой в мире научной и систематической попыткой оцифровать весь ботанический сад на основе геномной информации, а также информации об образцах ваучеров.

Что касается научного потенциала этого ресурса, генеральный директор BGI и автор статьи Сюнь Сюй подчеркивает, что: «Современное понимание эволюции растений и их разнообразия в филогеномном контексте ограничено из-за отсутствия геномных данных. информацию о филогенетически различных видах. Этот инновационный проект объединяет новый взгляд на оцифровку всех видов растений для расширения эволюционных и экологических исследований в ботанических садах».

В общей сложности исследователи произвели 54 терабайта данных секвенирования со средней глубиной секвенирования 60X для каждого вида. В дополнение к основной задаче проведения секвенирования ДНК для этого количества видов, другой важной задачей было расширение масштабов идентификации видов, оцифровка изображений образцов и создание нового гербария для их хранения в новом Китайском национальном генетическом банке (CNGB). гербарий в Шэньчжэне. На сегодняшний день из 761 образца данные о последовательностях и хлоропластах позволили идентифицировать 257 растений на уровне видов и 504 растения на уровне семейства. Глубокое обучение также было успешно применено к 181 виду, что позволило идентифицировать их на уровне вида.

Автор Тинг Ян говорит, что это был «самый большой объем данных, которые я когда-либо обрабатывал. Во время анализа данных, я думаю, самыми большими проблемами была проверка последовательности и изучение результатов». Это потребовало от исследователей индивидуальной проверки данных секвенирования каждого из 761 образца и сравнения последовательностей генов хлоропластов с образцами из гербария для идентификации видов..

Еще одна трудность, связанная с простым получением возможности выполнять работу по секвенированию, заключалась в сборе всех образцов. Автор Цзиньпу Вэй заявляет: «Мы сотрудничали с экспертами из Бюро лесного хозяйства Жуйли для сбора растительных материалов, распределенных в районе Жуйли, для создания цифрового ботанического сада. После 45 дней утомительных усилий мы собрали 1093 растительных материала. Хотя нам было сложно правильно транспортировать материалы, нам наконец удалось обеспечить высокое качество этих растительных материалов для будущих исследований».

Автор, ответственный за корреспонденцию, Синь Лю, добавляет, что проект «был базовым проектом для точной настройки и стандартизации выборки, методологий, а также методов сбора и анализа данных для крупномасштабных проектов генома, таких как 10KP (10 тысяч растений). Геномный проект). Благодаря этому проекту мы получили значительный и полезный опыт для последующего сбора образцов, секвенирования и сборки. В то же время данные, полученные в результате этого исследования, могут быть эффективно использованы в последующих геномных проектах».

Несмотря на то, что для каждого вида была создана только одна библиотека секвенирования, авторы смогли собрать предварительные геномы для 17 из них, что отражает качество и потенциал повторного использования ДНК. Исследователи Китайского университета Гонконга уже самостоятельно собрали геномы особо интересующих их видов. Потенциал более широкого исследовательского сообщества для изучения интересующих их видов, улучшения других геномов, разработки инструментов и методов и предоставления возможностей для обучения новым поколениям ученых огромен.

Ведущий автор Хуан Лю добавил, что «Геномная характеристика предоставит большой объем базовых данных для сборки генома растений, что станет отличным началом для проекта 10KP. В то же время он закладывает хорошую основу для будущих исследований механизма корреляции от макроскопической экологии и биоразнообразия до микроскопического молекулярного уровня».

Для содействия более широкому обмену данными, чем просто предоставление данных о последовательности, исследователи также делают доступными оцифрованные изображения и предоставляют доступ к гербарию. Гербарий (HCNGB) служит базой данных живых растений, в которой фиксируется положение видов, выращенных в ботаническом саду Руйли, и отслеживается статус каждого вида.

Все созданные здесь цифровые данные (изображения, необработанные данные секвенирования, собранные геномы хлоропластов и предварительные сборки ядерного генома) доступны через NCBI SRA, базу данных GigaScience GigaDB и China National GeneBank CNSA. Кроме того, чтобы обеспечить поиск данных и обновление геномов и идентификации видов, метаданные индексируются и связываются через Datacite и GigaDB. И все ресурсы высвобождаются без ограничений по отказу от лицензии CC0. Автор д-р Сунил Кумар Саху подчеркнул, что это наиболее важное наследие проекта: «Этот набор данных представляет большую ценность для исследователей растений и, что более важно, может служить в качестве справочного материала для будущих проектов секвенирования генома планетарного масштаба, включая проект Earth BioGenome Project (EBP) и Проект генома 10 тысяч растений (10KP)."