Определение стандартов для геномов некультивируемых микроорганизмов: расширение минимальных информационных стандартов для одноклеточных геномиков, наборов данных метагеномики

Определение стандартов для геномов некультивируемых микроорганизмов: расширение минимальных информационных стандартов для одноклеточных геномиков, наборов данных метагеномики
Определение стандартов для геномов некультивируемых микроорганизмов: расширение минимальных информационных стандартов для одноклеточных геномиков, наборов данных метагеномики

Во время промышленной революции фабрики начали полагаться на машины, а не на людей для массового производства. На фоне социальных изменений закралась стандартизация: от обеспечения одинакового изготовления гаек и болтов для поддержания качества продукции до стандартной железнодорожной колеи, используемой по обе стороны Атлантики. Важность стандартов ярко проявляется, когда они не существуют или не являются общепринятыми, например.г., Маки против ПК или даже фунты против килограммов.

Спустя более века после промышленной революции достижения в технологиях секвенирования ДНК вызвали столь же резкие сдвиги в научных исследованиях, и одним из аспектов является изучение биоразнообразия планеты. Микробы играют решающую роль в регулировании глобальных круговоротов углерода, азота и фосфора, среди прочего, но многие из них остаются некультивируемыми и неизвестными. Чтобы узнать больше об этой так называемой «микробной темной материи», необходимо извлечь микробные геномы из амплифицированной ДНК отдельных клеток и из метагеномов. Поскольку производство геномных данных увеличилось за последние два десятилетия и создается на различных платформах по всему миру, ученые работали вместе, чтобы установить определения для таких терминов, как «черновая сборка» и стандарты сбора данных, которые применяются повсеместно. Одним из важнейших терминов, требующих стандартизации, являются «метаданные», определяемые просто как «данные о других данных».«В случае данных о последовательности метаданные могут включать в себя, какой организм или клетка были секвенированы, откуда они взялись, что они делали, показатели качества и спектр других характеристик, которые повышают ценность данных о последовательности, предоставляя для них контекст и что позволяет лучше понять биологическое значение последовательности.

Опубликовано 8 августа 2017 г. в журнале Nature Biotechnology. Международная группа под руководством исследователей из Объединенного института генома Министерства энергетики США (DOE JGI) разработала стандарты минимального количества метаданных для должны быть снабжены одиночными амплифицированными геномами (SAG) и геномами, собранными на основе метагенома (MAG), представленными в общедоступных базах данных. «За последние несколько лет геномика одиночных клеток стала популярным инструментом, дополняющим метагеномику», - сказала старший автор исследования Таня Войк, руководитель программы DOE JGI Microbial Genomics Program. «Начиная с 2007 года в общедоступных базах данных появились первые одноклеточные геномы из клеток окружающей среды, представляющие собой черновые сборки с колебаниями качества данных. Геномы, собранные в метагеноме, имеют аналогичные проблемы с качеством. Для исследователей, которые хотят проводить сравнительный анализ, действительно важно знать, что входит в анализ. Надежная сравнительная геномика опирается на обширные и правильные метаданные».

Категории качества генома

В своей статье Войке и ее коллеги предложили четыре категории качества генома. Черновики низкого качества будут завершены менее чем на 50 процентов, с минимальным просмотром собранных фрагментов и менее чем на 10 процентов будут загрязнены нецелевой последовательностью. Черновики среднего качества должны быть завершены как минимум на 50 процентов, с минимальным просмотром собранных фрагментов и менее чем 10-процентным загрязнением. Высококачественные черновики будут заполнены более чем на 90 процентов при наличии генов рРНК 23S, 16S и 5S, а также не менее 18 тРНК и с менее чем 5-процентным загрязнением. Категория конечного качества зарезервирована для одиночных непрерывных последовательностей без пробелов и менее 1 ошибки на 100 000 пар оснований.

JGI Министерства энергетики создало примерно 80 процентов из более чем 2 800 SAG и более 4 500 MAG, доступных в настоящее время в базе данных Genomes OnLine (GOLD) JGI Министерства энергетики США. Ученый DOE JGI и первый автор исследования Боб Бауэрс сказал, что многие из SAG, уже находящихся в GOLD, будут считаться проектами низкого или среднего качества. Это очень ценные наборы данных, хотя для некоторых целей исследователи могут предпочесть использовать высококачественные или готовые наборы данных. «Наборы одноклеточных и метагеномных данных сильно различаются по своему общему качеству. Однако в тех случаях, когда фрагментированный геном низкого качества является единственным представителем новой ветви на древе жизни, некоторые данные лучше, чем их отсутствие», - добавил он. «Выдвижение предложенных категорий заставит ученых тщательно взвесить качество генома перед его отправкой в публичные базы данных».

От предложения к реализации сообществом

Переход от предложения в печати к реализации требует поддержки сообщества. Войк и Бауэрс задумали минимальные требования к метаданным для SAG и MAG как расширения существующих стандартов метаданных для данных о последовательностях, называемых «MIxS», разработанных и внедренных Консорциумом геномных стандартов (GSC) в 2011 году. членский рабочий орган, обеспечивающий участие исследовательского сообщества в процессе разработки стандартов, в который входят представители Национального центра биотехнологической информации (NCBI) и Европейского института биоинформатики (EBI). Это важно, поскольку это основные хранилища данных, в которых реализованы минимальные требования к метаданным. Работая напрямую с поставщиками данных, GSC может помочь как крупным отправителям данных, так и базам данных привести их в соответствие со стандартом MIXS и отправить соответствующие данные.

«Другие ключевые общедоступные системы управления данными о микробиоме, такие как MG-RAST, IMG и GOLD, также адаптировали стандарты MIXS», - сказал Никос Кирпидес, глава программы DOE JGI Prokaryote Super Program и член правления GSC. Он отмечает, что в рамках основной миссии JGI при Министерстве энергетики Институт занимается организацией сообщества для разработки геномных стандартов. «GSC сыграл важную роль в объединении сообщества для разработки и внедрения растущего набора соответствующих стандартов. Фактически, необходимость распространения MIXS на некультивируемые организмы была выявлена на одном из недавних совещаний GSC в JGI Министерства энергетики».

«Эти расширения дополняют набор стандартов метаданных MIxS, определяя ключевые элементы данных, подходящие для описания выборки и секвенирования геномов одноклеточных и геномов из метагеномов», - сказала президент GSC и соавтор исследования Линн Шримл из Институт геномных наук Медицинской школы Университета Мэриленда. «Эти стандарты открывают совершенно новую область исследования данных метаданных, поскольку подавляющее большинство микробов, называемых микробной темной материей, в настоящее время не описаны в стандарте MIxS».

Она описала группу и их миссию как общественную.«Я думаю, помогает то, что люди, разрабатывающие стандарты, являются людьми, проводящими исследования», - сказала она. «У нас есть личная заинтересованность в данных. Исследования растут и расширяются, и очень важно, чтобы мы собирали эти данные строгим образом. Разработка этих новых стандартов метаданных позволяет исследователям последовательно сообщать наиболее важные метаданные для анализа. Сбор данных с использованием контролируемых словари способствуют согласованности данных, что делает базы данных более богатыми и пригодными для повторного использования». И, в конце концов, следует надеяться, что данные о последовательности, сопровождаемые согласованными стандартами метаданных, будут означать одно и то же для всех, кто захочет их использовать.