Биологические эксперименты становятся прозрачными: Везде и в любое время: Новые стандарты в биоинформатике

Биологические эксперименты становятся прозрачными: Везде и в любое время: Новые стандарты в биоинформатике
Биологические эксперименты становятся прозрачными: Везде и в любое время: Новые стандарты в биоинформатике

Биологические эксперименты генерируют все более большие и сложные наборы данных. Это затруднило воспроизведение экспериментов в других исследовательских лабораториях для подтверждения или опровержения результатов. Сложность заключается не только в сложности данных, но и в сложных компьютерных программах и системах, необходимых для их анализа. Ученые из Люксембургского центра системной биомедицины (LCSB) Университета Люксембурга разработали новый инструмент биоинформатики, который сделает анализ биологических и биомедицинских экспериментов более прозрачным и воспроизводимым.

Инструмент был разработан под руководством профессора Пола Уилмеса, главы группы LCSB Eco-Systems Biology, в тесном сотрудничестве с ядром биоинформатики LCSB. Статья с описанием этого инструмента была опубликована в высокорейтинговом журнале Genome Biology с открытым доступом. Новый инструмент биоинформатики под названием IMP также доступен исследователям в Интернете.

Биологические и биомедицинские исследования наводняются потоком данных, поскольку новые исследования углубляются во все более сложные предметы, такие как весь микробиом кишечника, с использованием более быстрых автоматизированных методов, позволяющих проводить так называемые эксперименты с высокой пропускной способностью. Эксперименты, которые еще недавно приходилось с трудом проводить вручную, теперь можно повторять быстро и систематически почти так часто, как это необходимо. Аналитические методы интерпретации этих данных еще не успели угнаться за тенденцией. «Каждый раз, когда вы используете другой метод для анализа этих сложных систем, из этого получается что-то новое», - говорит Пол Уилмс. Каждая лаборатория использует свои собственные вычислительные программы, которые часто держат в секрете. Вычислительные методы также часто меняются, иногда просто из-за новой операционной системы. «Поэтому чрезвычайно сложно, а часто даже невозможно воспроизвести определенные результаты в другой лаборатории», - объясняет Уилмс. «Однако это и есть основа науки: эксперимент должен быть воспроизведен в любом месте, в любое время и должен приводить к одним и тем же результатам. В противном случае мы не могли бы сделать из него каких-либо осмысленных выводов».

Ученые из LCSB сейчас помогают исправить эту ситуацию. В ядре биоинформатики LCSB была запущена инициатива под названием «R3 - воспроизводимые результаты исследований». «С помощью R3 мы хотим дать возможность ученым во всем мире повысить воспроизводимость и прозрачность своих исследований - за счет систематического обучения, разработки методов и инструментов и создания необходимой инфраструктуры», - говорит д-р. Рейнхард Шнайдер, руководитель ядра биоинформатики.

Понимание инициативы R3 затем используется в таких проектах, как IMP. «IMP - это воспроизводимый конвейер для анализа очень сложных данных», - говорит доктор Шаман Нараянасами. Как соавтор исследования, он только что получил докторскую степень по этому предмету в группе Пола Уилмса. «Мы сохраняем компьютерные программы в том же состоянии, в котором они предоставили определенные экспериментальные данные. Из этого квазизамороженного состояния мы можем позже снова разморозить программы, если данные когда-либо потребуют повторной обработки или если новые данные необходимо будет проанализировать таким же образом.. Ученые также объединяют различные компоненты аналитического программного обеспечения в так называемые контейнеры. Их можно комбинировать по-разному, не рискуя интерференцией между различными частями программы.

«Подпрограммы в контейнерах можно объединять последовательно по мере необходимости», - говорит первый автор исследования Йохан Ярош из Bioinformatics Core. Это создает конвейер для потока данных. Поскольку вычислительные операторы заморожены в контейнерах, справочные данные не нужны, чтобы знать условия - например, тип операционной системы или процессора компьютера - под которым выполнять анализ. «Весь процесс остается полностью открытым и прозрачным, - говорит Ярош. Таким образом, каждый ученый может модифицировать любой этап программы - разумеется, старательно записывая каждую часть процесса в бортовой журнал, чтобы обеспечить полную отслеживаемость.

Пол Уилмс особенно заинтересован в использовании этого метода для анализа метагеномных и метатранскриптомных данных. Такие данные получают, например, при исследовании целых бактериальных сообществ в кишечнике человека или на очистных сооружениях. Зная полный набор ДНК в образце и все генные продукты, они могут определить, какие виды бактерий присутствуют и активны в кишечнике или на очистных сооружениях. Более того, ученые также могут сказать, насколько велика популяция каждого вида бактерий, какие вещества они производят в данный момент времени и какое влияние организмы оказывают друг на друга.

Загвоздка до недавнего времени заключалась в том, что исследователям в других лабораториях было трудно воспроизвести экспериментальные результаты. С IMP, который теперь изменился, Уилмс продолжает: «Мы уже провели первые тесты с данными из других лабораторий с IMP. Результаты ясны: мы можем их воспроизвести - и наши вычисления в IMP выявили гораздо больше деталей, чем было получено. в оригинальном исследовании, например, выявление генов, играющих решающую роль в метаболизме бактериальных сообществ».

Благодаря IMP в исследованиях микробиома в LCSB теперь используются только стандартизированные и воспроизводимые методы - от влажной лаборатории, где проводятся эксперименты, до сухой лаборатории, где, прежде всего, выполняются компьютерные симуляции и модели. Мы играем в этом ведущую роль на международном уровне», - говорит Уилмс. «Благодаря R3 IMP также устанавливает стандарты, которые, несомненно, будут заинтересованы в применении других институтов, а не только LCSB», - добавляет Рейнхард Шнайдер из Bioinformatics Core.«Поэтому мы делаем технологии других исследователей открытыми - стандарт должен быть быстро принят. Только воспроизводимый анализ результатов будет способствовать развитию биомедицины в долгосрочной перспективе».