Если вы едите рыбу в США, скорее всего, она когда-то плавала в другой стране. Это связано с тем, что, по оценкам ООН, США импортируют более 80% морепродуктов. Новые генетические исследования могут помочь сделать рыбу, выращенную на фермах, более вкусной и вывести на обеденный стол дикие виды американских рыб. Ученые использовали большие данные и суперкомпьютеры, чтобы уловить геном рыбы, что стало первым шагом к ее устойчивому улову в аквакультуре.
Исследователи впервые собрали и аннотировали геном - общий генетический материал - рыб вида Seriola dorsalis. Эта рыба, также известная как калифорнийский желтохвост, имеет большое значение для производства сашими или сырых морепродуктов. Научная группа была сформирована из Юго-западного научного центра рыболовства Национальной службы морского рыболовства США, Университета штата Айова и Национального политехнического института в Мексике. Они опубликовали свои результаты в январе 2018 года в журнале BMC Genomics.
«Основные результаты этой публикации заключались в том, чтобы охарактеризовать геном Seriola dorsalis и его аннотацию, а также лучше понять определение пола этого вида рыб», - сказал соавтор исследования Эндрю Северин, ученый и исследователь. Менеджер отдела геномной информатики Университета штата Айова.
«Теперь мы можем с уверенностью сказать, - добавил Северин, - что Seriola dorsalis имеет Z-W систему определения пола, и что мы знаем хромосому, на которой она содержится, и область, которая фактически определяет пол этой рыбы. Z-W относится к половым хромосомам и зависит от того, является ли самец или самка гетерозиготным (XX, XY или ZZ, ZW) соответственно. Другой способ думать об этом состоит в том, что при определении пола Z-W молекулы ДНК яйцеклетки рыбы определяют пол потомства. Напротив, в системе определения пола X-Y, такой встречается у людей, сперма определяет пол в потомстве.
Трудно сказать разницу между самцом и самкой желтохвостой рыбы, потому что у них нет явных фенотипических или внешне физически отличительных черт. «Возможность определять пол у рыб очень важна, потому что мы можем разработать маркер, который можно использовать для определения пола у молодых рыб, которых нельзя определить фенотипически», - пояснил Северин. «Это можно использовать для улучшения практики аквакультуры». Идентификация пола позволяет рыбоводам заселять аквариумы правильным соотношением самцов и самок и получать более высокие удои.
Сборка и аннотирование генома подобны сборке огромной трехмерной головоломки. Геном Seriola dorsalis состоит из 685 миллионов фрагментов - пар оснований ДНК - которые нужно собрать вместе. «Генные аннотации - это места в геноме, которые кодируют транскрипты, которые транслируются в белки», - объяснил Северин. «Белки - это молекулярный механизм, управляющий всеми биохимическими процессами в организме, от переваривания пищи до активации иммунной системы и роста ногтей. Даже это является чрезмерным упрощением всей регуляции».
Северин и его команда собрали геном из 685 пар мегабаз (МБ) из тысяч более мелких фрагментов, каждый из которых давал информацию для формирования полной картины. «Нам пришлось секвенировать их на довольно большую глубину, чтобы построить полный геном размером 685 МБ», - сказал соавтор исследования Арун Ситарам. «Это составило большой объем данных», - добавил Ситарам, младший научный сотрудник Центра информатики генома Университета штата Айова.
Необработанные данные последовательности ДНК для генома Seriola dorsalis составили 500 гигабайт, полученные из образцов тканей молоди рыб, собранных в Исследовательском институте Hubbs SeaWorld в Сан-Диего.«Чтобы собрать их вместе, - сказал Ситарам, - нам нужен был компьютер с гораздо большей оперативной памятью, чтобы поместить все это в память компьютера, а затем собрать все это вместе для создания генома размером 685 МБ. Нам нужны были действительно мощные машины».
Именно тогда Ситарам понял, что вычислительных ресурсов в Университете штата Айова в то время было недостаточно для своевременного выполнения работы, и он обратился к XSEDE, экстремальной среде научных и инженерных открытий, финансируемой Национальным Научный фонд. XSEDE - это единая виртуальная система, которую ученые могут использовать для интерактивного обмена вычислительными ресурсами, данными и опытом.
«Когда мы впервые начали использовать ресурсы XSEDE, - объяснил Ситарам, - у нас была возможность выбрать ECSS, расширенные службы совместной поддержки. Мы подумали, что было бы здорово, если бы кто-то из Сторона XSEDE помогла нам. Мы выбрали ECSS. Наше взаимодействие с Филиппом Бладом из Питтсбургского суперкомпьютерного центра было чрезвычайно важно для того, чтобы мы быстро запустили сборку на ресурсах XSEDE», - сказал Ситарам.
Работа по сборке генома выполнялась в Питтсбургском суперкомпьютерном центре (PSC) на системе Blacklight, которая когда-то была крупнейшей в мире когерентной вычислительной системой с общей памятью. С тех пор Blacklight был заменен отозванным Эндрю Северином. Это потому, что им нужно было поместить все необработанные данные в оперативную память компьютера (RAM), чтобы он мог использовать алгоритмы программы сборки генома Maryland Super-Read Celera Assembler. «Вы должны иметь возможность сравнивать каждую отдельную часть данных последовательности с любой другой частью, чтобы выяснить, какие части нужно соединить вместе, как в гигантской головоломке», - объяснил Северин.
«Мы также использовали Stampede, - продолжил Северин, - первый Stampede, который является еще одним вычислительным ресурсом XSEDE, имеющим множество вычислительных узлов. Каждый вычислительный узел можно рассматривать как отдельный компьютер». Stampede1 система в Техасском передовом вычислительном центре имела более 6 400 серверных узлов Dell PowerEdge, которые позже добавили 508 узлов Intel Knights Landing (KNL) в рамках подготовки к своему преемнику Stampede2 с 4 200 узлами KNL.
«Мы использовали Stampede, чтобы аннотировать эти модели генов, которые мы идентифицировали в геноме, чтобы попытаться выяснить, каковы их функции», - сказал Северин. «Это потребовало от нас проведения анализа, называемого Инструментом поиска базового локального выравнивания (BLAST), и потребовало от нас использования многих ЦП, что потребовало более года вычислительного времени, которое мы в итоге выполнили за пару недель фактического времени, потому что из многих узлов, которые были на Stampede."
«Этот эксперимент начался с сотрудничества с Юго-западным научным центром рыболовства NOAA», - пояснил Северин. Он сказал, что проект первоначально предназначался для завершения большого проекта RNA-seq, и оказалось, что было достаточно финансирования, чтобы также выполнить сборку генома. «Это привело к долгосрочному сотрудничеству с Юго-западным научным центром рыболовства», - сказал Северин. «Благодаря последним достижениям в высокопроизводительном секвенировании ДНК мы теперь можем генерировать терабайты данных секвенирования. Это, как правило, короткое, 100-150 пар оснований читается, что мы должны собрать как очень большую головоломку и выяснить, куда идут все части», - добавил он.
Команда Северина и Ситарама завершила базовую картину генома Seriola dorsalis, но они говорят, что еще есть место для уточнения. «Геном, который мы собрали, не идеален в том смысле, что он все еще состоит из множества частей. Мы не смогли полностью собрать воедино целые хромосомы», - объяснил Ситарам. «У нас есть много каркасов, представляющих каждую из этих хромосом, и нам не хватает большого количества информации, необходимой для заполнения пробелов». По словам Ситарама, прогресс в области технологий секвенирования может устранить эти пробелы за счет развития технологий секвенирования, которые могут производить более длинные считывания ДНК.
«Мы также выдвинули в статье гипотезу, - сказал Северин, - что эта делеция, расположенная выше по течению от гена, который превращает эстрон в эстроген, является частью пути определения пола. Это может быть ответственно за определение пола. Но поскольку это всего лишь гипотеза, основанная на вычислительных методах, она нуждается в дальнейшем исследовании в лаборатории. Мы, безусловно, могли бы продолжить эксперимент, подобный CRISPR, чтобы проверить эту мутацию».
Северин также упомянул о сборе данных для более крупного эксперимента по изучению ассоциации всего генома, чтобы найти местоположения и варианты в геноме, связанные с деформациями челюсти. «В настоящее время мы собираем эти образцы, - сказал Северин, - но мы сможем использовать этот геном, чтобы предоставить фермерам маркеры для отбора рыб, у которых есть склонность к деформации челюсти».
И Северин, и Ситарам твердо убеждены в том, что большие данные могут решить проблемы устойчивого производства продуктов питания. «Я верю, что общественность увидит больше такого рода использования больших данных и поймет, почему наука так важна для нашего будущего», - сказал Северин. Генная аннотация, по его мнению, - это лишь верхушка айсберга.«Мы начнем сравнивать сборки геномов друг с другом и начнем выяснять, что такое геном и как он работает; и как для конкретного генома наличие или отсутствие генов или его контекст влияет на его трехмерную структуру., как это делает вид, - сказал Северин.
"Большие данные становятся все больше, и мы находим ответы на действительно интересные вопросы." - заключил Северин. Ситарам добавил, что «будет больше исследований с использованием больших данных, которые окажут значительное влияние на широкую публику. Этот уровень исследований будет способствовать еще более масштабным исследованиям в будущем».