Ученые объединяют статистику и биологию для создания нового важного инструмента для вычисления генов

Ученые объединяют статистику и биологию для создания нового важного инструмента для вычисления генов
Ученые объединяют статистику и биологию для создания нового важного инструмента для вычисления генов

Клетки нашего тела проявляют себя по-разному. Одна клетка может заставить работать часть генетического кода, в то время как другая клетка полностью игнорирует ту же информацию. Понимание того, почему может стимулировать новые методы лечения стволовыми клетками или привести к более фундаментальному пониманию того, как развиваются организмы. Но выявить эти межклеточные различия может быть непросто.

Теперь два исследователя из Калифорнийского университета в Лос-Анджелесе разработали вычислительный инструмент, который повышает надежность измерения того, насколько сильно гены экспрессируются в отдельной клетке, даже когда клетка едва считывает определенные гены. Исследование было опубликовано в прошлом месяце в журнале Nature Communications..

«Последовательность ДНК одинакова в клетке мозга, клетке печени и клетке сердца», - говорит Цзинъи «Джессика» Ли, автор исследования и доцент статистики Калифорнийского университета в Лос-Анджелесе. «Почему эти клетки выглядят так по-разному? Ключевым моментом является экспрессия генов».

ДНК кодирует информацию, необходимую для создания и функционирования организма. Но задача чтения и обработки этой информации ложится на РНК, длинные нити мобильных молекул, которые переносят генетические инструкции в другие части клетки. Подсчитывая количество различных молекул РНК в клетке, исследователи могут сказать, какие гены активны или «экспрессированы» и в какой степени.

Однако, если молекулы РНК присутствуют только в следовых количествах, инструменты анализа могут быть обмануты, полагая, что соответствующие гены вообще неактивны. Если не исправить, эти «выпадения» могут создать вводящую в заблуждение картину фактических различий между ячейками.

«Если вы хотите получить полезную биологическую информацию на уровне отдельных клеток, вам необходимо сделать некоторые статистические выводы», - сказал Ли, который также возглавляет лабораторию на стыке статистики и биологии. «Иначе ваши выводы могут оказаться неверными».

Ли и Вэй «Вивиан» Ли, докторант отдела статистики Калифорнийского университета в Лос-Анджелесе, разработали программное обеспечение для статистического анализа для обработки отсева при секвенировании РНК. Их инструмент под названием «scImpute» оценивает, какие гены в клетке, скорее всего, выпадут, основываясь на изучении всех отдельных клеток в эксперименте. Затем инструмент использует информацию из похожих клеток, чтобы сделать обоснованное предположение о том, каким должен быть уровень экспрессии генов.

Использование оценок не ново. Но доступные инструменты либо слишком широки - замена всех экспрессий генов одной клетки на другую, - либо чрезмерно специализированы для определенного типа исследования. По словам Джессики Ли, преимущества scImpute заключаются в «гибкости и универсальности». Инструмент действует с хирургической точностью, заменяя только те количества, которые, скорее всего, выпали, и может использоваться в любом типе анализа экспрессии генов в одиночных клетках.

В комплексных тестах Вивиан Ли как на смоделированных, так и на реальных данных, некоторые из которых предоставляют эмпирические доказательства реальных уровней экспрессии генов, scImpute является более точным, чем другие методы. Программное обеспечение надежно отличает выпадающие гены от тех, которые вообще не экспрессируются, и обеспечивает точную оценку фактической численности.

Программное обеспечение с открытым исходным кодом доступно бесплатно в Интернете в качестве дополнения к широко используемой платформе научных вычислений для статистического анализа, известной как среда программирования R.

Два исследователя доказали, что scImpute хорошо работает в небольших группах ячеек, когда показатели отсева низки. Но в больших популяциях процент отсева может превышать 90 процентов генов. Их следующая цель - сделать инструмент таким же надежным в таких ситуациях. Заимствуя информацию из других генов, а не только из других клеток, а также из онлайн-баз данных, они считают, что scImpute может стать надежным инструментом для всех ситуаций.