Художественные наброски можно использовать для захвата деталей сцены в более простом изображении. Исследователи Массачусетского технологического института в настоящее время переносят эту концепцию в вычислительную биологию с помощью нового метода, который извлекает исчерпывающие образцы - называемые «эскизами» - массивных наборов данных о клетках, которые легче анализировать для биологических и медицинских исследований.
В последние годы произошел взрыв в профилировании отдельных клеток из самых разных тканей и органов человека, таких как нейроны, мышцы и иммунные клетки, чтобы получить представление о здоровье человека и лечении болезней. Самые большие наборы данных содержат от 100 000 до 2 миллионов ячеек и продолжают расти. Например, долгосрочная цель Атласа клеток человека состоит в том, чтобы составить профиль около 10 миллиардов клеток. Каждая клетка сама по себе содержит тонны данных об экспрессии РНК, которые могут дать представление о поведении клеток и развитии болезни.
При наличии достаточной вычислительной мощности биологи могут анализировать полные наборы данных, но на это уходят часы или дни. Без этих ресурсов это нецелесообразно. Методы выборки можно использовать для извлечения небольших подмножеств клеток для более быстрого и эффективного анализа, но они плохо масштабируются для больших наборов данных и часто пропускают менее распространенные типы клеток.
В документе, который будет представлен на следующей неделе на конференции «Исследования в области вычислительной молекулярной биологии», исследователи из Массачусетского технологического института описывают метод, который позволяет получить полностью исчерпывающий «набросок» всего набора данных, которым можно делиться и легко объединять с другими наборами данных. Вместо выборки ячеек с равной вероятностью он равномерно выбирает ячейки из разных типов ячеек, присутствующих в наборе данных.
«Это как наброски на бумаге, где художник пытается сохранить все важные черты основного изображения», - говорит Бонни Бергер, профессор математики Саймонса в Массачусетском технологическом институте, профессор электротехники и информатики. и руководитель группы вычислений и биологии.
В экспериментах метод генерировал эскизы из наборов данных из миллионов клеток за несколько минут, а не за несколько часов, в которых было гораздо более равное представление редких клеток из разных наборов данных. Наброски даже зафиксировали, в одном случае, редкое подмножество воспалительных макрофагов, которое пропустили другие методы.
«Большинство биологов, анализирующих данные об отдельных клетках, просто работают на своих ноутбуках», - говорит Брайан Хай, аспирант Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и исследователь группы вычислительной и биологии.«Наброски дают компактную сводку очень большого набора данных, который пытается сохранить как можно больше биологической информации… поэтому людям не нужно использовать так много вычислительной мощности».
К Хи и Бергеру присоединились: аспирант CSAIL Хёнхун Чо; Бенджамин ДеМео, аспирант Массачусетского технологического института и Гарвардской медицинской школы; и Брайан Брайсон, доцент кафедры биологической инженерии Массачусетского технологического института.
Клетчатые покрытия
У людей есть сотни категорий и подкатегорий клеток, и каждая клетка экспрессирует разнообразный набор генов. Такие методы, как секвенирование РНК, фиксируют всю информацию о клетках в массивных таблицах, где каждая строка представляет собой клетку, а каждый столбец представляет собой некоторое измерение экспрессии гена. Клетки - это точки, разбросанные по обширному многомерному пространству, где каждое измерение соответствует экспрессии отдельного гена.
Как это бывает, типы клеток с одинаковым генным разнообразием - как распространенные, так и редкие - образуют кластеры одинакового размера, занимающие примерно одинаковое пространство. Но плотность клеток внутри этих кластеров сильно различается: 1000 клеток может находиться в обычном кластере, в то время как столь же разнообразный редкий кластер будет содержать 10 клеток. Это проблема для традиционных методов выборки, которые извлекают выборку целевого размера из отдельных ячеек.
Если вы возьмете 10-процентную выборку и 10 ячеек в редком кластере и 1000 ячеек в обычном кластере, вы, скорее всего, захватите тонны обычных ячеек, но пропустите все редкие клетки», - говорит Хи. «Но редкие клетки могут привести к важным биологическим открытиям».
Исследователи модифицировали класс алгоритма, который накладывает фигуры на наборы данных. Их алгоритм покрывает все вычислительное пространство тем, что они называют «клетчатым покрытием», которое похоже на сетку из квадратов одинакового размера, но во многих измерениях. Он размещает эти многомерные квадраты только там, где есть хотя бы одна ячейка, и пропускает любые пустые области. В конце концов, пустые столбцы сетки будут намного шире или тоньше, чем занятые столбцы - отсюда и «клетчатое» описание. Этот метод экономит массу вычислений, помогая масштабировать покрытие до огромных наборов данных.
Захват редких ячеек
Занятые квадраты могут содержать только одну ячейку или 1000 ячеек, но все они будут иметь одинаковый вес выборки. Затем алгоритм находит целевую выборку, скажем, из 20 000 ячеек, путем равномерного случайного выбора заданного количества ячеек из каждого занятого квадрата. Результирующий скетч содержит гораздо более равномерное распределение типов ячеек - например, 10 обычных ячеек из группы из 100 и восемь редких ячеек из группы из 10.
«Мы используем преимущества этих типов ячеек, занимающих одинаковые объемы пространства», - говорит Хи. «Поскольку мы отбираем пробы по объему, а не по плотности, мы получаем более равномерное покрытие биологического пространства… и естественным образом сохраняем редкие типы клеток».
Они применили свой метод зарисовки к набору данных, состоящему примерно из 250 000 клеток пуповины, которые содержали два подмножества редких макрофагов - воспалительные и противовоспалительные. Все другие традиционные методы выборки группировали оба подмножества вместе, в то время как метод создания эскизов разделял их. Исследователи говорят, что дополнительные углубленные исследования этих субпопуляций макрофагов могут помочь раскрыть понимание воспаления и того, как модулировать воспалительные процессы в ответ на заболевание.
«Работа на стыке полей - это преимущество», - говорит Бергер. «Мы обучены математикам, но мы понимаем, в чем заключаются проблемы науки о биологических данных, поэтому мы можем использовать лучшие технологии для их анализа».