Вычислительные методы, используемые для заполнения отсутствующих пикселей в изображениях или видео низкого качества, также могут помочь ученым получить недостающую информацию о том, как ДНК организована в клетке, показали вычислительные биологи из Университета Карнеги-Меллона.
Заполнение этой недостающей информации позволит с большей готовностью изучать трехмерную структуру хромосом и, в частности, субкомпартментов, которые могут играть решающую роль как в формировании заболеваний, так и в определении функций клеток, сказал Цзянь Ма, доцент на факультете вычислительной биологии КМУ.
В исследовательской статье, опубликованной сегодня журналом Nature Communications, Ма и Кайл Сюн, доктор философии CMU. студент CMU-University of Pittsburgh, совместный доктор философии. Program in Computational Biology, сообщают, что они успешно применили свой метод машинного обучения к девяти клеточным линиям. Это позволило им впервые изучить различия в пространственной организации, связанные с субкомпартментами на этих линиях.
Ранее субкомпартменты можно было выявить только в одном типе клеток лимфобластоидных клеток - клеточной линии, известной как GM12878, - которая была тщательно секвенирована с большими затратами с использованием технологии Hi-C, которая измеряет пространственную интерактивность между всеми областями клеток. геном.
«Теперь мы многое знаем о линейном составе ДНК в хромосомах, но ДНК в ядрах клеток человека не является линейной», - сказал Сюн. «Хромосомы в клеточном ядре свернуты и упакованы в трехмерные формы. Эта трехмерная структура имеет решающее значение для понимания клеточных функций в развитии и заболеваниях.«Подкомпартменты представляют особый интерес, поскольку они отражают пространственное разделение участков хромосом с высокой интерактивностью.
Ученые стремятся узнать больше о сопоставлении субкомпартментов и о том, как оно влияет на функцию клеток, сказал Ма. Но до сих пор исследователи могли рассчитать паттерны субкомпартментов только в том случае, если у них был набор данных Hi-C с чрезвычайно высоким охватом, то есть ДНК была секвенирована в мельчайших деталях, чтобы зафиксировать больше взаимодействий. Такой уровень детализации отсутствует в наборах данных для клеточных линий, отличных от GM12878.
Работая с Ма, Сюн использовал искусственную нейронную сеть, называемую шумоподавляющим автоэнкодером, чтобы помочь заполнить пробелы в неполных наборах данных Hi-C. В приложениях компьютерного зрения автоэнкодер может восполнять недостающие пиксели, узнавая, какие типы пикселей обычно встречаются вместе, и делая наилучшее предположение. Сюн адаптировал автоэнкодер для высокопроизводительной геномики, используя набор данных для GM12878, чтобы научить его распознавать, какие последовательности пар ДНК из разных хромосом обычно могут взаимодействовать друг с другом в трехмерном пространстве в ядре клетки.
Этот вычислительный метод, который Ма и Сюн назвали SNIPER, оказался успешным в идентификации субкомпартментов в восьми клеточных линиях, чьи межхромосомные взаимодействия, основанные на данных Hi-C, были известны лишь частично. Они также применили SNIPER к данным GM12878 в качестве контроля. Но Сюн отметил, что пока неизвестно, насколько широко этот инструмент можно будет использовать на всех других типах клеток. Однако он и Ма продолжают совершенствовать этот метод, чтобы его можно было использовать в различных клеточных условиях и даже в разных организмах.
«Нам необходимо понять, как паттерны субкомпартментов участвуют в основных функциях клеток, а также как мутации могут влиять на эти трехмерные структуры», - сказал Ма. «На данный момент в нескольких клеточных линиях, которые мы смогли изучить, мы видим, что некоторые субкомпартменты одинаковы для разных типов клеток, в то время как другие различаются. Многое еще предстоит узнать».
Национальный институт здравоохранения и Национальный научный фонд поддержали эту работу.