Открытые данные изображений для биологии

Открытые данные изображений для биологии
Открытые данные изображений для биологии

Картинка может стоить тысячи слов, но только если вы понимаете, на что смотрите. Науки о жизни все больше полагаются на 2D-, 3D- и 4D-изображения, но их ошеломляющая неоднородность и размер затрудняют сопоставление в центральный ресурс, связывание с другими типами данных и обмен ими с исследовательским сообществом.

Чтобы решить эту проблему, ученые из Университета Данди, Европейского института биоинформатики (EMBL-EBI), Бристольского и Кембриджского университетов запустили прототип репозитория для данных изображений: Image Data Resource (РДЭ). Этот бесплатный ресурс, описанный в журнале Nature Methods, является первым общим хранилищем биологических изображений, в котором хранятся и объединяются данные из различных модальностей и лабораторий.

РДЭ также показывает потенциальное влияние совместного использования и повторного использования данных изображений для наук о жизни.

Объединение ресурсов

«Визуализация будет действительно революционной для науки только в том случае, если мы сделаем данные общедоступными», - объясняет Алвис Бразма, ведущий автор и старший научный сотрудник EMBL-EBI. «Ученые должны иметь возможность запрашивать существующие данные для выявления общих черт и закономерностей. Но чтобы это стало возможным, нам нужна надежная платформа, на которую исследователи могут загружать свои данные изображений и легко получать доступ к данным других экспериментов. Ресурс данных изображений - это первый шаг к созданию общедоступный репозиторий данных изображений для наук о жизни."

В мире существует множество ресурсов, в которых люди публикуют данные изображений, но ни один из этих репозиториев не является одновременно общим и связанным с другими соответствующими биомолекулярными данными. Это означает, что, несмотря на все усилия, затраченные на них, повторно использовать эти наборы данных в новых исследованиях сложно.

Есть много причин, по которым обмен данными изображений до сих пор был настолько затруднен, в первую очередь неоднородность и сложность данных изображений, а также критическая масса хранения, вычислений и опыта курирования.

«Да, данные изображений большие, но реальная проблема заключается в том, что они неоднородны и многомерны», - говорит Джейсон Сведлоу, старший автор исследования и профессор количественной клеточной биологии в Университете Данди. «Обработка, хранение и анализ данных изображений требуют значительных усилий и вычислительной мощности. Создание прототипа IDR стало возможным только благодаря тесному сотрудничеству между несколькими научными организациями».

Красивая картинка, но что она означает?

IDR содержит широкий спектр данных визуализации, включая скрининг высокого содержания, микроскопию сверхвысокого разрешения, замедленную съемку и цифровую визуализацию патологии. Но не только разнообразие типов данных делает ресурс уникальным; дополнительная доступная информация создает добавленную стоимость.

«IDR не просто показывает вам изображение или видео камеры. Он также сообщает вам, о чем изображение, где оно было снято, кем и какие выводы можно сделать из него», - продолжает Бразма.

Новый ресурс объединяет данные визуализации с молекулярными данными и данными фенотипа. IDR включает информацию об экспериментальных протоколах: параметры, анализы и эффекты, которые ученые наблюдали в клетках и особенностях, например. Это позволяет пользователям анализировать генные сети - потенциально выявляя ранее неизвестные взаимодействия - в масштабе, который был бы невозможен для отдельных исследований. Это требует ошеломляющего объема памяти и вычислительной мощности. Коллаборация IDR смогла успешно запустить свой проект благодаря ресурсу Embassy Cloud и поддержке EMBL-EBI.

Репозиторий данных изображений

Прототип общедоступного репозитория изображений содержит широкий спектр данных, в том числе:

  • Скрининг высокого контента
  • Микроскопия сверхвысокого разрешения
  • Интервальная съемка
  • Цифровая визуализация патологии
  • Метаданные экспериментального протокола
  • Наблюдаемые эффекты в ячейках и функциях
  • Перекрестные ссылки с молекулярными архивами

Демонстрация успеха

Группа Swedlow из Данди и группа Carazo Salas из Бристольского университета использовали IDR, чтобы проиллюстрировать, как совместное использование данных изображений может раздвинуть границы исследований. Используя данные, хранящиеся в IDR, они идентифицировали гены из различных исследований, которые при мутации или удалении вызывали удлинение и растяжение клеток. Они объединили информацию из нескольких различных исследований и построили сеть генов, которая дает четкое представление о том, как эти гены влияют на форму клеток - важное свойство, которое следует учитывать при метастатическом раке.

Расширение публичных архивов за счет включения изображений представляет огромный интерес для биотехнологической промышленности и компаний, занимающихся разработкой лекарств. Это открывает возможности для выявления новых методов лечения и целей, а также расширяет масштабы исследований, позволяя ученым со всего мира получать доступ к наборы данных изображений друг друга», - добавляет Сведлоу.

«Технологии биовизуализации в настоящее время революционизируют науку о жизни. Обмен быстро растущим объемом данных изображений является ключом к проведению новаторских исследований в будущем», - говорит Ян Элленберг, руководитель отдела клеточной биологии и биофизики EMBL и координатор Euro -BioImaging, общеевропейская инфраструктура технологий визуализации. «По этой причине архивирование и совместное использование данных изображений является высоким приоритетом для EMBL, а также для будущих услуг общих данных Euro-BioImaging, которые могут основываться на пилотном примере IDR».

Следующие шаги

Пока что сотрудники доказали, что IDR возможен и полезен. Следующим шагом является обеспечение поддержки и инвестиций, необходимых для преобразования прототипа в готовую к производству инфраструктуру обработки изображений.

Программное обеспечение и технология IDR имеют открытый исходный код, поэтому к ним можно получить доступ и встроить в другие системы публикации данных изображений. Это способствует и расширяет публикацию и повторный анализ научных данных.