Биологические исследования «больших данных», ориентированные на будущее, зависят от хороших цифровых идентификаторов

Биологические исследования «больших данных», ориентированные на будущее, зависят от хороших цифровых идентификаторов
Биологические исследования «больших данных», ориентированные на будущее, зависят от хороших цифровых идентификаторов

Исследование «больших данных» рискует быть подорванным плохим дизайном цифровых идентификаторов, которые помечают данные. Группа исследователей со всего мира под руководством Джулии Макмерри из Орегонского университета здравоохранения и науки составила набор практических рекомендаций по созданию, использованию и поддержке сетевых идентификаторов для улучшения воспроизводимости, атрибуции и научных открытий. Руководство, опубликованное 29 июня в журнале открытого доступа PLOS Biology, помогает решить частые проблемы, связанные с постоянными идентификаторами, связанными с научными данными.

За последнее десятилетие науки о жизни резко изменились, поскольку данные продолжают развиваться, становясь более крупными, взаимозависимыми и исходно доступными в Интернете. В этом ландшафте более широкое научно-исследовательское сообщество изо всех сил пыталось разработать эти данные для Интернета, чтобы они были постоянно доступны, повторно использовались и атрибутировались.

В зависимости от конкретной используемой базы данных идентификаторы могут обозначать ген, геном, химическое вещество, организм, набор экспериментальных данных или даже опубликованную статью. Полезность всех этих элементов зависит от надежности и уникальности их соответствующих идентификаторов, что позволяет их связывать и обнаруживать на неограниченный срок. Авторы отмечают, что естественный способ возникновения большинства идентификаторов угрожает такой полезности, и признают, что трудно создавать и поддерживать постоянные идентификаторы или веб-адреса, которые не ломаются и используются постоянно.

Эта работа призывает профессионалов лучше справляться с разработкой идентификаторов - в соответствии с новыми соглашениями, разработанными сообществом, - чтобы данные можно было более эффективно использовать для научных открытий. Он также призывает пользователей быть в достаточной степени осведомленными об этих соглашениях и доступных инструментах, чтобы не обжечься неработающими ссылками и пропущенными соединениями.

"Как и в случае с сантехническими приборами, вопрос о том, как работают идентификаторы, должны понимать только те, кто их строит и обслуживает. Однако каждый должен знать, как следует использовать идентификаторы, и именно здесь важно соглашение. ", - сказал Макмерри. «С помощью этой работы мы надеемся побудить всех участников научной экосистемы, включая авторов, создателей данных, интеграторов данных, издателей, разработчиков программного обеспечения и распознавателей, придерживаться передового опыта, чтобы максимизировать полезность и влияние данных наук о жизни.."