Исследование «больших данных» рискует быть подорванным плохим дизайном цифровых идентификаторов, которые помечают данные. Группа исследователей со всего мира под руководством Джулии Макмерри из Орегонского университета здравоохранения и науки составила набор практических рекомендаций по созданию, использованию и поддержке сетевых идентификаторов для улучшения воспроизводимости, атрибуции и научных открытий. Руководство, опубликованное 29 июня в журнале открытого доступа PLOS Biology, помогает решить частые проблемы, связанные с постоянными идентификаторами, связанными с научными данными.
За последнее десятилетие науки о жизни резко изменились, поскольку данные продолжают развиваться, становясь более крупными, взаимозависимыми и исходно доступными в Интернете. В этом ландшафте более широкое научно-исследовательское сообщество изо всех сил пыталось разработать эти данные для Интернета, чтобы они были постоянно доступны, повторно использовались и атрибутировались.
В зависимости от конкретной используемой базы данных идентификаторы могут обозначать ген, геном, химическое вещество, организм, набор экспериментальных данных или даже опубликованную статью. Полезность всех этих элементов зависит от надежности и уникальности их соответствующих идентификаторов, что позволяет их связывать и обнаруживать на неограниченный срок. Авторы отмечают, что естественный способ возникновения большинства идентификаторов угрожает такой полезности, и признают, что трудно создавать и поддерживать постоянные идентификаторы или веб-адреса, которые не ломаются и используются постоянно.
Эта работа призывает профессионалов лучше справляться с разработкой идентификаторов - в соответствии с новыми соглашениями, разработанными сообществом, - чтобы данные можно было более эффективно использовать для научных открытий. Он также призывает пользователей быть в достаточной степени осведомленными об этих соглашениях и доступных инструментах, чтобы не обжечься неработающими ссылками и пропущенными соединениями.
"Как и в случае с сантехническими приборами, вопрос о том, как работают идентификаторы, должны понимать только те, кто их строит и обслуживает. Однако каждый должен знать, как следует использовать идентификаторы, и именно здесь важно соглашение. ", - сказал Макмерри. «С помощью этой работы мы надеемся побудить всех участников научной экосистемы, включая авторов, создателей данных, интеграторов данных, издателей, разработчиков программного обеспечения и распознавателей, придерживаться передового опыта, чтобы максимизировать полезность и влияние данных наук о жизни.."