Достижения в генетическом секвенировании и других технологиях привели к взрывному росту биологических данных, а десятилетия открытости (как спонтанной, так и принудительной) означают, что ученые регулярно размещают данные в онлайн-репозиториях. Но исследователи - это всего лишь люди, и они могут забыть сообщить репозиторию о необходимости опубликовать данные после публикации статьи.
Новый инструмент, разработанный Вашингтонским университетом и исследователями Microsoft Максимом Гречкиным, Хойфунгом Пуном и Биллом Хоу и описанный в статье на странице сообщества, опубликованной 8 июня в журнале открытого доступа PLOS Biology, надеется обойти эту проблему. и помогите продвигать открытую науку, автоматически обнаруживая наборы данных, которые просрочены для публикации.
Открытые данные являются жизненно важной опорой открытой науки, позволяя другим исследователям воспроизводить результаты и использовать одни и те же наборы данных для совершения новых открытий. В то время как многие научные журналы теперь требуют, чтобы опубликованные авторы делали данные, лежащие в основе их выводов, общедоступными, эти правила часто не соблюдаются. Задача серьезная - только в одном только омнибусном репозитории экспрессии генов (GEO) Национального центра биотехнологической информации (NCBI) содержится 80 985 общедоступных наборов данных, охватывающих сотни типов тканей тысяч организмов, а быстрый рост данных затрудняет работу журналов. или репозитории данных, чтобы «полиция» действительно ли наборы данных, которые должны быть общедоступными, были.
Система Wide-Open доступна по лицензии с открытым исходным кодом на GitHub; он использует интеллектуальный анализ текста для определения ссылок на наборы данных в опубликованных научных статьях, которые должны быть общедоступными, а затем анализирует результаты запросов из репозиториев, чтобы определить, остаются ли эти наборы данных закрытыми.
Гречкин и его команда протестировали свой инструмент на двух популярных репозиториях данных, поддерживаемых NCBI - GEO и Sequence Read Archive (SRA). Компания Wide-Open выявила большое количество просроченных наборов данных, что побудило администраторов хранилища отреагировать выпуском 400 наборов данных за одну неделю.
"Мы разработали простую, но эффективную систему, которая уже помогла сделать сотни наборов данных общедоступными", - сказал ведущий автор Максим Гречкин. «Наличие беспристрастной и автоматизированной системы, реализующей политику открытых данных, может помочь уравнять правила игры между учеными и создать новые возможности для открытий».