Недавние отчеты свидетельствуют о существовании более 114 000 000 документов опубликованной научной литературы, но поиск способа улучшить доступ к этим знаниям и эффективно их синтезировать становится все более актуальной проблемой.
Для своего исследования исследователи выбрали Международный журнал систематики и эволюционной микробиологии (IJSEM) - единственный репозиторий, содержащий все новые правильно описанные таксоны прокариот, и, следовательно, отличный выбор для тестирования систем автоматизированного и полуавтоматический синтез опубликованных филогений. По словам авторов, IJSEM публикует в год больше изображений филогенетических древовидных фигур, чем любой другой журнал.
Статьи за одиннадцать лет, начиная с января 2003 года, были систематически загружены, чтобы можно было извлечь для анализа все файлы изображений филогенетических древовидных фигур. Затем методы компьютерного зрения позволили автоматически преобразовать изображения обратно в пригодные для повторного использования вычисляемые филогенетические данные и использовать их для формального синтеза всех доказательств в виде супердерева.
Во время своего исследования ученым пришлось преодолеть различные проблемы, связанные с авторскими правами, формально распространяющимися почти на все документы, которые им необходимо было добывать для целей их работы. В этот момент они столкнулись с парадоксом: в то время как легкий доступ и повторное использование данных, опубликованных в научной литературе, в целом поддерживаются и активно поощряются, общепринятые методы авторского права мешают ученому быть уверенным при включении ранее скомпилированных данных в свои собственные. Работа. Авторы обсуждают недавние изменения в законе об авторском праве Великобритании, которые позволили их работе увидеть свет. В результате они предоставляют свои результаты как факты и передают их в общественное достояние, используя отказ Creative Commons CC0, чтобы любой мог без проблем повторно использовать их..
"Сейчас мы находимся на этапе, когда ни у кого нет времени читать даже названия всех опубликованных статей, не говоря уже об аннотациях", - комментируют авторы.
"Мы считаем, что машины теперь необходимы для того, чтобы мы могли разобраться в потоке опубликованных научных данных, и в этой статье рассматриваются некоторые ключевые проблемы, связанные с этим."
"Мы намеренно выбрали подраздел литературы (ограниченный одним журналом), чтобы уменьшить объем, скорость и разнообразие, концентрируясь в первую очередь на достоверности. Мы спрашиваем, может ли высокопроизводительное машинное извлечение данных из полуструктурированной научной литературы возможно и ценно."