Миллионы, если не миллиарды экземпляров находятся в мировых коллекциях естествознания, но большинство из них не изучались тщательно или даже не рассматривались десятилетиями. Хотя они и содержат важные данные для многих научных исследований, большинство объектов спокойно сидят в своих маленьких кабинетах любопытства.
Таким образом, массовая оцифровка коллекций естествознания стала главной задачей музеев по всему миру. Такие инициативы, объединившие многочисленных биологов, кураторов, волонтеров и гражданских ученых, уже позволили создать большие наборы данных из этих коллекций и предоставить беспрецедентную информацию.
Теперь исследование, недавно опубликованное в журнале данных о биоразнообразии с открытым доступом, предполагает, что последние достижения как в оцифровке, так и в машинном обучении вместе могут помочь кураторам музеев в их усилиях заботиться об этом невероятном глобальный ресурс.
Группа исследователей из отдела ботаники Смитсоновского института, лаборатории Data Science Lab и офиса программы оцифровки недавно совместно с NVIDIA выполнили пилотный проект с использованием методов глубокого обучения для изучения оцифрованных гербарных образцов.
Их исследование является одним из первых, в котором описано использование методов глубокого обучения для улучшения нашего понимания оцифрованных коллекционных образцов. Это также первая демонстрация того, что глубокая сверточная нейронная сеть - вычислительная система, смоделированная по образцу активности нейронов в мозгу животных, способная в основном обучаться самостоятельно - может эффективно различать похожие растения с удивительной точностью почти в 100%.
В документе ученые описывают две разные нейронные сети, которые они обучили выполнять задачи на оцифрованной части (в настоящее время 1,2 миллиона образцов) Национального гербария США.
Команда сначала обучила сеть автоматически распознавать гербарные листы, окрашенные кристаллами ртути, поскольку ртуть обычно использовалась некоторыми ранними коллекционерами для защиты коллекций растений от повреждения насекомыми. Вторая сеть была обучена различать два семейства растений, которые имеют поразительно похожий внешний вид.
Обученные нейронные сети работали с точностью 90% и 96% соответственно (или 94% и 99%, если самые сложные образцы были отброшены), подтверждая, что глубокое обучение является полезной и важной технологией для будущего анализа оцифрованных данных. музейные коллекции.
"Результаты могут быть использованы как для улучшения курирования, так и для открытия новых направлений исследований", - заключают ученые.
Эта исследовательская работа является прекрасным подтверждением концепции. Теперь мы знаем, что можем применять машинное обучение к оцифрованным образцам естествознания для решения кураторских и идентификационных проблем. В будущем эти инструменты будут использоваться в сочетании с большими общими наборами данных. чтобы проверить фундаментальные гипотезы об эволюции и распространении растений и животных», - говорит доктор Лоуренс Дж. Дорр, заведующий кафедрой ботаники Смитсоновского института и соавтор исследования.