Ископаемые растения раскрывают эволюцию зеленой жизни на Земле, но самые многочисленные найденные образцы - ископаемые листья - труднее всего идентифицировать. Большая библиотека визуальных листьев с открытым доступом, разработанная командой под руководством Пенсильванского университета, представляет собой новый ресурс, который поможет ученым распознавать и классифицировать эти листья.
«Сложность листьев зашкаливает, и терминология, которую мы используем для их описания, - это лишь самое маленькое начало того, что необходимо», - сказал Питер Уилф, профессор геолого-геофизических исследований в Пенсильванском университете.«Исследователям нужны гораздо более доступные визуальные ориентиры для изучения различий между многими группами растений, чтобы мы могли выразить это словами. Есть много семейств растений, которые внешне похожи, и эта коллекция дает возможность увидеть новые шаблоны."
Изучение ископаемых и современных листьев традиционно требует исследовательских посещений музейных коллекций, что требует финансирования, планирования и времени для поездок в несколько мест. Все больше музеев размещают коллекции листьев в Интернете, но часто эти изображения имеют низкое разрешение, труднодоступны в большом количестве, имеют неинформативные имена файлов или листья сфотографированы с другими частями растений и этикетками, что затрудняет быстрое сравнение, говорят ученые.
Ученые объединили изображения современных и ископаемых листьев из нескольких известных коллекций, в том числе нескольких, которые ранее не были доступны онлайн в каком-либо формате, и потратили тысячи часов на форматирование данных, чтобы создать единый объединенный набор данных открытого доступа со стандартизированными, легкодоступные для поиска имена файлов и изображения с высоким разрешением. Они сообщили в PhytoKeys, что набор данных доступен в репозитории Figshare Plus.
Набор данных содержит 30 252 изображения, в том числе 26 176 изображений расчищенных и подвергнутых рентгеновскому излучению листьев и 4 076 ископаемых листьев. Очищенные листья представляют собой образцы, которые были химически отбелены, окрашены и помещены на предметные стекла, чтобы выявить узоры жилок. Каждое изображение представляет собой ваучерный музейный образец.
«Что мы сделали здесь, так это сделали этот огромный образовательный ресурс доступным для всех, проверив и стандартизировав все эти изображения из разных устаревших источников», - сказал Уилф. «Нам всем потребовалось 15 лет, чтобы сделать это и преобразовать все имена файлов, но теперь вы можете получить весь пакет на своем рабочем столе одним щелчком мыши в браузере. В каждое имя файла встроена ключевая информация, в том же порядке для быстрой альфа-версии. сортировка: семейство, род, вид и номер экземпляра. Имена файлов могут быть быстро найдены в считанные секунды для интересующего вас элемента и изображений, просмотренных с помощью стандартных инструментов, таких как панель поиска Windows. Все изображения имеют оригинальное разрешение; ничего не понижается."
Набор данных является потенциальным ресурсом не только для обучения студентов, но и для программ машинного обучения. Передача проверенных обучающих данных обучающим алгоритмам позволяет им лучше идентифицировать листья и находить важные визуальные закономерности, которые люди могли упустить из виду или не смогли увидеть.
«Для ученых, изучающих ботанические предметы, особенно такие области, как палеоботаника, эти инструменты могут наиболее надежно использоваться для облегчения и увеличения воздействия человеческого опыта», - сказал Джейкоб Роуз, докторант Университета Брауна, который тесно сотрудничал с с Уилфом для создания набора данных. Его советник Томас Серр, профессор компьютерных наук в Брауновском университете, также внес свой вклад. «Использование этих моделей в качестве отправной точки для принятия, отклонения или дальнейшего изучения экспертом вскоре может оказаться убедительным примером использования технологии для увеличения ценности, которую может произвести один ученый, а также того, что возможно для нам как обществу, чтобы узнать о мире природы, как в масштабе, так и в точности."
Машинное обучение может быть особенно важно для палеоботаников, которые чаще всего находят изолированные ископаемые листья без семян, плодов или цветов, которые могли бы помочь идентифицировать растения. Еще больше усугубляет проблему то, что многие отдельные окаменелости представляют собой вымершие растения.
Новый набор данных является многообещающим вариантом для обучения машинному обучению, поскольку он содержит примеры современных и ископаемых листьев, проверенных по крайней мере на уровне семейства, более высокой таксономической классификации, которая является стандартной первой целью для идентификации ископаемых листьев. Семейство Fagaceae, например, включает буки, каштаны и дубы.
Набор данных включает изображения из вкладов Джека А. Вульфа и Лео Дж. Хики в Национальную коллекцию очищенных листьев и коллекцию рентгеновских снимков Скотта Уинга в Смитсоновском национальном музее национальной истории, Вашингтон, округ Колумбия, и Коллекция очищенных листьев Дэниела И. Аксельрода в Музее палеонтологии Калифорнийского университета в Беркли. Также включены изображения окаменелостей из различных мест в Северной и Южной Америке. Самый большой вклад вносит Национальный памятник Флориссантские окаменелости в Колорадо.
«Эта база данных делает информацию из этих коллекций доступной для людей во всем мире в форме, которую легче искать, чем в оригинале, и которая более поддается цифровому анализу», - сказал Скотт Винг, геолог-исследователь и куратор палеоботаники в Смитсоновский институт. «Мы думаем, что база данных будет стимулировать новые исследования, а также откроет музейные коллекции для людей».
Также внесли свой вклад Сяоюй Цзоу, студентка бакалавриата Пенсильванского университета; Герберт Мейер, палеонтолог, Национальный памятник ископаемых пластов Флориссант; Рохит Саха, бывший аспирант Брауновского университета; Рубен Кунео, директор Музея палеонтологии Эджидио Ферульо, Аргентина; Майкл Донован, менеджер коллекций палеоботаники, Кливлендский музей национальной истории; Дайан Эрвин, старший музейщик Калифорнийского университета в Беркли; М. Алехандра Гандольфо, доцент Корнельского университета; Эрика Гонсалес-Акре, руководитель проекта Смитсоновского института природоохранной биологии; Фабиани Эррера, помощник хранителя палеоботаники Полевого музея национальной истории; Шушенг Ху, менеджер коллекций палеоботаники Йельского музея естественной истории Пибоди; Ари Иглесиас, научный сотрудник Национального университета Комауэ, Аргентина; и Талия Карим, менеджер коллекций палеонтологии беспозвоночных, Музей естественной истории Университета Колорадо.
Национальный научный фонд и Служба национальных парков предоставили финансирование для этой работы.