Гиперспектральные данные включают полный световой спектр; этот набор данных непрерывной спектральной информации имеет множество применений, от понимания состояния Большого Барьерного рифа до выбора более продуктивных сортов сельскохозяйственных культур. Чтобы помочь исследователям лучше предсказывать характеристики высокоурожайных культур, команда из Университета Иллинойса объединила шесть мощных алгоритмов машинного обучения, которые используются для интерпретации гиперспектральных данных, и продемонстрировала, что этот метод улучшил предсказательную силу недавнего исследования. исследования до 15 процентов по сравнению с использованием только одного алгоритма.
«Мы даем возможность ученым из многих областей, которые не обязательно являются экспертами в области вычислительного анализа, преобразовать свои огромные наборы данных в полезные результаты», - сказал первый автор Пэн Фу, исследователь с докторской степенью в Иллинойсе, который руководил этой работой для исследовательский проект под названием «Реализуя повышенную эффективность фотосинтеза» (RIPE). «Теперь ученым не нужно ломать голову над тем, какие алгоритмы машинного обучения использовать; они могут применять шесть или более алгоритмов по цене одного, чтобы делать более точные прогнозы».
RIPE, возглавляемая штатом Иллинойс, разрабатывает сельскохозяйственные культуры, чтобы они были более продуктивными за счет улучшения фотосинтеза, естественного процесса, который все растения используют для преобразования солнечного света в энергию и урожай. RIPE поддерживается Фондом Билла и Мелинды Гейтс, Американским фондом исследований в области продовольствия и сельского хозяйства (FFAR) и Министерством международного развития правительства Великобритании (DFID).
В недавнем исследовании, опубликованном в журнале Remote Sensing of Environment, команда представила спектральный анализ как средство быстрого определения фотосинтетических улучшений, которые могут повысить урожайность. В этом новом исследовании, опубликованном в Frontiers in Plant Science, команда улучшила свои предыдущие прогнозы фотосинтетической способности на целых 15 процентов с помощью машинного обучения, когда компьютеры автоматически применяли эти шесть алгоритмов к своему набору данных без помощи человека..
«Мне понравилось видеть, что возможно, когда вы можете использовать вычислительную мощность, чтобы использовать данные во всей их ценности», - сказала соавтор Кэтрин Мичем-Хенсолд, постдокторский исследователь RIPE в Иллинойсе, которая руководила предыдущим исследованием. в области дистанционного зондирования окружающей среды. «Интересно видеть, что такой аналитик данных, как Пэн, может сделать с моими данными. Теперь другие ученые, не занимающиеся аналитикой данных, могут протестировать несколько мощных алгоритмов, чтобы выяснить, какой из них поможет им максимально эффективно использовать свои данные».
Однако необходимы дополнительные исследования, чтобы доказать актуальность этого метода сложенного алгоритма для сообщества специалистов по растениям и других областей исследований.
«Применяя опыт аналитиков данных для удовлетворения потребностей таких физиологов растений, как я, мы в конечном итоге усовершенствовали технику, которая применима к другим наборам гиперспектральных данных», - сказал соавтор Карл Бернакки, руководитель исследований RIPE и ученый с У. С. Министерство сельского хозяйства, Служба сельскохозяйственных исследований, базирующаяся в Иллинойсском институте геномной биологии им. Карла Р. Вёзе. «Следующим шагом является тестирование более сложных алгоритмов машинного обучения на наборах данных по многим другим видам сельскохозяйственных культур и изучение полезности этого метода для оценки других параметров, таких как абиотические стрессы от засухи или болезней».
«Как ученые, мы должны попытаться использовать наши знания в предметной области, чтобы объяснить повышенную производительность с помощью методов машинного обучения», - сказал соавтор Кайю Гуан, доцент Иллинойсского колледжа сельского хозяйства, потребительских наук и наук об окружающей среде (ТУЗЫ). «Сочетание вычислительных методов и дисциплин предметной области позволяет нам, возможно, понять, что вызывает измеримые различия в наборах гиперспектральных данных, что является неразгаданной загадкой в нашей работе и заслуживает дальнейшего изучения».