Аудит обнаружил, что агрегаторы данных о биоразнообразии «теряют и путают» данные

Аудит обнаружил, что агрегаторы данных о биоразнообразии «теряют и путают» данные
Аудит обнаружил, что агрегаторы данных о биоразнообразии «теряют и путают» данные

Стремясь улучшить качество записей о биоразнообразии, Атлас живой Австралии (ALA) и Глобальный информационный фонд по биоразнообразию (GBIF) используют автоматизированную обработку данных для проверки отдельных элементов данных. Записи предоставляются ALA и GBIF музеями, гербариями и другими источниками данных о биоразнообразии.

Однако независимый анализ таких записей показывает, что обработка данных ALA и GBIF также приводит к потере данных и необоснованным изменениям научных названий.

"Меня больше всего интересовали изменения, внесенные агрегаторами в названия родов и видов в записях", - сказал д-р Месибов.

"Я обнаружил, что имена в 1 из 5 записей были изменены, часто из-за того, что агрегатор не мог найти имя в таблице поиска, которую он использовал."

Еще один тревожный результат касался типовых образцов - эталонных образцов, на которых основаны научные названия. В ряде случаев было обнаружено, что агрегаторы заменяли название типового образца на имя, связанное с совершенно другим типовым образцом.

Самым большим сюрпризом, по словам д-ра Месибова, стали серьезные разногласия по именам между агрегаторами.

«Было очень мало согласия, - объяснил он. «Один агрегатор менял имя, а другой нет или менял его по-другому».

Кроме того, даты, имена и информация о местонахождении иногда терялись из записей, в основном из-за ошибок программирования в программном обеспечении, используемом агрегаторами для проверки элементов данных. В некоторых полях данных потеря достигла 100%, при этом исходные элементы данных не сохранились после обработки.

«Урок этого аудита заключается в том, что агрегирование данных о биоразнообразии не безвредно», - сказал д-р Месибов. «Он может потерять и спутать совершенно правильные данные».

«Пользователи агрегированных данных должны всегда загружать как исходные, так и обработанные элементы данных, а также проверять на предмет потери или модификации данных, а также на замену имен», - заключил он.