Когда ураган Флоренс прошел через Северную Каролину, он выпустил то, что можно было бы вежливо назвать бурей экскрементов. Огромные лужи навоза свинофермы вымыли смесь опасных бактерий и тяжелых металлов в близлежащие водоемы.
Более эффективный надзор мог бы предотвратить некоторые из наихудших последствий, но даже в лучшие времена природоохранные органы штатов и федеральные власти перегружены и недофинансированы. По словам исследователей из Стэнфорда, помощь под рукой, однако, в виде машинного обучения - обучения компьютеров автоматически обнаруживать закономерности в данных.
Их исследование, опубликованное в Nature Sustainability, показывает, что методы машинного обучения могут выявлять в два-семь раз больше нарушений, чем существующие подходы, и предлагают далеко идущие приложения для государственных инвестиций.
«Особенно в эпоху сокращения бюджетов определение экономически эффективных способов защиты общественного здоровья и окружающей среды имеет решающее значение», - сказала соавтор исследования Элинор Бенами, аспирант Междисциплинарной программы Emmett по окружающей среде и ресурсам (E -IPER) в Стэнфордской школе наук о Земле, энергетике и окружающей среде.
Оптимизация ресурсов
Так же, как IRS не может проверять каждого налогоплательщика, большинство государственных учреждений должны постоянно принимать решения о том, как распределять ресурсы. Методы машинного обучения могут помочь оптимизировать этот процесс, прогнозируя, где средства могут принести наибольшую пользу. Исследователи сосредоточились на Законе о чистой воде, в соответствии с которым Агентство по охране окружающей среды США и правительства штатов несут ответственность за регулирование более 300 000 объектов, но могут инспектировать менее 10 процентов из них в данный год.
Используя данные прошлых проверок, исследователи развернули ряд моделей для прогнозирования вероятности отказа от проверки на основе характеристик объекта, таких как местоположение, отрасль и история проверок. Затем они обкатали свои модели на всех объектах, в том числе и на тех, которые еще не были проинспектированы.
Эта методика генерировала оценку риска для каждого учреждения, указывающую, насколько вероятно, что оно не пройдет проверку. Затем группа создала четыре сценария проверок, отражающих различные институциональные ограничения - например, различные бюджеты проверок и частоту проверок - и использовала баллы для определения приоритетности проверок и прогнозирования нарушений.
В сценарии с наименьшим количеством ограничений, что маловероятно в реальном мире, исследователи предсказали, что количество нарушений в семь раз превысит статус-кво. Когда они учитывали больше ограничений, количество обнаруженных нарушений по-прежнему вдвое превышало статус-кво.
Ограничения алгоритмов
Несмотря на свой потенциал, машинное обучение имеет недостатки, от которых следует защищаться, предупреждают исследователи. «Алгоритмы несовершенны, иногда они могут увековечить предвзятость, и их можно обмануть», - говорит ведущий автор исследования Миюки Хино, также аспирант E-IPER.
Например, агенты, такие как владельцы свиноферм, могут манипулировать своими отчетными данными, чтобы повлиять на вероятность получения льгот или избежать штрафов. Другие могут изменить свое поведение - ослабить стандарты, когда риск быть пойманным невелик, - если они знают, что алгоритм может выбрать их. Институциональные, политические и финансовые ограничения могут ограничить способность машинного обучения улучшать существующие методы. Этот подход потенциально может усугубить проблемы экологической справедливости, если он систематически отводит надзор за объектами, расположенными в районах с низким доходом или меньшинствами. Кроме того, подход машинного обучения не учитывает потенциальные изменения с течением времени, например, в приоритетах государственной политики и технологиях контроля загрязнения.
Исследователи предлагают способы решения некоторых из этих проблем. Случайный выбор некоторых учреждений, независимо от их оценок риска, и время от времени повторное обучение модели для отражения актуальных факторов риска могут помочь учреждениям с низким уровнем риска быть в курсе соблюдения требований. Забота об экологической справедливости может быть встроена в практику адресной проверки. Изучение ценности и компромиссов использования данных, о которых сообщают сами, может помочь справиться с опасениями по поводу стратегического поведения и манипуляций со стороны учреждений.
Исследователи предполагают, что будущая работа может изучить дополнительные сложности интеграции подхода машинного обучения в более широкие усилия Агентства по охране окружающей среды, такие как включение конкретных приоритетов правоприменения или определение технических, финансовых и кадровых ограничений. Кроме того, эти методы могут применяться в других контекстах в США и за их пределами, где регулирующие органы стремятся эффективно использовать ограниченные ресурсы.
«Эта модель является отправной точкой, которую можно дополнить более подробной информацией о затратах и преимуществах различных проверок, нарушений и мер реагирования», - сказала соавтор и аспирант E-IPER Нина Брукс.