Отличительной чертой хорошего правительства является политика, которая поднимает настроение уязвимым или игнорируемым слоям населения. Но для разработки эффективной политики требуется хорошее знание уязвимых групп. И это сложная задача, поскольку эти группы населения, в том числе иммигранты без документов, бездомные или потребители наркотиков, обычно остаются на обочине из-за культурных табу, туманного правового статуса или простого пренебрежения со стороны общества.
«Это не те группы, где есть каталог, в который можно зайти и найти случайную выборку», - сказал Адриан Рафтери, профессор статистики и социологии Вашингтонского университета.«Это очень затрудняет выводы или выводы об этих «скрытых» группах».
Поскольку эти группы трудно идентифицировать и охватить, такие исследователи, как Рафтери, с трудом могут сделать точные выводы о них, определить их потребности и найти эффективные способы достучаться до них. А государственная политика помощи уязвимым группам рискует потерпеть неудачу.
Социологи когда-то надеялись, что подход, называемый выборкой, управляемой респондентами, или RDS, поможет им сделать надежные выводы о труднодоступных группах. Но последующие анализы ставят под сомнение эффективность исследований RDS.
В статье, опубликованной 7 декабря в журнале Proceedings of the National Academy of Sciences, Рафтери и его команда сообщают о том, как статистический подход, называемый «загрузкой дерева», может точно оценить неопределенность в исследованиях RDS. Это поставило бы RDS на твердую почву в качестве одного из немногих методов изучения уязвимых групп.
Впервые описанная в 1997 году выборка, основанная на респондентах, в исследованиях работает вокруг «проблемы» найма. Обычно социологи пытаются случайным образом набирать испытуемых из своей целевой группы. Но это невозможно, когда социальные или юридические вопросы выступают барьерами между исследователями и субъектами.
«Это основная проблема, когда вы пытаетесь получить доступ и сделать выводы о труднодоступных группах населения, таких как потребители наркотиков», - сказал Рафтери.
С помощью метода RDS исследователи могут начать с нескольких участников и использовать их для набора дополнительных участников, используя существующие социальные связи.
"Вы можете создать витрину и найти несколько человек из труднодоступного населения: вы берете у них интервью, собираете данные и даете им ваучеры, чтобы они передавали их друзьям, которые тоже могут прийти", - сказал Рафтери. «Это сразу же пригодилось для доступа к этим группам населения».
На сегодняшний день проведено более 460 RDS-исследований уязвимых групп населения. Но исследователи показали, что стандартные оценки неопределенности неверны, что затрудняет правильное использование RDS. Оказывается, выводы, сделанные исследователями об этих популяциях, были предвзятыми из-за того, что их объекты исследования не были выбраны случайным образом.
«RDS - это как пытаться описать слона, когда у вас завязаны глаза и вы можете прикоснуться только к одной части слона», - сказал Рафтери. «Вы можете получить много данных об этой части слона, но у нас - исследователей - не было надлежащих методов, чтобы сделать твердые, научно обоснованные выводы о слоне в целом».
Рафтери и его команда начали искать методы оценки неопределенности в исследованиях RDS. Они быстро остановились на начальной загрузке, статистическом подходе, используемом для оценки неопределенности оценок на основе случайной выборки. При традиционной начальной загрузке исследователи берут существующий набор данных - например, использование презервативов среди 1000 ВИЧ-позитивных мужчин - и случайным образом передискретизируют новый набор данных, рассчитывая использование презервативов в новом наборе данных. Затем они делают это много раз, получая распределение значений использования презервативов, отражающее неопределенность исходной выборки.
Команда модифицировала начальную загрузку для наборов данных RDS. Но вместо загрузки данных о людях они загружали данные о связях между людьми.
Чтобы увидеть, может ли эта «загрузка дерева» придать уверенность выводам из наборов данных RDS, они обратились к двум большим общедоступным наборам данных. Одно из них представляло собой многолетнее исследование состояния здоровья и достижений среди более чем 90 000 подростков, а другое представляло собой обследование социальных контактов и сексуальных привычек и пристрастий к наркотикам среди примерно 5 400 гетеросексуальных взрослых. Ни один набор данных не был собран с использованием метода RDS. Но поскольку оба набора данных включали информацию о социальных контактах между испытуемыми, исследователи могли изменить их, чтобы «имитировать» данные исследования RDS.
С помощью начальной загрузки дерева команда Рафтери обнаружила, что они могут получить гораздо более точные заявления о научной достоверности своих выводов из этих исследований, подобных RDS. Затем они применили свой метод к третьему набору данных - RDS-исследованию потребителей внутривенных наркотиков в Украине. Опять же, команда Рафтери обнаружила, что может делать однозначные выводы.
«Ранее RDS мог дать оценку 20 процентов потребителей наркотиков в районе, являющихся ВИЧ-позитивными, но мало кто представляет, насколько это будет точно. Теперь вы можете с уверенностью сказать, что по крайней мере 10 процентов являются таковыми», Рафферти. «Это что-то твердое, что вы можете сказать. И это может стать основой политики реагирования, а также дополнительных исследований этих групп».
С помощью бутстрэппинга деревьев Рафтери считает, что исследователи могут делать более определенные и менее изменчивые выводы из исследований RDS. Он хочет, чтобы другие группы изучили и использовали древовидную загрузку как для существующих наборов данных RDS, так и для будущих исследований RDS.
«Я надеюсь, что эта статья поможет поставить RDS на прочную основу и расскажет нам, какие выводы мы можем сделать из исследований RDS, а какие нет», - сказал Рафтери.