Полногеномные ассоциативные исследования (GWAS) изучают большие популяции, чтобы найти гены, которые способствуют общим мультигенным признакам, таким как рост или ожирение. Эти всесторонние исследования часто обнаруживают большое количество крошечных генетических вариаций, которые чаще встречаются у высоких, тучных людей и т. д. Но эта ассоциация не означает, что вариация на самом деле способствует возникновению признака; это может быть просто развлечение.
Итак, какие гены ученым следует исследовать дальше? Несмотря на то, что доступно множество вычислительных алгоритмов, помогающих получить результаты GWAS, было трудно решить, какой из них выбрать. В сообщении от 2 мая, опубликованном в Американском журнале генетики человека, исследователи описывают то, что, по их мнению, является эффективным и беспристрастным методом выбора наилучшего алгоритма для работы, который называется Benchmarker..
Большинство методов, которые использовались для оценки алгоритмов, могут смещать исследователей в сторону генов, которые уже хорошо изучены, уводя ученых от возможности открыть что-то действительно новое. Другие методы требуют доступа к независимым справочным данным, которые не всегда доступны.
«У нас есть разные алгоритмы расстановки приоритетов, но мы на самом деле не знаем, как решить, какой из них лучше», - говорит Ребекка Файн, кандидат медицинских наук Гарвардской медицинской школы, которая работала над этой проблемой вместе с Джоэлом Хиршхорном. Доктор медицинских наук, заведующий эндокринологическим отделением Бостонской детской больницы, который также руководит программой метаболизма в Институте Броуда. «Мы не хотели полагаться на предыдущий «золотой стандарт» или вводить что-либо, кроме исходных данных GWAS."
Заимствование машинного обучения
Заимствуя концепцию машинного обучения «перекрестной проверки», Benchmarker позволяет исследователям использовать сами данные GWAS в качестве собственного контроля. Идея состоит в том, чтобы взять набор данных GWAS и выделить одну хромосому. Затем тестируемый алгоритм использует данные из оставшейся 21 хромосомы (всех, кроме X и Y), чтобы сделать прогнозы о том, какие гены на одной хромосоме с наибольшей вероятностью внесут вклад в исследуемый признак. Поскольку этот процесс повторяется для каждой хромосомы по очереди, гены, помеченные алгоритмом, объединяются. Затем алгоритм проверяется путем сравнения этой группы приоритетных генов с исходными результатами GWAS.
«Вы тренируете алгоритм на GWAS с одной упущенной хромосомой, затем возвращаетесь к этой хромосоме и спрашиваете, действительно ли эти гены были связаны с сильным p-значением в исходных результатах GWAS», - объясняет Файн.«Хотя эти p-значения не представляют точных «правильных ответов», они примерно говорят вам, где находятся некоторые истинные генетические ассоциации. Конечным продуктом является оценка того, как работает каждый алгоритм».
Бенчмаркинг
Используя этот подход для 20 отдельных признаков, Файн, Хиршхорн и их коллеги пришли к выводу, что сочетание нескольких стратегий часто дает наилучшие результаты. Они также нашли доказательства того, что определенные алгоритмы работают лучше всего при поиске генов для определенных признаков.
«Мы ожидаем, что будет разработано гораздо больше алгоритмов, чтобы ответить на следующий ключевой вопрос после GWAS: какие гены и варианты причинно связаны с человеческими чертами и заболеваниями», - говорит Хиршхорн. «Подход Benchmarker может оказать большую помощь как беспристрастный способ выяснить, какие алгоритмы использовать для ответа на этот вопрос».