Различия в генетическом разнообразии среди бактериальных патогенов коррелируют с клинически важными факторами, такими как вирулентность и устойчивость к противомикробным препаратам, что обуславливает необходимость выявления кластеров сходных бактериальных штаммов. Однако современные подходы к кластеризации и типированию бактерий не подходят для эпиднадзора за патогенами в режиме реального времени и обнаружения вспышек.
В исследовании, опубликованном сегодня в журнале Genome Research, исследователи разработали PopPUNK (разделение популяции с использованием нуклеотидных K-меров), вычислительный инструмент для анализа десятков тысяч бактериальных геномов за один прогон, до 200 раз быстрее, чем предыдущие методы. Используя k-меры, короткие участки ДНК длиной k, это программное обеспечение позволяет быстро оценить долю k-меров, присутствующих в одном геноме, которые также являются общими для другого. Различия в содержании k-меров между геномами могут представлять собой изменения отдельных оснований в сходных участках ДНК или различия в содержании генов. Рассчитывая эти отношения между изолятами, можно эффективно оценить структуру популяции вида.
Важно отметить, что PopPUNK применяет метод машинного обучения, который позволяет легко выявлять новые штаммы среди населения. Используя ранее опубликованный набор данных об изолятах кишечной палочки, собранных в течение десятилетнего исследования, PopPUNK смог эффективно классифицировать распространенность различных штаммов в популяции каждый год и выявлять появление штаммов, устойчивых к антибиотикам, с течением времени.
Исследователи предполагают, что PopPUNK ускорит идентификацию бактериальных штаммов по мере увеличения масштаба секвенируемых бактериальных геномов и, что важно, позволит органам общественного здравоохранения быстро идентифицировать штаммы вспышек, которые представляют риск для общественного здравоохранения.