Опубликованный в GigaScience рабочий процесс Galaxy с открытым исходным кодом позволяет исследователям упростить работу по поиску семейств генов; важный инструмент, когда дело доходит до анализа эволюции, структуры и функции генов у разных видов.
Соавтор Уилфрид Харти объяснил, почему этот инструмент так полезен для биологов: «Программное обеспечение, разработанное в Институте Эрлхэма, позволяет ученым исследовать интересующие виды с помощью гибкого и воспроизводимого конвейера. Производительность нашего рабочего процесса была оценена на сборках геномов позвоночных различного качества (утконос, свинья, лошадь, собака, мышь и человек). Виды были выбраны для оценки влияния качества генома на идентификацию генных семейств. Геномы мыши, собаки и человека имеют высокое качество, в то время как три других находятся на разных стадиях завершения анализа».
Основанный на расширении существующего конвейера EnsemblCompara Gene Trees, рабочий процесс GeneSeqToFamily устраняет многие сложные предпосылки процесса, такие как необходимость использования командной строки для установки большого количества отдельных инструментов, путем преобразования всего процесса в Галактика; гораздо более простая в использовании платформа.
Важно отметить, что рабочий процесс легко настраивается, что позволяет пользователям выбирать параметры, изменять инструменты и запускать программное обеспечение на своих собственных генах без необходимости использования базы данных Ensembl.
Не просто рабочий процесс, GeneSeqToFamily содержит ряд новых автономных инструментов Galaxy, включая TreeBeST, hcluster_sg, T-Coffee и ETE. Программное обеспечение, разработанное в EI Анилом Танки и Николой Соранзо из Data Infrastructure Group, упрощает процесс поиска и создания филогенетических деревьев с использованием ряда открытых платформ и баз данных. Анил Танки, научный программист, сказал: «Мы рады разместить нашу работу в открытом доступе, где она позволяет биологам и биоинформатикам использовать Ensembl Compara GeneTrees Pipeline в простом графическом пользовательском интерфейсе и изменять его при необходимости».
Команда надеется, что новый рабочий процесс поможет пользователям, незнакомым со сложностями, связанными с использованием Compara, упростить анализ филогенетических наборов данных, сопоставляя ряд полезных инструментов семейства генов в одном рабочем процессе Galaxy. Пользователи могут либо выбрать существующие базы данных Ensembl для использования в качестве эталонных наборов для своего анализа, либо предоставить свои собственные данные в том же формате, и предоставляются инструменты, которые могут помочь.
Earlham Institute стремится предоставлять инструменты и алгоритмы для поддержки, обеспечения и развития исследований в области вычислительной биологии и наук о жизни, а такие проекты, как Galaxy, помогают открыть доступ к целому ряду научных инструментов и баз данных.
Группа Инфраструктуры Данных, возглавляемая Dr. Роб Дэйви также поддерживает такие ресурсы, как CyVerse UK и COPO, которые, наряду с Galaxy, расширяют доступность и удобство использования вычислительных ресурсов для более широкого научного сообщества в Великобритании и на международном уровне благодаря национальным возможностям EI в электронной инфраструктуре.