ISSN: 2157-7064
Самир В. Дешпанде, Рабих Э. Джаббур, Питер А. Снайдер, Майкл Стэнфорд, Чарльз Х. Уик и Алан В. Цулич
Мы разработали набор алгоритмов биоинформатики для автоматизированной идентификации и классификации микробов на основе сравнительного анализа последовательностей белков. Это приложение использует информацию о последовательности микробных белков, выявленную с помощью протеомики на основе масс-спектрометрии, для идентификации и филопротемой классификации. Алгоритмы преобразуют результаты поиска спектров ионов-продуктов пептидных ионов в базе данных белков, выполняемые с помощью коммерчески доступного программного обеспечения (например, SEQUEST), в таксономически значимый и легко интерпретируемый вывод. Для достижения этой цели мы создали пользовательскую базу данных белков, состоящую из теоретических протеомов, полученных из всех полностью секвенированных бактериальных геномов (1204 микроорганизмов по состоянию на 25 августа 2010 г.) в формате FASTA. Каждая последовательность белка в базе данных дополнена информацией об исходном организме, а хромосомное положение каждой кодирующей белок открытой рамки считывания (ORF) встроено в заголовок последовательности белка. Кроме того, эта информация связана с таксономическим положением каждой бактерии базы данных. ABOid анализирует файлы результатов поиска SEQUEST, чтобы предоставить вероятности того, что назначения пептидной последовательности в масс-спектре иона-продукта (MS/MS) являются правильными, и использует принятые соответствия спектр-последовательность для создания матрицы назначений последовательность-организм (STO). Поскольку пептидные последовательности дифференциально присутствуют или отсутствуют в различных сравниваемых штаммах, это позволяет классифицировать виды бактерий с высокой пропускной способностью. Для этой цели матрицы назначений STO, рассматриваемые как битовые карты назначений, затем анализируются модулем ABOid, который использует филогенетические связи между бактериальными видами как часть процесса дерева решений и путем применения многомерных статистических методов (главный компонент и кластерный анализ) для выявления связи анализируемого неизвестного образца с микроорганизмами базы данных. Наш алгоритм классификации и идентификации бактерий использует назначения анализируемого организма таксономическим группам на основе организованной схемы, которая начинается на уровне типа и продолжается через классы, отряды, семейства и роды вплоть до уровня штамма.