ISSN: 2161-0398
Дэвид Хорн*, Ури Вайнгарт
Методология специфических пептидов (SP) была введена в контексте ферментов. Она основана на неконтролируемом инструменте машинного обучения (ML) для извлечения мотивов с последующей контролируемой аннотацией мотивов. В случае ферментов классификатором является номер классификации ферментов (EC). Здесь мы повторно изучаем эту проблему и демонстрируем, что достигаем точности 0,965 и отзыва 0,891 для доступных в настоящее время последовательностей белков. Более того, применение нашей методологии для запроса белков происходит намного быстрее, чем методы глубокого обучения, используемые для той же цели.
Мы также применяем этот метод к двум другим группам белков, G Protein Coupling Receptors (GPCR) и белкам цинкового пальца, находим их соответствующие SP и предоставляем код для поиска любой белковой последовательности для ее классификации в любом таком семействе. Обсуждаются некоторые белки, которые имеют аннотации, принадлежащие двум из трех систем. Нашу методологию можно применять к любой группе белков, чтобы найти их соответствующие SP и предоставить код для поиска любой белковой последовательности для ее классификации в любом таком семействе.