ISSN: 2153-0637
Михаэль Бём
Glycosciences.DB, база данных структур гликанов портала Glycosciences.de, собирает различные виды данных о структурах гликанов, включая углеводные фрагменты из структур Protein Data Bank по всему миру. Таким образом, она образует мост между ресурсами гликомики и протеомики. Крупное обновление этой базы данных объединяет переработанный веб-интерфейс с рядом новых функций. К ним относятся отдельные страницы ввода не только для структур гликанов, но и для ссылок на литературу и записей, улучшенные параметры поиска подструктур, недавно доступный поиск по ключевым словам, охватывающий все типы записей в одном запросе, и новые типы информации, которая добавляется к структурам гликанов. Эти новые функции подробно описаны в этой статье, а также обсуждаются варианты того, как пользователи могут предоставлять информацию в базу данных. Glycosciences.DB Углеводы, часто называемые гликанами, являются одним из четырех основных классов биомолекул, наряду с нуклеиновыми кислотами, белками и липидами. Из них углеводы являются наиболее распространенными и также наиболее сложными молекулами. Помимо своих хорошо известных функций в качестве накопителей энергии или структурных компонентов, они являются частями гликопротеинов или гликолипидов и покрывают поверхности клеток в гликокаликсе. Здесь они служат сайтами распознавания для взаимодействий клетка-клетка и клетка-матрица, а также для патогенов, таких как вирусы, которые часто взаимодействуют с гликанами на поверхности клеток, чтобы проникнуть в клетки-хозяева. Гликаны также участвуют в иммунных реакциях, воспалениях и таких заболеваниях, как рак. Углеводы часто распознаются специфически. Например, вирусы гриппа человека и птиц распознают своих хозяев по определенным мотивам гликанов. Поэтому исследователи в проектах, связанных с гликомикой, должны иметь возможность находить информацию о конкретных гликанах, которые их интересуют. Glycosciences.DB, ранее известный как SweetDB, был одной из первых попыток собрать информацию о структурах углеводов и сделать ее доступной в Интернете. Первоначально заполненная данными из прекращенной Базы данных структур сложных углеводов (CCSD, часто называемой CarbBank), со временем была добавлена дополнительная информация, такая как модели 3D-структур, созданные Sweet-II, спектры ядерного магнитного резонанса (ЯМР), импортированные из SugaBase или вручную введенные из литературы, или ссылки на записи всемирного Банка данных белков ( ), в которых представлены углеводы. В настоящее время является основным источником новых данных в Glycosciences.DB. На момент написания Glycosciences.DB содержит ∼25 000 записей структур гликанов с 12 500 моделями 3D-структур, 20 000 ссылок на литературу, 3400 спектров ЯМР 1H или 13C и более 10 000 ссылок на записи, содержащие углеводы. В 2018 году было выпущено крупное обновление портала Glycosciences.de, которое не только придало порталу более современный дизайн, но и добавило ряд новых функций в Glycosciences.DB, включая улучшения в функциях поиска и отображения информации. До обновления 2018 годаТолько гликаны рассматривались как записи в Glycosciences.DB. Все остальные элементы, такие как ссылки на литературу или структуры, отображались только как части записей о гликанах или в списках результатов поиска. Теперь структуры и публикации также получают отдельные страницы записей, которые отображают больше данных, чем в предыдущем выпуске. Три типа записей, то есть гликаны, публикации и структуры, перекрестно связаны друг с другом. Для каждого типа записи используется отдельный символ, который отображается в заголовке записи, а также используется в перекрестных ссылках и списках результатов поиска, так что пользователи могут напрямую видеть, какой тип записи будет открыт по ссылке. Скриншоты записи о структуре гликана Glycosciences.DB (спереди, усеченной пунктирной линией), записи о литературе (в середине) и записи (сзади). Все три записи связаны друг с другом: запись содержит как отображаемую запись о структуре ядра N-гликана, так и ссылку на литературу. Пока не зарегистрирована ни одна структура гликана в записи о литературе; ссылка на запись структуры ядра N-гликана назначается через запись. Новые записи добавляются еженедельно путем загрузки недавно выпущенных структур из и поиска в них углеводных фрагментов. Этот процесс в основном автоматический. Вмешательство человека требуется только в случае потенциальных проблем, таких как несоответствия между названием остатка и остатком, который фактически присутствует в трехмерной структуре, или недавно введенные названия остатков, для которых не сохранено определение в pdb2linucs и pdb-care, инструментах, используемых для обнаружения и проверки гликанов в структурах. Первичная ссылка на запись также импортируется из и сохраняется в Glycosciences.DB. Таким образом, записи могут быть автоматически связаны как с записями о гликанах, так и с записями литературы. Перекрестные ссылки между двумя последними типами записей не могут быть добавлены автоматически надежным образом, поскольку нет доступного инструмента, который мог бы надежно извлекать информацию о соответствующих углеводах из публикации. Тем не менее, основная ссылка записи часто также касается углеводов в этой записи, в частности, в случае белково-углеводных комплексов, где углеводные фрагменты были добавлены намеренно и, таким образом, обычно (но не обязательно) также являются важной темой публикации. Это не обязательно касается гликопротеинов, где гликаны также могут быть основной темой публикации, но часто (особенно в случае коротких, укороченных гликанов) просто указываются как «также обнаруженные» или даже вообще не упоминаются. Поэтому перекрестные связи между гликанами и записями литературы, которые назначаются через записи, не перечисляются вместе с назначенными вручную перекрестными связями, а в отдельном разделе, чтобы пользователи могли легко их идентифицировать. Записи о структуре гликанов по-прежнему составляют основную часть контента Glycosciences.DB. Записи собирают информацию о структуре углеводов, такую как модели 3D-структур, спектры ЯМР, ссылки на литературу,ссылки на записи и информацию о составе остатков, мотивах подструктур, тривиальных названиях и таксономических данных. Обновление 2018 года поставляется вместе с некоторыми дополнительными элементами. Информация о структуре гликана (последовательность моносахарида и положения связей) до сих пор была предоставлена только в 2D-аннотации в формате CarbBank. Теперь мы также предлагаем структуру в нотации LInear Notation for Unique description of Carbohydrate Sequences (LINUCS), нотации, используемой внутри базы данных для хранения и идентификации структур гликанов, и, где это возможно, в форматах GlycoCT_condensed и GlycoCT_xml. Для получения дополнительной информации о форматах структур гликанов, пожалуйста, обратитесь к . В дополнение к этим текстовым форматам, графики номенклатуры символов для гликанов (SNFG) также были добавлены ко многим записям гликанов. Однако на момент написания статьи не все новые определенные функции текущей версии SNFG еще включены. Перекрестные ссылки на соответствующие записи других баз данных портала Glycosciences.de (GlycoMapsDB и GlycoCD) теперь также даются там, где это применимо. Функция, которая используется многими базами данных по геномике, протеомике или литературе, но, насколько нам известно, пока не используется базами данных по гликомике, — это возможность добавлять ключевые слова к записи базы данных, которые можно использовать для идентификации этой записи при поиске в базе данных. Эта возможность теперь реализована в Glycosciences.DB. По аналогии с записями литературы и записями, заголовки теперь можно добавлять к записям о структуре гликанов в Glycosciences.DB. Вряд ли будет возможно добавлять осмысленные заголовки ко всем записям. Тем не менее, существуют различные гликаны, для которых широко используются тривиальные названия (например, для антигенов группы крови типа Льюиса, олигосахаридов грудного молока, гликосфинголипидов ганглиозного ряда и т. д.), а для многих других гликанов краткое описание, такое как «структура ядра фукозилированного N-гликана», может быть полезным для пользователей, которые еще не знакомы со структурами гликанов. Эти названия также можно использовать в запросах к базе данных, и они отображаются вместе со структурой гликана в результатах запроса структуры и в списках структур, например, в записях литературы, чтобы помочь пользователям идентифицировать отображаемые гликаны. Модели трехмерной структуры, которые предоставляются со многими записями, могут дать исследователям представление о том, как выглядят гликаны. Однако может быть сложно прочитать трехмерную структуру гликана и найти определенный остаток в структуре, поскольку моносахаридные строительные блоки, которые образуют гликаны, очень похожи друг на друга. Поэтому мы добавили возможность выделения остатков цветом с использованием цветов символов SNFG, что упрощает ориентацию в 3D-структуре гликана. Цвета гало или связей можно переключать с помощью флажков в параметрах отображения рядом с 3D-структурой. До сих пор цвета задавались трехбуквенными кодами PDB для часто встречающихся остатков. Список поддерживаемых трехбуквенных кодов будет расширен, чтобы охватить больше остатков в будущем.Выделение остатков в растительном N-гликане с фукозилированием ядра и ксилозой (LinucsID 13934). Без выделения остатки трудно идентифицировать (вверху). Это становится проще, когда используются гало (внизу слева) или цвета связей (внизу справа) с цветами, соответствующими цветам символов SNFG, даже если структура ориентирована иначе, чем символы SNFG.