ISSN: 2165- 7866
Оскар Марбан и Хавьер Сеговия
Существующие модели процессов добычи данных предлагают тот или иной способ разработки проектов в структурированном виде, пытаясь снизить их сложность за счет эффективного управления проектами. Хорошо известно в любой инженерной среде, что одной из задач управления, которая помогает снизить проблемы проекта, является систематическое документирование проекта, но лишь немногие из существующих процессов добычи данных предлагают свою документацию. Кроме того, эти немногие отмечают необходимость создания документации на каждой фазе в качестве входных данных для следующей, но не показывают, как это сделать. С другой стороны, в литературе есть примеры расширений UML для проектов добычи данных, но они всегда фокусируются на стороне реализации модели и не учитывают остальную часть процесса. В этой статье мы представляем расширение языка моделирования UML для проектов добычи данных (DM-UML), охватывающее все потребности в документации для проекта, соответствующего стандартному процессу, а именно CRISP-DM, от понимания бизнеса до развертывания. Мы также показываем пример реального применения предлагаемого моделирования DM-UML. Результатом такого подхода является то, что, помимо преимуществ наличия стандартизированного способа создания документации, он, несомненно, представляет собой очень полезный и прозрачный инструмент для моделирования и связи этапа бизнес-понимания или моделирования с остальной частью проекта вплоть до развертывания, а также способ облегчения коммуникации с нетехническими заинтересованными сторонами, участвующими в проекте, что всегда было открытым вопросом в области интеллектуального анализа данных.