ISSN: 2165- 7866
Абдалла Бала и Ален Абран
Многоорганизационные репозитории, в частности те, которые основаны на добровольных взносах данных, таких как репозиторий Международной группы по стандартам бенчмаркинга программного обеспечения (ISBSG), могут отсутствовать большое количество значений для многих полей данных, а также включать некоторые выбросы. В этой статье предлагается ряд проблем с качеством данных, связанных с репозиторием ISBSG, которые могут поставить под угрозу результаты для пользователей, использующих его для целей бенчмаркинга или для построения моделей оценки. Мы предлагаем ряд критериев и методов предварительной обработки данных с целью улучшения качества выборок, идентифицированных для детального статистического анализа, и представляем стратегию множественной импутации (MI) для работы с наборами данных с отсутствующими значениями.