ISSN: 2161-0932
Райнхарт Джон
Предыстория: Дилеммы принятия клинических решений особенно заметны в практике ЭКО, учитывая, что часто генерируются большие наборы данных, которые позволяют врачам делать прогнозы, информирующие о выборе лечения. В этом исследовании применялось машинное обучение с использованием данных ЭКО для определения риска близнецов, когда для переноса доступны два или более эмбрионов. Хотя большинство классификаторов способны давать оценки точности, в этом исследовании пошло дальше, сравнив классификаторы как по точности, так и по площади под кривой (AUC).
Методы: Данные исследования были получены из большой электронной системы медицинских записей, которая используется более чем в 140 клиниках ЭКО и содержала 135 000 циклов ЭКО. Набор данных был сокращен с 88 переменных до 40 и включал только те циклы ЭКО, в которых были созданы два или более эмбрионов бластоцисты. Следующие классификаторы сравнивались с точки зрения точности и AUC: обобщенная линейная модель, линейный дискриминантный анализ, квадратичный дискриминантный анализ, метод K-ближайших соседей, машина опорных векторов, случайные леса и бустинг. Также был применен алгоритм обучения ансамбля стекирования для использования прогнозов классификаторов для создания новой модели.
Результаты: Хотя классификатор ансамбля был самым точным, ни один из классификаторов не преобладал, будучи значительно превосходящим другие классификаторы. Результаты показали, что методы усиления для классификаторов работали плохо; классификаторы логистического и линейного дискриминантного анализа работали лучше, чем классификатор квадратичного дискриминантного анализа, а машина опорных векторов работала почти так же хорошо, как классификатор дерева. Результаты AUC согласовывались со сравнениями по точности. Внешняя проверка также проводилась с использованием другого набора данных, содержащего 588 наблюдений. Все модели работали лучше с использованием внешнего набора данных проверки, при этом классификатор случайного леса работал заметно лучше, чем любой другой классификатор.
Выводы : Эти результаты подтверждают впечатление, что большие данные могут иметь ценность в процессе принятия клинических решений; но что ни один статистический алгоритм не обеспечивает максимальной точности для всех баз данных. Поэтому различные наборы данных потребуют исследования, чтобы определить, какие алгоритмы являются наиболее точными для конкретного набора данных. Эти результаты подчеркивают предположение о том, что врачи, имеющие доступ к большим объемам данных, могут использовать передовые прогностические аналитические модели для создания надежной клинической информации, имеющей жизненно важное значение для лечения пациентов.