ISSN: 2165- 7866
Workineh Tesema
В этой статье представлена смысловая кластеризация многосмысловых слов в языке афан оромо. Основная идея этой работы заключается в кластеризации контекстов, что обеспечивает полезный способ обнаружения семантически связанных смыслов. Схожие контексты заданного смысла целевого слова кластеризуются с использованием трех иерархических и двух раздельных кластеризаций. Все контексты связанных смыслов включаются в кластеризацию и, таким образом, выполняются по всем контекстам в корпусе. Основная гипотеза заключается в том, что кластеризация фиксирует отраженное единство среди контекстов, и каждый кластер выявляет возможные связи, существующие между контекстами. Как показывает эксперимент, из всех пяти кластеров кластеры EM и K-средних дают значительно более высокую точность, чем иерархические (одиночная кластеризация, полная кластеризация и усредненная кластеризация) результаты. Для языка афан оромо EM и K-средние повышают точность смысловой кластеризации, чем иерархические алгоритмы кластеризации. Каждый кластер представляет уникальный смысл. Некоторые слова имеют два смысла из пяти смыслов. Как показывает результат, средняя точность тестового набора составила 85,5%, что обнадеживает при работе с неконтролируемым машинным обучением. При использовании этого подхода нахождение правильного количества кластеров эквивалентно нахождению количества чувств. Достигнутый результат обнадеживает, несмотря на меньшие требования к ресурсам.