МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ АНОМАЛИЙ В УНИВЕРСИТЕТСКИХ ДАННЫХ
DOI:
https://doi.org/10.56525/8w3jgv24Ключевые слова:
машинное обучение, обнаружение аномалий, университетские данные, изоляционный лес, автоэнкодер, LOF, алгоритмы классификацииАннотация
Настоящая статья посвящена разработке и комплексному анализу методов машинного обучения, применяемых для автоматического обнаружения аномалий в университетских данных.
Актуальность исследования обусловлена стремительным ростом объёмов цифровых данных в академической среде, а также необходимостью оперативного выявления нетипичных паттернов поведения, способных свидетельствовать об академической нечестности, неточности логов сетевого трафика или угрозах информационной безопасности.
В работе систематизированы теоретические основы обнаружения аномалий, включая классификацию аномалий по типам (точечные, контекстуальные, коллективные) и обзор существующих подходов к их выявлению. Подробно изложен математический аппарат трёх ключевых алгоритмов: метода изоляционного леса (Isolation Forest), основанного на случайном разбиении пространства признаков; нейросетевого подхода на базе автоэнкодеров, использующего ошибку реконструкции в качестве меры аномальности; а также алгоритма локального фактора выброса (Local Outlier Factor, LOF), оценивающего степень отклонения объекта относительно его локального окружения.
Экспериментальные исследования проводились на реальных университетских данных, охватывающих академическую успеваемость, посещаемость, активность в LMS-системах и проходящий сетевой трафик. Предложен комплексный ансамблевый подход, интегрирующий результаты всех трёх алгоритмов на основе взвешенного голосования. Проведена сравнительная оценка методов по метрикам Precision, Recall и F1-score. Результаты демонстрируют высокую точность обнаружения аномалий при минимальном уровне ложных срабатываний, что подтверждает практическую применимость предложенного подхода в условиях реальной университетской среды.




