ivdon3@bk.ru
В статье формируется задача иерархической классификации текстов, описываются подходы к иерархической классификации и метрики оценки их работы, подробно рассматривается локальный подход к иерархической классификации, описываются разные подходы к локальной иерархической классификации, проводится серия экспериментов по обучению локальных иерархических классификаторов с различными методами векторизации, сравниваются результаты оценки работы обученных классификаторов.
Ключевые слова: классификация, иерархическая классификация, локальная классификация, иерархическая точность, иерархическая полнота, иерархическая F-мера, обработка естественного языка, векторизация
В статье представлены существующие методы уменьшения размерности данных для обучения машинных моделей естественного языка. Вводятся понятия векторизации текста и слоформенного эмбеддинга. Формируется задача классификации текста. Формируются этапы обучения классификатора. Проектируется классифицирующая нейронная сеть. Проводится серия экспериментов на определение влияния уменьшения размерности словоформенных эмбеддингов на качество классификации текста. Сравниваются результаты оценки работы обученных классификаторов.
Ключевые слова: обработка естественного языка, векторизация, словоформенный эмбеддинг, классификация текста, уменьшение размерности данных, классификатор
В статье представлено краткое описание существующих методов векторизации текстов на естественном языке. Описывается оценка методом определения похожести слов. Проводится сравнительный анализ работы нескольких моделей векторизаторов. Описывается процесс подбора данных для оценки. Сравниваются результаты оценки работы моделей.
Ключевые слова: обработка естественного языка, векторизация, словоформенный эмбеддинг, семантическая близость, корреляция