×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

8 908 511 35 70
ivdon3@bk.ru

Контекстуально-диффузионный метод обогащения TF-IDF матрицы для целей повышения семантической когерентности тематических моделей корпусов новостных текстов

Аннотация

Родионов Д.Г., Конников Е.А., Голиков Г.И.

Дата поступления статьи: 27.07.2025

Статья посвящена преодолению ключевого ограничения классического метода TF-IDF — его неспособности учитывать семантические связи между терминами, что приводит к формированию структурно четких, но семантически некогерентных тем в задачах тематического моделирования. Авторами предложен новый метод — TF-IDF с контекстуальным размытием, который обогащает векторное представление документов за счет учета семантической близости терминов на основе графа их совместной встречаемости. Апробация метода на корпусе новостных текстов из узкоспециализированной области атомной энергетики показала его эффективность: при незначительном снижении формальных метрик структурного качества кластеризации метод радикально повышает семантическую когерентность и интерпретируемость выделяемых тем. Данный подход позволяет перейти от статистической группировки к извлечению семантически целостных тематических структур, что критически важно для анализа специализированных текстовых данных.

Ключевые слова: тематическое моделирование, латентное размещение Дирихле, TF-IDF, контекстуальное размытие, семантическая близость, совместная встречаемость, векторизация текста, модель «мешка слов», тематическая когерентность, обработка естественного языка

2.3.1 - Системный анализ, управление и обработка информации