ivdon3@bk.ru
Статья посвящена преодолению ключевого ограничения классического метода TF-IDF — его неспособности учитывать семантические связи между терминами, что приводит к формированию структурно четких, но семантически некогерентных тем в задачах тематического моделирования. Авторами предложен новый метод — TF-IDF с контекстуальным размытием, который обогащает векторное представление документов за счет учета семантической близости терминов на основе графа их совместной встречаемости. Апробация метода на корпусе новостных текстов из узкоспециализированной области атомной энергетики показала его эффективность: при незначительном снижении формальных метрик структурного качества кластеризации метод радикально повышает семантическую когерентность и интерпретируемость выделяемых тем. Данный подход позволяет перейти от статистической группировки к извлечению семантически целостных тематических структур, что критически важно для анализа специализированных текстовых данных.
Ключевые слова: тематическое моделирование, латентное размещение Дирихле, TF-IDF, контекстуальное размытие, семантическая близость, совместная встречаемость, векторизация текста, модель «мешка слов», тематическая когерентность, обработка естественного языка