ivdon3@bk.ru
Статья посвящена преодолению ключевого ограничения классического метода TF-IDF — его неспособности учитывать семантические связи между терминами, что приводит к формированию структурно четких, но семантически некогерентных тем в задачах тематического моделирования. Авторами предложен новый метод — TF-IDF с контекстуальным размытием, который обогащает векторное представление документов за счет учета семантической близости терминов на основе графа их совместной встречаемости. Апробация метода на корпусе новостных текстов из узкоспециализированной области атомной энергетики показала его эффективность: при незначительном снижении формальных метрик структурного качества кластеризации метод радикально повышает семантическую когерентность и интерпретируемость выделяемых тем. Данный подход позволяет перейти от статистической группировки к извлечению семантически целостных тематических структур, что критически важно для анализа специализированных текстовых данных.
Ключевые слова: тематическое моделирование, латентное размещение Дирихле, TF-IDF, контекстуальное размытие, семантическая близость, совместная встречаемость, векторизация текста, модель «мешка слов», тематическая когерентность, обработка естественного языка
Статья посвящена описанию и математическому обоснованию U-образного распределения долей тем, возникающего в модели латентного размещения Дирихле при симметричных гиперпараметрах. Показано, что бимодальная форма обусловлена сведением Дирихле-вектора к бета-распределению, что делает традиционные одномодальные аппроксимации некорректными. Предложена составная вероятностная модель, объединяющая бета-, гамма- и пуассоновские компоненты, а также ковариационный учёт семантической связности. Параметры модели определяются методом дифференциальной эволюции по критерию, включающему расстояние Васерштейна и дивергенции Дженсена–Шеннона и Кульбака–Лейблера. На корпусе текстов информационного поля Госкорпорации «Росатом» установлено, что новая модель точнее логнормальной, Парето, экспоненциальной и нормальной аппроксимаций, позволяя надёжно характеризовать тематические потоки и поддерживать решения в задачах мониторинга больших текстовых данных.
Ключевые слова: системный анализ, латентное размещение Дирихле, тематическое моделирование, латентное размещение Дирихле, интенсивность тематического сигнала, бета-распределение, гамма-распределение, пуассоновский процесс, дивергенция Дженсена–Шеннона