ivdon3@bk.ru
В статье предложен алгоритм распознавания синтезированной речи на основе вычисления энтропии аудиосигнала. Актуальность работы обусловлена ростом случаев неправомерного использования синтезированной речи, которая становится практически неотличимой от естественной. Результаты показали, что энтропия синтезированной речи значительно выше, а алгоритм устойчив к потерям данных. Преимуществами алгоритма являются простота интерпретации и невысокая вычислительная сложность. Эксперименты проведены на датасете CMU ARCTIC с использованием модели XTTS v.2. Предложенный алгоритм позволяет принять решение о наличии синтезированной речи без необходимости применения сложных методов спектрального анализа и машинного обучения.
Ключевые слова: синтезированная речь, спуффинг, энтропия Шэннона, распознавание речи
1.2.2 - Математическое моделирование, численные методы и комплексы программ , 2.3.1 - Системный анализ, управление и обработка информации