ivdon3@bk.ru
В статье представлен гибридный подход к распознаванию действий человека, сочетающий нейросетевое извлечение скелетных признаков с детерминированным геометрическим анализом на основе векторной алгебры и аффинных преобразований. Проведен обзор исследований по данной проблематике. В отличие от традиционных решений, требующих повторного обучения модели при добавлении нового действия, предложенная система позволяет пользователю динамически задавать и модифицировать набор распознаваемых действий без участия специалиста в области машинного обучения. Каждое действие определяется как последовательность поз, описываемых взаимным расположением ключевых точек тела. Сравнение текущей и эталонной поз осуществляется через косинусное сходство векторов, а устойчивость к изменениям ракурса обеспечивается за счёт трёхмерных аффинных преобразований. Программное обеспечение реализовано на языке Python с использованием фреймворков MediaPipe и OpenCV, имеет интуитивно понятный графический интерфейс и работает с обычной веб-камерой. Экспериментальная апробация подтвердила корректность распознавания заданных действий с точностью не ниже 85 % в условиях естественного выполнения. Решение ориентировано на применение в системах управления поведением в организационных средах, где важны гибкость настройки, интерпретируемость и низкий порог вхождения.
Ключевые слова: распознавание действий человека, векторная алгебра, аффинные преобразования, гибридная модель, управление поведением, человеко-машинные интерфейсы