ivdon3@bk.ru
В настоящем исследовании представлена методика предварительной обработки последовательностей данных, направленная на выявление и группировку различных файлов данных для последующего использования при обучении нейронных сетей. Предложен алгоритм сравнения файлов на основе относительного отклонения значений признаков с учётом граничных случаев (нулевые и близкие к нулю значения). Реализация включает параллельную обработку для повышения производительности и генерацию детализированных отчётов. Метод протестирован на наборе данных, содержащем 10000 файлов с показателями химического процесса в лабораторном реакторе. Результаты показывают эффективность метода в выявлении стационарных участков и формировании сбалансированных обучающих выборок.
Ключевые слова: предобработка данных, относительное отклонение, машинное обучение, параллельные вычисления, группировка файлов, вычислительная гидродинамика, химический реактор
1.2.2 - Математическое моделирование, численные методы и комплексы программ , 1.4.12 - Нефтехимия