×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

Методика восстановления пропусков в социально-экономических данных на основе нечеткой формализации

Аннотация

А.С. Аль-Катабери, М.В. Щербаков, В.А. Камаев

В статье рассматривается проблема восстановления пропусков в социально-экономических данных. Используются коннективистские принципы описания многоуровневых связей между социально-экономическими объектами для восстановления пропусков в данных. Предложен нечеткий метод заполнения пропусков в данных социально-экономических параметров на основе анализа и формализации в терминах нечеткой логики взаимосвязей между параметрами аналогичного типа в других объектах сети. Для обоснования эффективности показан пример реализации метода на данных о сельских поселениях Волгоградской области.
Ключевые слова: социально-экономические параметры, пропуски в данных, нечеткая логика, восстановление данных.

Ключевые слова:

05.13.01 - Системный анализ, управление и обработка информации (по отраслям)

Введение. Для решения задачи оптимального управления сложными системами , такими как социально-экономические объекты  (муниципальные образования, товарищества самоуправления и проч.) требуется оперативное наблюдение за характеристиками [1, 2]. Как правило, системы мониторинга соц. экономических объектов осуществляет сбор информации в разрезе различных групп параметров. В частности в паспортах муниципальных образований число групп превышает 25, а общее число параметров превышает 700 [3, 4]. При этом, можно выделить различные степени ответственности, механизмы сбора и консолидации данных и степень автоматизации этого процесса. Если этап агрегации данных не автоматизирован, что является распространенной проблемой, то значительно увеличивается время на обработку и число ошибок. К примеру на рис 1. отображены результаты анализа одного из паспорта МО и отмечено число пропусков в данных для различных групп параметров.
Для некоторых групп пропуски в данных составляют 100%. Безусловно, такая ситуация является неблагоприятной для дальнейшего анализа данных. Можно выделить два решения такой проблемы. Первое связано с принудительным уточнением информации у руководителей или ответственных лиц. В этом случае опять критичным является критерий времени. Если же необходимо быстро принять оценочное решение, то в качестве решения проблемы может быть восстановление пропусков в данных с использованием аналитических моделей, моделей дата майнинга.

 


Рисунок 1. Результаты анализа пропусков в данных в паспортах муниципальных образований, полученных для 22 различных групп параметров. В группах 13 и 18 – 100% пропуски в данных.

В статье предлагается оригинальный подход восстановления пропусков в данных, основанный на наличии закономерностей между значениями показателей одного и того же типов в различных муниципальных образованиях и подходах нечеткой логики [5, 6, 7]. Если требуется получить предварительную оценку (или интервал значений), то предлагается использовать положения нечеткой логики. Для вычисления конечного результата, определяется расстояние между анализируемым объектом и объектами, влияющими на него.

Постановка задачи. Пусть имеется множество S социально-экономических объектов , которое удобно представить в виде гиперграфа , где R – ребра, охватывающие объекты и характеризующие связи между ними (например, принадлежность к одному и тому же региону). Каждый объект ,  также можно представить в виде гиперграфа 2-го уровня: , где ,  – переменные, характеризующие объект ,  – ребра, определяющие взаимосвязи между переменными в узле ,  (например, зависимость рождаемости от показателей экономического развития муниципального образования). Каждая переменная может быть определенного типа P и число типов конечное. Пусть имеется некоторый объект  и имеющий набор переменных  в котором существует хотя бы одна переменная  для которой в некоторые временные отсчеты отсутствуют данные, т.е. имеются пропуски. Требуется разработать некоторый механизм , который бы позволил на основе связей между параметрами и объектами, т.е. на основании гиперграфов заполнять пропуски с эффективностью .

Метод. Рассмотрим метод формирования механизма .
Шаг 1. Определим подмножество , состоящее из объектов, охватываемых набором ребер  из  , включающих объект .
Шаг 2. Определить подмножество  , состоящее из объектов, имеющие вершины, аналогичного типа как и вершина  и определить  – подмножество таких вершин. Считаем что для каждой вершины из  определены минимальное и максимальное значения.
Шаг 3. Определить  – число нечетких множеств для переменных из . Положим, что функция принадлежности  представляет собой гауссовскую функцию , где  – параметр, определяющий центр класса нечеткого множества,  – параметр, определяющий «ширину» гауссовской кривой. Считаем, что .
Шаг 4. Для каждой вершины  
4.1 определить множества центров классов  и параметров ширины гауссовской кривой  для каждого нечеткого множества из, при этом  и .
4.2 определить последовательность нечетких переменных для каждого момента времени t, посредством вычисления функции принадлежности и выборы наиболее близкого нечеткого множества полученному значению.
Шаг 5. Выполнить подсчет различных вариантов образовавшихся последовательностей . Обозначить это число d.
Шаг 6. Определить вариант последовательности  для анализируемой переменной  с помощью процедуры максимального правдоподобия, если .
Шаг 7. Заполнить последовательность  для  на основе определенных на 4.2 последовательной того же варианта.

Шаг 8. Осуществить деффазификацию последовательности  для

Испытание. Рассмотрим использование метода для восстановления пропусков в данных паспортов муниципальных образований Быковского муниципального района Волгоградской области. Информация взята с официального сайта Федеральной службы статистики [8]. В Быковском районе 13 сельских поселений, одно из которых было выбрано с целью восстановления данных. Без потери общности, считаем, что каждый объект имеет только одну переменную одного и того же типа, например доходность местного бюджета за календарный год (в тыс. рублей). Для испытания метода, пропуски были внесены в данные одного из поселений в 2008 и 2009 годах. В качестве базового метода заполнения пропусков, как правило, используется расчет среднего показателя. Если имеются, экспертные оценки, то формируются поправки этих значений. Для расчета эффективности использовался показатель абсолютной процентной ошибки:  , где  – реальное значение, – восстановленное . Число нечетких переменных было определено равным 5. Для упрощения вычислений при дефаззификации использовался центр класса нечеткого множества в сформированной последовательности. Исходные данные, данные с пропусками для Красносельцевское сельского поседения, а также результаты восстановления усредненными значениями и предложенным методом, представлены в таблице 1.

Таблица 1. Исходные данные и результаты восстановления пропусков

 

2006

2007

2008

2009

2010

E, %

Исходные данные

1622

3406

4484

5568

6506

-

Данные с пропусками

1622

3406

X

X

6506

-

Метод среднего

1622

3406

3845

3845

6506

22,60%

Предложенный метод

1622

3406

4439

5167

6506

4,10%

Заключение. В статье предложен нечеткий метод заполнения пропусков в данных социально-экономических параметров на основе анализа и формализации в терминах нечеткой логики взаимосвязей между параметрами аналогичного типа в других объектах сети. Рассмотрен пример реализации подхода на восстановлении данных в паспортах муниципальных образований Волгоградской области для параметра поступления в бюджет. Отметим, что целесообразно рассмотреть различные подходы к формированию искомой последовательности нечетких множеств с учетом анализа отклонений от центра классов и комбинации различных последовательностей.

Список литературы
1.Камаев В. А. , Щербаков М. В., Аль-Катабери А. С., Анализ социально-экономического развития муниципальных образований на примере Волгоградской области с использованием моделей data mining// Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2010. Т. 6. № 8. С. 103-106.
2.Щербаков, М.В. Формализация процесса социально-экономического развития муниципальных образований в виде распределённой модели / М.В. Щербаков, А.С. Аль-Катабери // Инновационные технологии в управлении, образовании, промышленности "АСТИНТЕХ-2009": матер. междунар. науч. конф. (11-14 мая 2009 г.) / Астраханский гос. ун-т [и др.]. - Астрахань, 2009. - C. 87-88.
3.Щербаков, М. В. Формализация информации о социально-экономическом развитии муниципальных образований для решения задач управления/М. В. Щербаков, А. С. Аль-Катабери//XII Международная конференция «Проблемы управления и моделирования в сложных системах», 22-24 июня 2009 г.: тез. докл./РАН. -Самара, 2009. -С. 532-535.
4.Щербаков, М.В., Аль-Катабери, А.С. Построение модели муниципального образования на основе системной динамики / А.С. Аль-Катабери, М.В. Щербаков // Инновационные технологии в обучении и производстве: матер. V всерос. н.-пр. конф., Камышин, 4-6 дек. 2008 г. В 3 т. Т. 2 / КТИ (филиал) ВолгГТУ [и др.]. - Камышин, 2008. - C. 115-117.
5.Применение нечётких темпоральных высказываний для описания движений при эмоциональных реакциях / А.В. Заболеева-Зотова, Ю.А. Орлова, В.Л. Розалиев, А.С. Бобков // Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах". Вып. 10: межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2011. - № 3. - C. 60-64.
6.Щербаков, М.В. Проблемы проектирования систем прогнозирования эксплуатационного состояния автомобильных дорог на основе нечётких нейронных сетей / М.В. Щербаков, Д.А. Скоробогатченко, А.А. Авдеев, М.А. Аль-Гунаид // Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах". Вып. 10: межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2011. - № 3. - C. 82-87.
7.Камаев, В.А. Применение нечётких нейросетевых моделей для идентификации состояния автомобильных дорог / В.А. Камаев, М.В. Щербаков, Д.А. Скоробогатченко // Вестник компьютерных и информационных технологий. - 2010. - № 12. - C. 36-41.
8.Федеральная служба статистики. Паспорт муниципального образования. Волгоградская область http://www.gks.ru/scripts/ db_inet2/passport/munr.aspx?base=munst18  Режим доступа [11.11.2011]