V. Формирование интегрированного информационного фонда для разработки показателей бизнес-демографии

V. Формирование интегрированного информационного фонда

для разработки показателей бизнес-демографии

В целях создания информационной основы для разработки показателей бизнес-демографии формируется специальный интегрированный информационный фонд "Демография" - далее ИИФ "Демография".

Входной информацией для ИИФ "Демография" являются данные Статистического регистра хозяйствующих субъектов (Статрегистр Росстата), являющегося базой данных обо всех хозяйствующих субъектах, прошедших государственную регистрацию на территории Российской Федерации.

В рамках данной работы используются:

БД "Юридические лица", относящаяся к административной части Статрегистра;

фиксированная (на 1 января года, следующего за отчетным) БД "Генеральная совокупность объектов статистического наблюдения" (БД ГС), являющаяся статистической частью Статрегистра за последние 6 лет.

В качестве входной информации применяются следующие переменные Статрегистра:

код ОКПО;

код ОКАТО (юридическое);

код ОКТМО;

код ОКФС;

код ОКОПФ;

код ОКВЭД (основной);

тип предприятия;

средняя численность работников;

выручка, тысяч рублей;

оборот, тысяч рублей;

коды служебных признаков;

тип объекта ГС;

дата регистрации предприятия;

дата регистрации изменений;

признак способа образования юридического лица;

признак способа ликвидации.

На основе входной пообъектной информации в ИИФ "Демография" производится расчет вспомогательных переменных для моделирования и импутации пропущенных данных в полях "Средняя численность работников" и "Оборот" БД ГС, являющихся основными переменными для определения быстрорастущих и угасающих предприятий:

возраст предприятия;

группа предприятия в зависимости от средней численности работников в отчетном году;

статус предприятия по признаку экономической активности.

По всем предприятиям, признанным активными, осуществляется заполнение пропусков в данных методом импутации.

При осуществлении процедур импутации пропущенных пообъектных данных о средней численности работников и объеме оборота используется обучающая выборка предприятий (оценочные данные), формируемая на основе данных хозяйствующих субъектов, представивших информацию о себе в полном объеме.

Обучающая выборка используется для настройки (оптимизации параметров) модели зависимости импутируемой переменной от фиктивных (код ОКФС, код ОКОПФ, код ОКВЭД) и количественных (выручка, выпуск, возраст предприятия, год регистрации предприятия, год регистрации изменений на предприятии) переменных информационного фонда.

При импутации данных о средней численности работников к данным обучающей выборки с помощью средств SPSS применяется метод дискриминантного анализа, целью которого является построение пошаговой модели, предсказывающей для изучаемого признака, к какой из групп относится заданная единица наблюдения, исходя из набора значений предсказывающих переменных.

Ядром дискриминантного анализа является построение дискриминантной функции:

D = b1 · x1 + b2 · x2 + ... + bn · xn + a, (1)

где:

x1...xn - значения независимых переменных (предикторов);

b1...bn и a - коэффициенты, определяемые с помощью линейного дискриминанта по Фишеру в рамках процедуры "дискриминантный анализ" в программе SPSS.

Выбранные в результате процедур коэффициенты должны позволять по значениям дискриминантной функции с максимальной точностью предсказывать отнесение единицы наблюдения к определенной группе.

На первом этапе работы в программе SPSS в качестве зависимой переменной задается группирующая переменная с взаимоисключающими значениями (grupkolrab) и определяется набор предсказывающих переменных (предикторов).

Затем выбирается метод оценки коэффициентов и задаются параметры дискриминантной функции.

По полученным результатам классификации принимается решение по поводу возможного расширения (или наоборот сужения) набора предикторов, рассматриваются неверно классифицированные наблюдения, осуществляется проверка качества построенной дискриминантной функции (т.е. оцениваются коэффициенты дискриминантной функции, определяются ее статистические значимость на основе коэффициента детерминации и состоятельность).

Построенная дискриминантная функция, при условии значимости ее параметров и коэффициента детерминации, используется в качестве модели, позволяющей с известной долей вероятности предсказать отнесение предприятия с пропущенным значением показателя к определенной группе предприятий с численностью персонала в установленном интервале.

На последнем шаге осуществляется обратный переход от предсказанных групп к количественным данным о численности. Если отчетные данные о численности персонала для активного предприятия отсутствовали, то значение показателя принимается равным наиболее вероятному (модальному) значению признака численности внутри соответствующей группы предприятий по обучающей выборке.

При импутации пропущенных данных об объеме оборота хозяйствующих субъектов по данным обучающей выборки с помощью программы SPSS пошаговым методом (step-by-step) строятся модели множественного линейного регрессионного анализа, целью которого является исследование линейной зависимости результативного признака (оборота хозяйствующих субъектов) от факторных признаков - количественных переменных информационного фонда (выручка, выпуск, возраст предприятия).

Линейная модель множественной регрессии выглядит следующим образом:

Рисунок 7

где:

Рисунок 8 - свободный член, определяющий значение y в случае, когда все объясняющие переменные равны нулю;

Рисунок 9 - коэффициенты, равные частным производным результативного признака y по соответствующим факторам:

Рисунок 10

Рисунок 11 - случайная ошибка регрессионной зависимости.

Стандартная пошаговая процедура "включений с исключениями", базирующаяся на идее метода наименьших квадратов, позволяет с заданной надежностью выбрать наилучшую модель с наиболее оптимальной структурой.

Включение и исключение переменных в модель осуществляется с использованием t-критерия для проверки равенства нулю частного коэффициента корреляции. Выбор первой переменной для включения в модель осуществляется для признака x1, который имеет наибольший по абсолютной величине коэффициент парной корреляции. Процесс расширения количества переменных модели повторяется многократно, пока статистическая значимость включения очередного признака по F-критерию на каждом шаге превышает заданный порог Fо (первоначально заданное исследователем пороговое значение). После очередного расширения модели анализируется взаимная коррелированность отобранных переменных и, если их взаимосвязь существенна, то лишние факторы, вносящие наименьший вклад, из модели исключаются. Более точно, исключению подлежат те переменные, для которых вычисленное значение частного F-критерия меньше Fо. Вычисления прекращаются, когда все значимые переменные отобраны.

По построенным моделям оцениваются коэффициенты многомерных функций регрессии и определяются их статистические значимость и состоятельность. Наилучшая построенная модель множественной регрессии используется в качестве модели, позволяющей оценить пропущенные пообъектные значения показателей оборота организации.

Все предсказанные и импутированные переменные включаются в ИИФ "Демография" в целях использования при оценке демографических событий в хозяйствующих субъектах.

Временно исполняющий

обязанности начальника Управления

статистики предприятий

Л.В.ПРОЗОРИНА