Редактирование и импутация данных

Этап редактирования собранных первичных данных - неотъемлемая часть системы управления проведением статистического наблюдения, который в обязательном порядке предусматривается при планировании федерального статистического наблюдения.

Еще до начала редактирования при проведении некоторых обследований, таких как обследования домашних хозяйств, выполняется техническое рассмотрение, под которым понимается процесс выполнения дополнительных процедур контроля первичного информационного фонда для повышения статистической надежности и достижения наиболее полного статистического согласования итоговых статистических данных между показателями "внутри обследования" и между показателями обследования и показателями из внешних источников.

Редактирование преследует триединую цель: 1) создание основы для усовершенствования процессов проведения наблюдений; 2) обеспечение информацией по качеству данных наблюдения; 3) корректировка данных.

Редактирование и замещение данных должно осуществляться с помощью специализированного или стандартного программного обеспечения.

Стратегия редактирования должна быть выстроена с учетом выделения большего объема ресурсов на устранение наиболее серьезных ошибок и на наиболее важные единицы и переменные. Способы и инструменты редактирования и замещения должны выбираться с учетом статистической теории, имеющихся практик по аналогичным статистическим данным, специальных указаний, стандартов или рекомендаций, разработанных на национальном или международном уровнях. Иными словами, они должны базироваться на научно обоснованной методологии, утвержденной соответствующими нормативно-правовыми документами в установленном порядке. Различные этапы стратегии редактирования и замещения статистических данных должны периодически оцениваться с помощью моделирования или экспериментов, чтобы либо подтвердить их обоснованность, либо внести необходимые изменения.

Процесс редактирования статистических данных включает три этапа: оценку состоятельности заранее определенных правил редактирования; проверку данных на предмет удовлетворения всем правилам редактирования; замещение или импутацию данных, не удовлетворяющих правилам редактирования.

В процессе редактирования осуществляются следующие виды проверок:

проверка на наличие "выбросов" - нетипичных единиц и значений;

сверка с контрольными данными;

выявление пропущенных данных;

проверка согласованности данных;

проверка на наличие ошибочных значений.

В случае обнаружения ошибочных, противоречивых и отсутствующих ответов значений производится замещение этих данных другими приемлемыми значениями в ручном или автоматическом режиме по согласованию с респондентами или с использованием методов импутации.

Процесс импутации - это замещение ошибочных, противоречивых и отсутствующих ответов в процессе редактирования данных другими ответами - значениями показателей. Стратегия проведения импутации определяется заранее при подготовке методологии проведения статистического наблюдения.

Доступ к вспомогательной информации существенно повышает качество проводимой импутации. Процесс импутации может быть автоматизированным, ручным или являться комбинацией этих двух способов. Редактирование и импутация могут осуществляться: в интерактивном режиме по отдельной единице сбора данных; методами пакетной обработки в ходе специальных редакторских "прогонов" данных с использованием специально разработанного программного обеспечения; с использованием комбинации вышеперечисленных методов.

В ходе выполнения программы редактирования и импутации производится:

обнаружение и обработка ошибочных и пропущенных значений в данных в соответствии с выбранными методами, заданными правилами и параметрами редактирования и импутации;

формирование описаний с результатами, признаками и характеристиками импутации.

Выходные импутированные данные, помимо первоначальной информации, должны содержать:

дополнительные выходные переменные, позволяющие оценить качество проведенной импутации;

"флаги импутации" (импутированные данные, помеченные специальной отметкой), что позволит в случае наличия ошибочных и пропущенных значений идентифицировать импутированное значение.

При проведении обследований домашних хозяйств в случае обнаружения ошибочных и противоречивых ответов значений направляются запросы на территориальный уровень для уточнения данных с интервьюерами (или респондентами). В случае необходимости внесения уточнений производится замещение этих данных в ручном или автоматическом режиме. В случае обнаружения отсутствующих ответов в данных обследований производится замещение этих данных другими приемлемыми значениями в ручном или автоматическом режиме с использованием методов импутации.

В целях оценки различных подэтапов процесса редактирования и замещения статистических данных сохраняются как оригинальные, так и замещенные значения на различных этапах процедуры. Непрямая оценка различных этапов процедуры должна быть выполнена путем расчета показателей по количеству внесенных изменений и показателей изменений в распределении показателей, представляющих интерес.

Информация, полученная в ходе процедур редактирования и замещения статистических данных, используется для выявления потенциальных проблем на ранних стадиях процесса статистического производства (например, из-за недоработок в форме статистического наблюдения) и может дать представление об основных источниках ошибок. Эта информация должна быть проанализирована и использована для улучшения последующих случаев наблюдения.

Все этапы стратегии по выявлению и устранению ошибок в процессе сбора данных должны быть надлежащим образом задокументированы.