Валидация агрегированных данных

Валидация в общем смысле означает приведения доказательств того, что требования конкретного пользователя, продукта, услуги или системы удовлетворены.

Перед публикацией результатов статистического наблюдения проводится процесс валидации данных путем сравнения их с результатами предыдущего наблюдения и сопоставления с внешними источниками. Это могут быть внутренние статистические источники, внешние источники-организации или административные источники. Возможные различия должны быть обоснованы и задокументированы. Например, в рамках процесса валидации в обследованиях домашних хозяйств осуществляется процедуры контроля регламентных таблиц, полученных с федерального уровня, которые включают:

приемку и администрирование первичного информационного фонда и региональных регламентных таблиц;

формирование (на основе слияния региональных регламентных таблиц) регламентных таблиц в целом по России;

контроль информации, содержащейся в регламентных таблицах регионального и федерального уровня;

при обнаружении ошибочных данных - формирование запросов на корректировку, получение новой версии региональных регламентных таблиц и их переформирование в целом по Российской Федерации.

Если это возможно, следует контролировать согласованность результатов относительно соотношений, которые можно считать практически постоянными или незначительно измененными в течение краткосрочного периода (например, некоторые демографические коэффициенты). Возможные различия должны быть обоснованы и задокументированы.

В ряде случаев целесообразно задействовать внутренних или внешних экспертов в области валидации, которые непосредственно не участвуют в процессе производства данных, при этом конфиденциальность первичных статистических данных должна быть гарантирована.

На этапе валидации показатели качества, такие как, например, частота ошибок, связанных с охватом, процент ответивших и коэффициент вариации оценок, следует систематически анализировать и сравнивать с ожидаемыми уровнями этих показателей. При значительных отклонениях должно быть обоснованно принятие корректирующих действий, таких как отслеживание неответивших единиц и интеграция с данными из административных источников. Наконец, контроль наблюдения или специальные измерения должны регулярно проводиться для оценки различных компонентов систематических ошибок (например, ошибки, связанные с неответами, и "эффект интервьюера").

Специальный анализ, а также расчет показателей качества (при наличии таковых) направлены, в первую очередь, на обеспечение качества публикуемых статистических данных, а затем на оценку возможности принятия мер по улучшению качества статистических данных при последующих наблюдениях.