I. Основные понятия и определения

Все приведенные в настоящем разделе понятия и определения используются только в целях настоящих Методологических положений.

Микроданные - набор единичных записей об индивидуальном объекте (респонденте), каждая из которых содержит набор переменных (показателей) в отношении данного объекта. Четыре категории переменных (необязательно являются непересекающимися):

прямые идентификаторы,

косвенные идентификаторы,

конфиденциальные переменные,

неконфиденциальные переменные.

Деперсонификация микроданных (анонимизация микроданных) - процедура защиты (маскировки) конфиденциальных данных от раскрытия с применением определенных методов.

Ре-идентификация - происходит, когда на основе сравнения значений идентифицирующих переменных единица i' из внешнего файла определена как соответствующая единице i в массиве микроданных, и установлено, что данная связь является корректной.

Категориальные переменные (данные) - переменные, принимающие значения из некоторого ограниченного набора категорий, связанных с неисчисляемыми признаками, такими как названия (товаров, услуг и др.), выходные переменные в классификационных моделях (метки классов).

Количественные (численные) переменные (данные) - переменные, которые регистрируются с помощью чисел, имеющих содержательный смысл.

С количественными переменными можно выполнять все обычные операции над числами, такие как вычисление среднего и др.

Выделяют два типа количественных переменных: дискретные и непрерывные.

Дискретная - это переменная, которая может принимать значения только строго определенные значения из некоторого списка определенных значений, например, целочисленные.

В отличие от дискретных переменных непрерывные переменные могут принимать любое значение в пределах определенного числового интервала. Исчисления производятся только с непрерывными переменными.

Прямые идентификаторы - переменные, которые однозначно идентифицируют респондента. Например: регистрационный код организации, ее наименование, адрес и т.п.

Косвенные идентификаторы (ключевые переменные) - переменные, которые идентифицируют респондента с той или иной степенью неопределенности. Тем не менее, комбинация косвенных идентификаторов может дать однозначную идентификацию. Например: вид экономической деятельности, населенный пункт, численность работников.

Конфиденциальные переменные - переменные, которые содержат деликатную информацию о респонденте. Например: объем производства, финансовые показатели деятельности организации.

Неконфиденциальные переменные - переменные, которые не относятся ни к одной из вышеперечисленных категорий.

Модификация данных - искажение массива микроданных перед тем, как предоставить к нему доступ.

Сокращение данных - частичная фильтрация (удаление) данных или снижение уровня детализации исходного массива данных.

Абсолютно анонимные микроданные - статистические данные, обработанные методами контроля раскрытия статистической информации путем удаления отдельных переменных и модификации данных до такой степени, что идентификация респондентов является невозможной.

Де-факто анонимные микроданные.

Микроданные являются де-факто анонимными, если нельзя полностью исключить раскрытие конфиденциальных данных, но это может произойти только вследствие чрезмерно затраченного времени, вложения значительных средств и людских ресурсов. Де-факто анонимность микроданных зависит не только от объема сохранившейся в данных информации, но и от возможностей, существующих для идентификации объекта статистического наблюдения. Решающее значение имеет наличие дополнительных знаний об индивидуальном объекте и то, каким образом эти данные используются.

Формально обезличенные микроданные - удаление прямых идентификаторов объекта, при этом косвенные идентификаторы (например, виды экономической деятельности, территориальная принадлежность), а также наблюдаемые переменные в основном сохраняются.

Риск и полезность

Методы и решения в области контроля раскрытия статистической информации для минимизации риска раскрытия должны обеспечивать максимальную полезность статистических данных. Задача заключается в том, чтобы найти разумный баланс: сохранить полезность информации и при этом обеспечить, чтобы риск раскрытия не превышал максимально допустимого уровня.

Годовое структурное обследование - федеральное статистическое наблюдение по форме N 1-предприятие "Основные сведения о деятельности организации". Проводится Федеральной службой государственной статистики ежегодно. Обследованию подлежат юридические лица всех форм собственности, являющиеся коммерческими организациями, а также некоммерческие организации, осуществляющие производство товаров и услуг для продажи на сторону (кроме субъектов малого предпринимательства, бюджетных организаций, банков, страховых и прочих финансовых и кредитных организаций).