VII. Описание процедуры деперсонификации данных годового структурного обследования предприятий
VII. Описание процедуры деперсонификации данных годового
структурного обследования предприятий
Формирование файлов общего пользования осуществляет Росстат.
Формализованное описание решения задачи деперсонификации данных годового структурного обследования предприятий может быть представлено в виде следующей последовательности действий:
анализ исходного файла данных;
предварительная обработка переменных;
выбор и применение методов деперсонификации;
составление краткого описания изменений файла данных.
┌─────────────────────────────────────────────────────────────────────────┐
│1) АНАЛИЗ ИСХОДНОГО ФАЙЛА ДАННЫХ │
├─────────────────────────────────────────────────────────────────────────┤
│ а) Формирование исходного массива микроданных годового структурного│
│ обследования по показателям в соответствии с утвержденным│
│ Росстатом перечнем. │
├─────────────────────────────────────────────────────────────────────────┤
│ б) Определение набора идентифицирующих переменных (прямых,│
│ косвенных). │
├─────────────────────────────────────────────────────────────────────────┤
│ в) Исключение из массива данных отдельных единиц наблюдения, доступ к│
│ данным которых не может быть предоставлен в соответствии с│
│ требованиями по защите государственной тайны. │
├─────────────────────────────────────────────────────────────────────────┤
│2) ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ПЕРЕМЕННЫХ │
├─────────────────────────────────────────────────────────────────────────┤
│ а) Удаление прямых идентификаторов объектов, а также переменных,│
│ которые могут привести к спонтанной идентификации либо к│
│ идентификации на основе сведений из внешних источников. │
├─────────────────────────────────────────────────────────────────────────┤
│ б) Перекодирование основных классификационных признаков по ОКВЭД,│
│ ОКАТО, ОКФС, ОКОПФ в соответствии с политикой в отношении│
│ публикации данных в этих разрезах. │
├─────────────────────────────────────────────────────────────────────────┤
│ в) Сокращение детализации отдельных сильно идентифицирующих численных│
│ переменных, создание соответствующих новых категориальных│
│ переменных. │
├─────────────────────────────────────────────────────────────────────────┤
│ г) Анализ основных статистических характеристик сформированного│
│ массива исходных массива данных, изучение пользовательских│
│ предпочтений для последующего выбора методов деперсонификации и их│
│ параметров. │
├─────────────────────────────────────────────────────────────────────────┤
├─────────────────────────────────────────────────────────────────────────┤
│ а) Выявление небезопасных комбинаций ключевых категориальных│
│ переменных с использованием метода оценки риска на основе ключей│
│ (комбинации ключевых переменных, риск раскрытия которых необходимо│
│ оценить). Пороговое значение задается экспертами. │
├─────────────────────────────────────────────────────────────────────────┤
│ б) Выявление небезопасных комбинаций ключевых переменных, в составе│
│ которых есть численные переменные, с использованием методов оценки│
│ риска на основе алгоритмов кластеризации (комбинации ключевых│
│ переменных, риск раскрытия которых необходимо оценить). Значения│
│ параметров кластерного анализа задаются экспертами (приложение 3).│
├─────────────────────────────────────────────────────────────────────────┤
│4) ВЫБОР И ПРИМЕНЕНИЕ МЕТОДОВ ДЕПЕРСОНИФИКАЦИИ │
├─────────────────────────────────────────────────────────────────────────┤
│ а) Если риск ре-идентификации на основе ключевых категориальных│
│ переменных признается чрезмерным - применение метода глобального│
│ перекодирования для соответствующих ключевых категориальных│
│ переменных. Далее - возврат на предыдущий шаг (процедура оценки│
│ риска на основе ключей). │
├─────────────────────────────────────────────────────────────────────────┤
│ б) Если риск ре-идентификации на основе ключевых категориальных│
│ переменных признается допустимым, за исключением небольшого числа│
│ записей, - принятие решения относительно оставшихся рискованных│
│ комбинаций ключевых переменных (варианты: сохранить в массиве│
│ данных "как есть"; применить перекодирование отдельных значений│
│ категориальных переменных, представленных в рискованных│
│ комбинациях; применить метод кодирования сверху и снизу). │
├─────────────────────────────────────────────────────────────────────────┤
│ в) Если риск ре-идентификации на основе ключевых численных переменных│
│ признается чрезмерным - применение методов модификации данных│
│ (варианты: обмен данными, микроагрегирование, добавление шума) к│
│ соответствующим численным ключевым переменным. Значения параметров│
│ методов модификации, определяющих уровень защиты данных и степень│
│ их искажения, устанавливаются экспертами. Далее - возврат на│
│ предыдущий шаг (процедура оценки риска на основе алгоритмов│
│ кластеризации). │
├─────────────────────────────────────────────────────────────────────────┤
│ г) Если риск ре-идентификации на основе ключевых численных переменных│
│ признается допустимым, за исключением небольшого числа записей, -│
│ принятие решения относительно значений численных ключевых│
│ переменных в оставшихся рискованных комбинациях (варианты:│
│ вменение значений ближайшей кластерной единицы, микроагрегирование│
│ только в хвостах; локальное подавление отдельных значений│
│ переменных либо записи целиком). │
├─────────────────────────────────────────────────────────────────────────┤
│ д) При необходимости обеспечения соответствия ранее опубликованным│
│ данным - корректировка для сохранения суммарных значений отдельных│
│ показателей для каждой комбинации категориальных переменных,│
│ которые предполагается опубликовать. │
├─────────────────────────────────────────────────────────────────────────┤
│ е) При необходимости дополнительной защиты (в зависимости от формы│
│ распределения и статистических характеристик переменных) -│
│ применение метода округления для численных переменных, включенных│
│ в массив, но не признанных идентифицирующими. │
├─────────────────────────────────────────────────────────────────────────┤
│5) ОЦЕНКА КАЧЕСТВА РЕЗУЛЬТАТА │
├─────────────────────────────────────────────────────────────────────────┤
│ а) Контроль обеспечения конфиденциальности данных после проведения│
│ деперсонификации с применением алгоритмов оценки риска. │
├─────────────────────────────────────────────────────────────────────────┤
│ б) Проверка предполагаемых к публикации переменных, которые могут│
│ привести к спонтанной идентификации, экспертами - специалистами по│
│ обследованию. Если таковые будут выявлены - использование│
│ индивидуальных методов защиты. │
├─────────────────────────────────────────────────────────────────────────┤
│ в) Оценка потери информации для численных переменных с│
│ использованием описательных статистик, рассчитанных для│
│ оригинального и модифицированного (защищенного) массива данных, в│
│ том числе: формы распределения переменных; средних значений;│
│ дисперсии; корреляции; ковариации; квантилей переменных и│
│ соотношений переменных и др. │
├─────────────────────────────────────────────────────────────────────────┤
│6) СОСТАВЛЕНИЕ КРАТКОГО ОПИСАНИЯ ИЗМЕНЕНИЙ ФАЙЛА ДАННЫХ │
├─────────────────────────────────────────────────────────────────────────┤
│ а) Указать, какие именно методы, к каким переменным были применены,│
│ но при этом без технических подробностей, которые позволили бы│
│ пользователям восстановить идентифицирующие переменные. │
├─────────────────────────────────────────────────────────────────────────┤
│ б) Сообщить о степени модификации данных в результате использования│
│ методов деперсонификации (предоставить результаты оценки потери│
│ информации). │
└─────────────────────────────────────────────────────────────────────────┘
Схема процедуры формирования защищенного файла микроданных представлена на рис. 2.
- Гражданский кодекс (ГК РФ)
- Жилищный кодекс (ЖК РФ)
- Налоговый кодекс (НК РФ)
- Трудовой кодекс (ТК РФ)
- Уголовный кодекс (УК РФ)
- Бюджетный кодекс (БК РФ)
- Арбитражный процессуальный кодекс
- Конституция РФ
- Земельный кодекс (ЗК РФ)
- Лесной кодекс (ЛК РФ)
- Семейный кодекс (СК РФ)
- Уголовно-исполнительный кодекс
- Уголовно-процессуальный кодекс
- Производственный календарь на 2025 год
- МРОТ 2025
- ФЗ «О банкротстве»
- О защите прав потребителей (ЗОЗПП)
- Об исполнительном производстве
- О персональных данных
- О налогах на имущество физических лиц
- О средствах массовой информации
- Производственный календарь на 2026 год
- Федеральный закон "О полиции" N 3-ФЗ
- Расходы организации ПБУ 10/99
- Минимальный размер оплаты труда (МРОТ)
- Календарь бухгалтера на 2025 год
- Частичная мобилизация: обзор новостей
- Постановление Правительства РФ N 1875