VI. Полезность и конфиденциальность. Показатели потери информации

VI. Полезность и конфиденциальность. Показатели

потери информации

Все методы защиты информации неизбежно ведут к снижению информационного содержания файла микроданных. При выборе оптимальных методов и решений для деперсонификации микроданных необходимо стремиться к минимизации риска раскрытия, обеспечивая при этом максимальную полезность статистических данных с позиции их последующего анализа.

Общий показатель потери информации оценивает объем потерянной информации применительно к разумному спектру способов использования данных. Потеря информации была небольшой, если массив защищенных данных является аналитически адекватным и интересным, в соответствии со следующими определениями:

массив защищенных микроданных является аналитически адекватным, если следующие его характеристики примерно соответствуют оригинальным данным: средние значения и ковариации для отдельных подмножеств записей и/или переменных; характеристики распределения

массив микроданных является аналитически интересным, если в нем представлены как минимум шесть переменных, пригодных для корректного анализа.

Оценка потери информации для численных переменных выполняется с использованием следующих описательных статистик, рассчитанных для оригинального и модифицированного (защищенного) массива данных:

форма распределения переменных;

средние значения;

дисперсии;

корреляции;

ковариации;

квантили переменных и соотношений переменных.

Сравнение должно быть выполнено для каждой комбинации ключевых категориальных переменных.

Пока нет единого количественного показателя, который полностью отражал бы структурные различия между оригинальными и защищенными данными, поэтому измерять потери информации и, соответственно, безопасность данных предлагается также через различия между матрицей X для исходных данных и соответствующей матрицей X' для защищенного массива данных.

Величину расхождения (ошибки) между матрицами (X - X') можно измерять по крайней мере тремя способами.

среднеквадратическая ошибка: сумма квадратов различий между соответствующими компонентами матриц, деленная на количество ячеек в каждой матрице:

Рисунок 18

средняя абсолютная ошибка: сумма абсолютных различий между соответствующими компонентами соответствующих матриц, деленная на количество ячеек в каждой матрице:

Рисунок 19

среднее отклонение: сумма абсолютных процентных отклонений компонент матрицы, рассчитанных для защищенных данных, от компонент матрицы, рассчитанных для исходных данных, деленная на количество ячеек в каждой матрице. Преимущество данного подхода в том, что масштаб изменений переменных не имеет значения:

Рисунок 20

В вышеприведенных формулах p - количество переменных, n - количество записей, а компоненты матриц представлены соответствующими буквами в нижнем регистре (например, Рисунок 21 - компонента матрицы X). Деление на Рисунок 22 существенно увеличивает среднее отклонение Рисунок 23 , если исходное значение Рисунок 24 близко к 0.

Поскольку такая зависимость от конкретного исходного значения нежелательна для показателя потери информации, предлагается заменить среднее отклонение Рисунок 25 на более стабильный показатель:

Рисунок 26 ,

где Рисунок 27 - стандартное отклонение j-й переменной исходного массива данных.

Поскольку необходимо найти приемлемый баланс между потерей информации и риском раскрытия, а последний ограничен - не может быть риска выше 100%, - следует ввести верхнюю границу для показателя потери информации. На практике предлагается ограничить представленные выше показатели, основанные на среднем отклонении, неким заранее выбранным максимальным значением.

V. Методы контроля обеспечения конфиденциальности данных после проведения деперсонификации VII. Описание процедуры деперсонификации данных годового структурного обследования предприятий