VI. Полезность и конфиденциальность. Показатели потери информации

VI. Полезность и конфиденциальность. Показатели

потери информации

Все методы защиты информации неизбежно ведут к снижению информационного содержания файла микроданных. При выборе оптимальных методов и решений для деперсонификации микроданных необходимо стремиться к минимизации риска раскрытия, обеспечивая при этом максимальную полезность статистических данных с позиции их последующего анализа.

Общий показатель потери информации оценивает объем потерянной информации применительно к разумному спектру способов использования данных. Потеря информации была небольшой, если массив защищенных данных является аналитически адекватным и интересным, в соответствии со следующими определениями:

массив защищенных микроданных является аналитически адекватным, если следующие его характеристики примерно соответствуют оригинальным данным: средние значения и ковариации для отдельных подмножеств записей и/или переменных; характеристики распределения

массив микроданных является аналитически интересным, если в нем представлены как минимум шесть переменных, пригодных для корректного анализа.

Оценка потери информации для численных переменных выполняется с использованием следующих описательных статистик, рассчитанных для оригинального и модифицированного (защищенного) массива данных:

форма распределения переменных;

средние значения;

дисперсии;

корреляции;

ковариации;

квантили переменных и соотношений переменных.

Сравнение должно быть выполнено для каждой комбинации ключевых категориальных переменных.

Пока нет единого количественного показателя, который полностью отражал бы структурные различия между оригинальными и защищенными данными, поэтому измерять потери информации и, соответственно, безопасность данных предлагается также через различия между матрицей X для исходных данных и соответствующей матрицей X' для защищенного массива данных.

Величину расхождения (ошибки) между матрицами (X - X') можно измерять по крайней мере тремя способами.

среднеквадратическая ошибка: сумма квадратов различий между соответствующими компонентами матриц, деленная на количество ячеек в каждой матрице:

Рисунок 18

средняя абсолютная ошибка: сумма абсолютных различий между соответствующими компонентами соответствующих матриц, деленная на количество ячеек в каждой матрице:

Рисунок 19

среднее отклонение: сумма абсолютных процентных отклонений компонент матрицы, рассчитанных для защищенных данных, от компонент матрицы, рассчитанных для исходных данных, деленная на количество ячеек в каждой матрице. Преимущество данного подхода в том, что масштаб изменений переменных не имеет значения:

Рисунок 20

В вышеприведенных формулах p - количество переменных, n - количество записей, а компоненты матриц представлены соответствующими буквами в нижнем регистре (например, Рисунок 21 - компонента матрицы X). Деление на Рисунок 22 существенно увеличивает среднее отклонение Рисунок 23, если исходное значение Рисунок 24 близко к 0.

Поскольку такая зависимость от конкретного исходного значения нежелательна для показателя потери информации, предлагается заменить среднее отклонение Рисунок 25 на более стабильный показатель:

Рисунок 26,

где Рисунок 27 - стандартное отклонение j-й переменной исходного массива данных.

Поскольку необходимо найти приемлемый баланс между потерей информации и риском раскрытия, а последний ограничен - не может быть риска выше 100%, - следует ввести верхнюю границу для показателя потери информации. На практике предлагается ограничить представленные выше показатели, основанные на среднем отклонении, неким заранее выбранным максимальным значением.