Микроагрегирование

В основе микроагрегирования лежит положение о том, что существующие правила в отношении конфиденциальности разрешают публиковать агрегированные данные, если записи соответствуют группам в составе k или более объектов (принцип k-анонимности), ни один из этих объектов не является доминирующим в группе (т.е. не определяет групповые показатели), а k - пороговое значение. Строгое соблюдение таких правил конфиденциальности обусловливает выполнение подмены индивидуальных значений значениями, рассчитанными для малых множеств (микроагрегатов). Это базовый принцип микроагрегирования.

Для получения микроагрегатов исходная совокупность единиц наблюдения определенным образом разделяется на небольшие группы ближайших друг к другу объектов размером не менее k. Классические алгоритмы микроагрегирования требуют, чтобы все группы (возможно, кроме одной) имели размер k. Если количество всех объектов N кратно k, то создается n = N / k групп по k объектов в каждой. Если N не кратно k, то последняя группа, содержащая менее k объектов, объединяется с предыдущей и, таким образом, содержит более, чем k объектов. Затем для каждой группы рассчитывается среднее значение переменной, после чего это значение используется вместо оригинальных данных для всех единиц данной группы. Таким образом, реальный объект заменяется некоторым суррогатным объектом. Особое внимание при этом должно уделяться выделяющимся наблюдениям (объектам), по тем или иным показателям значительно отличающимся от других.