Интеграция источников данных

Интеграция различных источников данных может иметь разные цели. В случае административного учета интеграция осуществляется в целях:

расчета новых (дополнительных) переменных;

импутации пропусков в данных (как для полных, так и для частичных неответов респондентов);

валидации (проверки, сверки) собранных данных, направленной на выявление и оценку влияния потенциальных ошибок измерения.

Интеграция административных источников или административных источников и данных наблюдений может осуществляться по-разному. Если единицы имеют уникальный безошибочный идентификационный код, то можно интегрировать данные с помощью слияния на основе кода идентификации.

В случае отсутствия идентификационного кода, если ключевые переменные, которые рассматриваются совместно, могут способствовать идентификации единицы наблюдения (например, имя, дата рождения, адрес и т.д.), то соответствие может быть проведено через процедуры "установления связи". Установление связи является детерминированным, когда оно основано на формальных правилах, определяющих, являются ли пары записей в двух отдельных источниках относящимися к одной единице наблюдения или имеет вероятностный характер, когда решающее правило основано на вероятностных критериях.

Зачастую процедуры интеграции состоят из комбинации различных методов. В таком случае необходимо подробное описание всей процедуры с точным указанием порядка применения различных методов.

Методы, используемые в процессе интеграции, должны быть обоснованными и регламентированными.

Качество процесса интеграции можно определить путем оценки частоты ложных совпадений (ложно соответствующие записи, которые на самом деле являются двумя отдельными единицами) и частоты ложных несовпадений (единицы, ошибочно определенные в ходе процедуры как несоответствующие).

Все задачи интеграции должны быть выполнены в соответствии с положениями о конфиденциальности.

Интеграция различных источников данных должна осуществляться с помощью специализированного или стандартного программного обеспечения. Весь процесс интеграции должен быть задокументирован.