Анализ выбросов данных

Анализ выбросов данных <2>

--------------------------------

<2> Выброс данных - элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки.

2.2. Наиболее частой причиной возникновения выбросов является персонал. Типичными можно считать следующие ошибки: ошибки в ведении рабочих записей, ошибки при введении данных в базу и, наиболее редкое, ошибка измерительного оборудования. Сведения об ошибках по факту их выявления могут быть направлены в виде уведомления оператору ввода данных для уточнения и, в случае необходимости, корректировки.

2.3. Классификация выбросов:

- одномерные выбросы - точка является выбросом только по одному измерению;

- многомерные выбросы - точка является выбросом сразу по нескольким измерениям;

- глобальное выпадающее значение - это измеренная опорная точка с очень высоким или очень низким значением по сравнению со всеми значениями в наборе данных. Например, если значения 99 из 100 точек находятся в промежутке от 300 до 400, а значение 100-й точки равно 750, то 100-я точка может являться глобальным выпадающим значением;

- локальное выпадающее значение - это измеренная опорная точка, которая имеет значение в пределах нормы для всего набора данных, но если посмотреть на окрестные точки, то это значение будет чрезвычайно высоким или низким.

2.4. С целью разделения выбросов от фактического нахождения высоких уровней контаминации или фальсификации пищевых продуктов до анализа выбросов необходимо разделение полученных показателей на две подвыборки: с нормальными значениями показателя и с уровнем, не соответствующим нормативу (в случае его наличия).

2.5. При оценке выбросов в неудовлетворительных пробах не используются стандартные статистические методы. Выбросы для неудовлетворительных проб целесообразно оценивать по пределу чувствительности методики, а именно дополнительно проверить, что полученные результаты не выше или не ниже верхнего или нижнего предела чувствительности методики соответственно.

2.6. В качестве основного метода оценки выбросов по показателям, не превышающим норматив, стоит рассматривать метод "трех сигм", так как полученные в результате проведенных в 2019 - 2020 гг. исследований значения показателей качества и безопасности пищевых продуктов близки по своему характеру распределения к нормальному. Анализ выбросов данных методом "сигм" позволяет определить аномальные значения в нестационарных рядах с распределением, близким к нормальному.

Основу данного метода анализа составляет расчет среднего значения ряда и среднеквадратичного отклонения.

Формула для вычисления среднего значения ряда задается формулой 1:

00000001.wmz, где (1)

n - количество элементов выборки; xi - i-й элемент выборки.

Формула для вычисления среднеквадратичного отклонения (далее - СКО) задается формулой 2:

00000002.wmz (2)

Суть данного метода сводится к тому, что любые значения ряда, отличающиеся от среднего больше чем на три СКО, являются потенциальными выбросами. Порог определения выбросов задается формулой 3:

00000003.wmz (3)