VIII. Статистическая обработка результатов анализа проб биологического материала животных из эксперимента по моделированию вредного воздействия

VIII. Статистическая обработка результатов анализа проб

биологического материала животных из эксперимента

по моделированию вредного воздействия

8.1. Обработка результатов анализа проб биоматериала включает в себя следующие этапы: выравнивание данных, импутация пропущенных значений, фильтрация, нормализация и статистический анализ. Пример обработки результатов анализа проб с использованием программного обеспечения MetaboAnalyst <2> представлен в приложении 5 к настоящим МР.

--------------------------------

<2> Официальный сайт программного обеспечения MetaboAnalyst: www.metaboanalyst.ca (в свободном доступе).

8.2. Выравнивание данных - процедура поиска сигналов идентичных веществ среди всех проб в эксперименте. Для процедуры используют данные, содержащие значения m/z с соответствующими им временем удерживания и площадью пика аналитического сигнала. Выравнивание проводят по точно заданному диапазону времени удерживания и m/z, соответствующее погрешности прибора. После сопоставления сигналов по заданным критериям между всеми пробами будет получена информация о наличии или отсутствии каждого вещества по всем пробам и о количестве пропущенных значений.

8.3. Импутация пропущенных значений - замена отсутствующего сигнала значением, рассчитанным по выбранному алгоритму. Значительное количество пропущенных значений может исказить результаты статистической обработки. Предполагается, что большинство пропущенных значений вызваны их низким содержанием в анализируемой пробе, т.е. сигнал вещества ниже предела обнаружения прибора, либо случайностью, поэтому импутацию пропущенных значений в результатах анализа проб проводят одним из следующих способов:

- присвоение значения сигнала, соответствующего теоретическому пределу обнаружения вещества;

- импутация среднего, медианного или минимального значения сигнала вещества среди всех проб.

Рекомендуется исключить из обработки вещества, имеющие более половины пропущенных значений аналитического сигнала среди всех проб, а в случае полного отсутствия сигналов вещества в одной из групп, в целях корректной статистической обработки, полностью исключить вещество из рассмотрения. По результатам данного этапа пробы, в которых отсутствовали некоторые сигналы, будут дополнены значениями, рассчитанными выбранным алгоритмом импутации данных.

8.4. Фильтрация данных представляет собой удаление шума и (или) неинформативных значений аналитических сигналов веществ:

- вещества с одинаковой величиной аналитического сигнала во всех РП исключают, если стандартное отклонение или межквартильный размах величины сигнала в РП меньше, чем в ОК;

- вещества с величиной аналитического сигнала, близкой к пределу обнаружения оборудования, исключают, если среднее или медиана значений в РП меньше, чем в ОК.

8.5. Нормализация данных - приведение уровня сигналов всех обнаруженных значений m/z в РП к величине сигнала ВС, т.к. во всех пробах его содержание одинаково (см. п. 6.9). Нормализация исключает вариации по величине сигнала, вносимые на стадиях пробоподготовки и анализа. По завершению этапа площади пиков сигналов всех веществ во всех образцах будут сглажены относительно сигнала ВС.

8.6. Статистическая обработка данных представляет собой процесс сравнения аналитического сигнала веществ в пробах для определения статистически значимых отличий между экспериментальными группами. Метод статистического анализа выбирают исходя из дизайна эксперимента по моделированию определенного воздействия на животных.

8.6.1. Классический статистический анализ используют для поиска статистической значимости отличий величины сигналов веществ между двумя экспериментальными группами. Для проведения межгрупповых сравнений данных, удовлетворяющих критериям нормального распределения, используют t-критерий Стьюдента и дисперсионный анализ (англ. Analysis of Variance, далее - ANOVA), в остальных - U-критерий Манна-Уитни. При наличии более чем двух экспериментальных групп используют однофакторный ANOVA. По результатам анализа каждому m/z будет присвоено p-значение, описывающее наличие или отсутствие различий между экспериментальными группами в зависимости от заданного уровня значимости.

8.6.2. Многомерный статистический анализ данных результатов измерений РП выполняют методами главных компонент и частичных наименьших квадратов (англ. Partial least squares regression, далее - PLS-DA):

- методом главных компонент проецирует значения сигналов всех веществ от всех проб на двухкоординатную плоскость, максимизируя общую выборочную дисперсию, уменьшая таким образом размерность данных. В результате этого преобразования становится возможным оценить схожесть проб в эксперименте, тенденции изменений в экспериментальных группах и выявить выбросы. Однако, данный метод не позволяет определить, сигналы каких именно веществ обусловили наблюдаемые тенденции.

- PLS-DA выделяет переменные, между которыми есть ковариационная связь, на основании чего строит модель регрессии. В отличие от методов однофакторного анализа, метод PLS-DA выявляет одновременное изменение нескольких переменных. Предсказательную способность модели, полученной методом PLS-DA для образцов из эксперимента, можно оценить по (Q2-критерию через кросс-валидацию и p-значению, полученному из специального алгоритма перестановки данных. Отрицательные значения Q2-критерия и p > 0,05 указывают на недостаточное количество образцов для применения метода и недостаточную прогностическую способность модели. В этом случае необходимо использовать данные однофакторного анализа и метода главных компонент. В результате анализа можно визуально оценить тенденции в изменениях между экспериментальными группами, а также получить данные о веществах в пробах, содержащие m/z, время удерживания веществ, величины значимости изменений сигналов в проекции на компоненты регрессионной модели (англ. variable importance in projection, далее - VIP) или суммарные коэффициенты регрессии.