Фоновая поправка в анализе ДНК-микрочипов
Материал из MachineLearning.
Фоновая поправка — важный предварительный этап в анализе ДНК-микрочипов. Его необходимость связана с наличием таких мешающих факторов, как шум оптической системы распознавания и неспецифическая гибридизация.
Изначально для анализа фонового эффекта была разработана система так называемых PM-MM проб. Помимо нуклеотидных зондов, в точности соответствующих последовательности каждого рассматриваемого гена (Perfect Match probes), на микрочипах Affymetrix GeneChip размещались зонды, в которых средний (тринадцатый) олигонуклеотид был заменён на комплементарный (Mismatch probe). Предполагалось, что по интенсивности MM-проб можно будет оценить эффект неспецифической гибридизации и вычесть его из интенсивности PM-проб. Этот подход сразу же продемонстрировал свою несостоятельность — было показано, что в среднем для ДНК-микрочипа интенсивность около 30% MM-проб превышает интенсивность соответствующих им PM-проб[1]. Из-за этого вычитание интенсивностей MM-проб приводит к бессмысленному результату, поскольку экспрессия гена оказывается отрицательной.
Ниже рассмотрены алгоритмы следующих поколений, делающие более изощрённую фоновую поправку.
Содержание[убрать] |
Ideal mismatch
Чтобы нейтрализовать эффект отрицательных значений экспрессии при вычитании интенсивности MM-проб, компанией Affymetrix была разработана концепция Ideal Mismatch[1]. Идея заключается в том, чтобы делать обычную PM-MM коррекцию там, где это возможно, а в остальных случаях вычитать из интенсивности PM-проб некоторую величину, меньшую интенсивности MM-проб. Для каждого множества проб, соответствующих одному участку ДНК, вычисляется значение специфической фоновой интенсивности , представляющее собой одношаговое взвешенное среднее Тьюки по множеству логарифмов отношений PM-интенсивностей к MM-интенсивностям в каждой паре проб. Если
— номер пробы, а
— номер подмножества проб, то фоновый эффект оценивается следующим выражением:
Здесь и
— настраиваемые параметры:
— константа различия со значением по умолчанию 0.03,
— константа масштабирования со значением по умолчанию 10,
— одношаговое взвешенное среднее Тьюки с параметрами
Итоговое значение интенсивности для PM-проб с учётом фоновой поправки получается вычитанием из исходных значений интенсивностей PM-проб соответствующей им величины .
RMA (Robust Multichip Average)
Данный метод фоновой коррекции является частью комплекса RMA методов для предобработки данных ДНК-микрочипов[1]. Используются только данные PM-проб. Значения интенсивности по ним корректируются отдельно по каждому микрочипу с использованием следующей модели распределения интенсивностей проб. Нескорректированное значение интенсивности представляется в виде суммы нормально распределённого шума
со средним
и дисперсией
и экспоненциально распределённого сигнала
со средним значением
. Чтобы исключить возможность получения отрицательных значений интенсивности, рассматривается только неотрицательная часть нормального распределения шума. Оценка сигнала строится согласно следующей формуле:
где
и
— соответственно, функция распределения и плотность стандартного нормального распределения. Оценки параметров в алгоритме RMA строятся следующим образом. Пусть
— эмпирическая плотность распределения интенсивностей на микрочипе, тогда
— среднее шума оценивается как мода распределения интенсивностей;
выбирается путём подгонки нормального распределения под левый хвост эмпирической плотности распределения интенсивностей (множество
);
выбирается путём подгонки экспоненциального распределения под правый хвост эмпирической плотности распределения интенсивностей (множество
).
Использование таких ad hoc оценок объясняется невозможностью построить оценки более привычными методами: численные оценки методом максимального правдоподобия дают нестабильный результат, EM-алгоритм работает слишком медленно из-за большого объёма данных[1]. В то же время, в работе McGee, Chen, 2006[1] показано, что оценки параметров, используемые в RMA, далеки от оптимальных, и предложен ряд других способов построения оценок. C другой стороны, там же подчёркивается, что само используемое представление распределения интенсивностей в виде смеси нормального и экспоненциального зачастую неадеквано.
DFCM (Distribution Free Convolution Model)
В рамках данной модели, как и в модели алгоритма RMA, предполагается, что наблюдаемая интенсивность является суммой сигнала и шума: ; однако, в отличие от RMA, не делается никаких предположений о распределениях компонент[1]. Алгоритм учёта фоновой поправки следующий.
- Выделяются наименьшие
процентов значений PM-интенсивностей (обычно доля
достаточно мала и не превышает 30%).
- Выделяются наименьшие
процентов (обычно 90% или 95%) значений MM-интенсивностей проб, соответствующих PM-пробам, отобранным на предыдущем шаге. Отобранные значения интенсивностей MM-проб далее служат мерой фонового шума.
- С использованием непараметрической оценки плотности распределения шума (как правило, ядерной оценки Епачечникова), ищется мода распределения шума
.
- Оценкой стандартного отклонения шума служит
— выборочное стандартное отклонения шума со значениями интенсивностей, меньших
, умноженное на
.
- Значение интенсивности
-й пробы в
-м наборе проб, соответствующих одному гену, рассчитывается по следующей формуле:
где — минимальное значение интенсивности (PM или MM проб).
Выбирая значения параметров и
, мы хотим отобрать те значения PM-интенсивностей, которые достаточно малы для того, чтобы пренебречь неспецифической гибридизацией MM-фрагментов к PM-зондам, а затем отобрать такие соответствующие им MM-пробы, которые, скорее всего, не подвержены кросс-гибридизации. Параметр
может рассматриваться как мера доли PM-проб, соответствующим не экспрессированным генам. Любой MM-сигнал, соответствующий таким пробам, не может быть результатом неспецифической гибридизации, поскольку ген не экспрессирован. Значение параметра
выбирается таким, чтобы доля MM-проб с интенсивностью большей, чем у соответствующих им PM-проб для наименьших
% данных была примерно равна 50%.
MAS 5.0 (Affymetrix Micro Array Suite 5.0)
Данный метод делит каждый ДНК-микрочип на (по умолчанию 16) прямоугольных областей одинаковой площади, в каждой из которых фоновая поправка оценивается с помощью 2%-квантиля (наименьших значений) интенсивности
оценивается также дисперсия наименьших 2% значений интенсивности
. Затем фоновая поправка для каждой пробы с координатами
рассчитывается как взвешенное среднее всех
оценок:
.
По аналогичной формуле с заменой на
рассчитывается дисперсия фоновой поправки для каждой пробы.
Веса зависят от расстояния между пробой и центрами прямоугольных областей:
где — евклидово расстояние между пробой и центром
-й ячейки,
— сглаживающий коэффициент (значение по умолчанию 100).
Скорректированное значение интенсивности рассчитывается по формуле
где — исходное значение интенсивности,
— параметр, соответствующий доле учитываемой вариации фоновой интенсивности (значение по умолчанию 0.5).
LESN (Low End Signal is Noise)
Данный метод основывается на двух принципах: фоновая поправка должна сохранять порядок интенсивностей проб и наименьшим интенсивностям должна соответствовать наибольшая поправка[1].
Обозначим через наименьшее значение интенсивности пробы на чипе.
Пусть
— невозрастающая весовая функция, принимающая значения из
и такая, что
.
Тогда если
— интенсивность
-й пробы, то поправка вычисляется по следующей формуле:
.
Здесь — некоторая маленькая константа, необходимая для того, чтобы интенсивности не обращались в ноль.
В качестве весовой функции предлагается использовать экспоненциальную или гауссову:
,
.
Отметим, что авторы рекомендуют перед вычислением поправок перейти к логарифмической шкале.