Предобработка данных ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Добавлено описание алгоритма сумаризации FARMS, дополнение)
м (3. Оценка действительной интенсивности: уточнение)
Строка 99: Строка 99:
=====3. Оценка действительной интенсивности=====
=====3. Оценка действительной интенсивности=====
-
Наша задача - определить действительную интенсивность <tex>s_i</tex> с помощью оцененного значения <tex>\z_i</tex>, то есть нужно оценить <tex>\sigma</tex> и <tex>\mu</tex>. Для каждой пробы мы имеем
+
Наша задача - определить действительную интенсивность <tex>s_i</tex> с помощью оцененного значения <tex>z_i</tex>, то есть нужно оценить <tex>\sigma</tex> и <tex>\mu</tex>. Для каждой пробы мы имеем
::<tex>\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j. </tex>
::<tex>\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j. </tex>
-
Мы определяем <tex>\sigma</tex> и <tex>\mu</tex> методом наименьших квадратов, что возможно в силу предположений о том, что и <tex>\tau_i</tex> и <tex>\gamma_i</tex> взяты из распределения с нулевым матожиданием:
+
Мы определяем <tex>\sigma</tex> и <tex>\mu</tex> методом наименьших квадратов. Учитывая, что и <tex>\tau_i</tex> и <tex>\gamma_i</tex> взяты из распределения с нулевым матожиданием, получаем:
::<tex>\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},</tex>
::<tex>\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},</tex>

Версия 08:54, 4 декабря 2010

Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:

  • Фоновая поправка

Фоновая поправка в анализе ДНК-микрочипов

  • Нормализация

Нормализация ДНК-микрочипов

  • Суммаризация

Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.

Содержание

[убрать]

Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))


Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.

Модель

Обозначим x нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) logPM, а z - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида

x = \lambda z + \eps , где  x, \lambda \in \R^n

и

 z \sim \textit{N}(0,1), \; \eps \sim \textit{N}(0, \Psi).

 \textit{N}(\mu, \Sigma) это многомерное нормальное распределение с вектором матожидания \mu и ковариационной матрицей \Sigma. z обычно называют фактором. \Psi \in \R^{n\times n} это диагональная матрица ковариаций шума. \eps и z статистически независимы. Согласно принятой модели, наблюдаемый вектор x распределён нормально со следующими параметрами:

 x \sim \textit{N}(0, \lambda \lambda^T + \Psi)

Следовательно, интенсивности (PM проб) логарифмически нормально распределены. \lambda_j это параметры формы логарифмически нормального распределения для каждой пробы PM_j.

Теперь рассмотрим отдельный ген, \{i \in 1,\dots,N\} - разные микрочипы, на каждом из которых n \; \{PM_{ij},\; 1\le j \le n\} проб, соответствующих этому гену. Обозначим s_i - истинный сигнал на микрочипе i, то есть логарифм концентрации ДНК рассматриваемого гена в препарате. Пусть z_i - сигнал s_i, нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть

 s_i = z_i \sigma + \mu, \; \sigma > 0 .

Теперь предположим, что для каждой пробы PM_{ij} сигнал отклоняется на \tau_j и \gamma_j от истинных значений \sigma и \mu соответственно. Таким образом,

S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j ,

где предполагается, что \tau_j и \gamma_j распределены с нулевым матожиданием. Величина  \sigma + \tau_i определяет дисперсию j-го измерения PM_{*j}, а  \mu + \gamma_j - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий PM_j, имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям S_{ij} шум \eps, получим

 \log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij} ,

где \eps_{ij} - гауссовский шум с нулевым матожиданием (ненулевое матожидание учитывается в поправке \gamma_j). Значения \tau_j, \; \gamma_j и стандартного отклонения \eps_{ij} могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность генов.

Если мы обозначим  \lambda_j = \sigma + \tau_j и нормализуем наблюдение x, чтобы оно имело нулевое матожидание, вычитая

(*)
 \frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j ,

где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях z_i и \eps_{ij}, мы придём к базовой модели. Согласно модели, z \sim \textit{N}(0,1), поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими \sigma). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений z, потому что ненормальность z имеет сравнительно небольшое влияние на правдоподобность модели.


Оценка параметров модели и сигнала

Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:

1. Нормализация наблюдений

Чтобы наблюдаемые значения logPM соответствовали сделанным в модели предположением, нормализуем их, вычитая \mu_j = \mu + \gamma_j, оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.

2. Максимальный апостериорный факторный анализ

Пусть \{x\} = \{x_1,\dots, x_N\} - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров (\lambda,\Psi) пропорциональна произведению правдоподобия p(\{x\}|\lambda, \Psi) и априорной плотности вероятности p(\lambda, \Psi):

p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi).

Для априорной плотности вероятности мы предполагаем, что p(\lambda, \Psi) = p(\lambda), то есть что априорная вероятность параметра \lambda не зависит от параметра \Psi и что последняя неинформативна. Априорная плотность вероятности для \lambda вычисляется по формуле \lambda = \prod_{j=1}^N{p(\lambda_j)}, где \lambda_j из исправленного нормального распределения \textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda}), для которого

\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).

\sigma_{\lambda} выбрана пропорционально матожиданию вариации Var(x_{*j}) наблюдений, чтобы фактор отражал вариацию данных, то есть

 \sigma_{\lambda}^2 = \rho\frac{1}{n}\sum_{j=1}^n{Var(x_{*j})}.

Априорная плотность вероятности отражает следующие факты:

  • наблюдаемые вариации в данных часто небольшие, поэтому большие значения \lambda_j маловероятны,
  • микрочип обычно содержит во много раз больше генов с постоянным сигналом (\lambda_j \sim 0), чем генов с меняющимся сигналом (большие значения \lambda_j),
  • отрицательные значения \lambda_j неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.

Два гиперпараметра \rho и \mu_{\lambda} позволяют определить разные аспекты априорных знаний. Например, значение \mu_{\lambda} около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений \lambda к нулю.

Второй фактор апостериорной плотности - это правдоподобие, которое вычисляется как

 p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},

где \textit{N}(0, \lambda\lambda^T + \Psi)(x_i) это плотность распределения, измеренная в x_i.

Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оенивает параметры \lambda,\;\Psi и апостериорные значения z для каждого x. Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов

 -\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) + \frac{nN}{2}\log{2\pi} - \frac{N}{2}\log{\|\Psi|} - \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),

гдк x уже нормализован и имеет нулевое матожидание и

 z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),
 \mu_{z_i|x_i} = (x_i)^T(\lambda \lambda^T + \Psi)^{-1}\lambda,
 \sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.

Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна \lambda \lambda^T + \Psi, поэтому увеличение диагональных элементов \Psi приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью \lambda \lambda^T (отметим, что при приведении ненормального распределения к единичной дисперсии \lambda увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения n собственных значений ковариационной матрицы.

3. Оценка действительной интенсивности

Наша задача - определить действительную интенсивность s_i с помощью оцененного значения z_i, то есть нужно оценить \sigma и \mu. Для каждой пробы мы имеем

\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j.

Мы определяем \sigma и \mu методом наименьших квадратов. Учитывая, что и \tau_i и \gamma_i взяты из распределения с нулевым матожиданием, получаем:

\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},
\mu = \arg\min_{\tilde{\mu}}\sum_{j=1}^n{(\mu_j - \tilde{\mu})^2 \; = \; \frac 1n \sum_{j=1}^n{\mu_j}.

Действительная интенсивность в таком случае представляется в виде

 s_i \; = \;\sigma \;z_i \;f \;+ \;\mu,

где f это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение f эмпирически определено на модельных данных для разных методов нормализации: f=2 для квантильной нормализации и f=1.5 для циклической сглаживающей кривой.



Ссылки

Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.


Kogadeeva 02:45, 4 декабря 2010 (MSK)

Личные инструменты