Предобработка данных ДНК-микрочипов

Материал из MachineLearning.

(Различия между версиями)

Версия 08:54, 4 декабря 2010

Предобработка данных - необходимый этап анализа данных, полученных в ходе эксперимента с ДНК-микрочипом. Выделяют три основных подэтапа предобработки:

Фоновая поправка

Фоновая поправка в анализе ДНК-микрочипов

Нормализация

Нормализация ДНК-микрочипов

Суммаризация

Суммаризация - этап предобработки данных, в ходе которого суммируются интенсивности нескольких ДНК-микрочипов, использованных на одной стадии эксперимента, с целью получить финальные значения интенсивностей проб. Как правило, суммаризация является составной частью алгоритма, реализующего комплекс методов предобработки данных.

Содержание

1 Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))
- 1.1 Модель
- 1.2 Оценка параметров модели и сигнала
2 Ссылки

Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))

Данный подход к суммаризации интенсивностей микрочипов базируется на линейной модели с гауссовским шумом.

Модель

Обозначим $x$ нормализованный логарифм наблюдаемой интенсивности (с нулевым матожиданием) $logPM$ , а $z$ - нормализованный логарифм концентрации РНК в исследуемом препарате. Будем предполагать, что между логарифмом наблюдаемой интенсивности и логарифмом концентрации РНК существует связь вида

$x = \lambda z + \eps$ , где $x, \lambda \in \R^n$

$z \sim \textit{N}(0,1), \; \eps \sim \textit{N}(0, \Psi)$ .

$\textit{N}(\mu, \Sigma)$ это многомерное нормальное распределение с вектором матожидания $\mu$ и ковариационной матрицей $\Sigma$ . $z$ обычно называют фактором. $\Psi \in \R^{n\times n}$ это диагональная матрица ковариаций шума. $\eps$ и $z$ статистически независимы. Согласно принятой модели, наблюдаемый вектор $x$ распределён нормально со следующими параметрами:

$x \sim \textit{N}(0, \lambda \lambda^T + \Psi)$

Следовательно, интенсивности (PM проб) логарифмически нормально распределены. $\lambda_j$ это параметры формы логарифмически нормального распределения для каждой пробы $PM_j$ .

Теперь рассмотрим отдельный ген, $\{i \in 1,\dots,N\}$ - разные микрочипы, на каждом из которых $n \; \{PM_{ij},\; 1\le j \le n\}$ проб, соответствующих этому гену. Обозначим $s_i$ - истинный сигнал на микрочипе i, то есть логарифм концентрации ДНК рассматриваемого гена в препарате. Пусть $z_i$ - сигнал $s_i$ , нормализованный так, что он имеет нулевое матожидание и дисперсию 1, то есть

$s_i = z_i \sigma + \mu, \; \sigma > 0$ .

Теперь предположим, что для каждой пробы $PM_{ij}$ сигнал отклоняется на $\tau_j$ и $\gamma_j$ от истинных значений $\sigma$ и $\mu$ соответственно. Таким образом,

$S_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j$ ,

где предполагается, что $\tau_j$ и $\gamma_j$ распределены с нулевым матожиданием. Величина $\sigma + \tau_i$ определяет дисперсию $j$ -го измерения $PM_{*j}$ , а $\mu + \gamma_j$ - его матожидание. Таким образом, мы предполагаем, что каждый олигонуклеотид, соответствующий $PM_j$ , имеет свои характеристики (например, эффективность гибридизации). Добавляя к измерениям $S_{ij}$ шум $\eps$ , получим

$\log (PM_{ij}) = S_{ij} + \eps_{ij} = z_i(\sigma + \tau_j) + \mu + \gamma_j + \eps_{ij}$ ,

где $\eps_{ij}$ - гауссовский шум с нулевым матожиданием (ненулевое матожидание учитывается в поправке $\gamma_j$ ). Значения $\tau_j, \; \gamma_j$ и стандартного отклонения $\eps_{ij}$ могут зависеть от интенсивностей экспрессии гена на разных микрочипах. В некоторых работах показано, что дисперсия шума зависит от силы сигнала. Поэтому при оценке значений необходимо принимать во внимание фактическую интенсивность генов.

Если мы обозначим $\lambda_j = \sigma + \tau_j$ и нормализуем наблюдение $x$ , чтобы оно имело нулевое матожидание, вычитая

(*)

$\frac1N \sum_{i=1}^N\log (PM_{ij}) = (\sigma + \tau_j)\frac1N\biggl( \sum_{i=1}^N {z_i} \biggr) + \mu + \gamma_j + \frac1N\biggl( \sum_{i=1}^N {\eps_{ij}} \biggr) \approx \mu + \gamma_j = \mu_j$ ,

где аппроксимация возможна в сделанных предположениях о нулевых матожиданиях $z_i$ и $\eps_{ij}$ , мы придём к базовой модели. Согласно модели, $z \sim \textit{N}(0,1)$ , поэтому данный метод лучше всего подходит для генов с сильным нормально распределенным сигналом или для генов с низкими интенсивностями сигнала (маленькими $\sigma$ ). Эксперименты показали, что этот подход даёт хорошие результаты и для ненормальных распределений $z$ , потому что ненормальность $z$ имеет сравнительно небольшое влияние на правдоподобность модели.

Оценка параметров модели и сигнала

Оценка настоящей интенсивности (сигнала) состоит из трёх шагов:

1. Нормализация наблюдений

Чтобы наблюдаемые значения $logPM$ соответствовали сделанным в модели предположением, нормализуем их, вычитая $\mu_j = \mu + \gamma_j$ , оцениваемое с помощью уравнения (*). Таким образом, они будут иметь нулевое матожидание.

2. Максимальный апостериорный факторный анализ

Пусть $\{x\} = \{x_1,\dots, x_N\}$ - исходные данные. Тогда байесовская апостериорная плотность вероятности параметров $(\lambda,\Psi)$ пропорциональна произведению правдоподобия $p(\{x\}|\lambda, \Psi)$ и априорной плотности вероятности $p(\lambda, \Psi)$ :

$p(\lambda, \Psi | \{x\}) \; \propto \; p(\{x\} | \lambda, \Psi) p(\lambda, \Psi)$ .

Для априорной плотности вероятности мы предполагаем, что $p(\lambda, \Psi) = p(\lambda)$ , то есть что априорная вероятность параметра $\lambda$ не зависит от параметра $\Psi$ и что последняя неинформативна. Априорная плотность вероятности для $\lambda$ вычисляется по формуле $\lambda = \prod_{j=1}^N{p(\lambda_j)}$ , где $\lambda_j$ из исправленного нормального распределения $\textit{N}_{rect}(\mu_{\lambda}, \sigma_{\lambda})$ , для которого

$\lambda_j = \max\{y_j, 0\}, \; y_j \sim \textit{N}(\mu_{\lambda}, \sigma_{\lambda}).$

$\sigma_{\lambda}$ выбрана пропорционально матожиданию вариации $Var(x_{*j})$ наблюдений, чтобы фактор отражал вариацию данных, то есть

$\sigma_{\lambda}^2 = \rho\frac{1}{n}\sum_{j=1}^n{Var(x_{*j})}.$

Априорная плотность вероятности отражает следующие факты:

наблюдаемые вариации в данных часто небольшие, поэтому большие значения $\lambda_j$ маловероятны,
микрочип обычно содержит во много раз больше генов с постоянным сигналом ( $\lambda_j \sim 0$ ), чем генов с меняющимся сигналом (большие значения $\lambda_j$ ),
отрицательные значения $\lambda_j$ неправдоподобны, так как это значит, что интенсивность сигналов убывает с увеличением концентрации РНК.

Два гиперпараметра $\rho$ и $\mu_{\lambda}$ позволяют определить разные аспекты априорных знаний. Например, значение $\mu_{\lambda}$ около нуля предполагает, что большинство генов не содержат сигналов и вносят смещение значений $\lambda$ к нулю.

Второй фактор апостериорной плотности - это правдоподобие, которое вычисляется как

$p(\{x\}|\lambda, \Psi) = \prod_{i=1}^N{\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)},$

где $\textit{N}(0, \lambda\lambda^T + \Psi)(x_i)$ это плотность распределения, измеренная в $x_i$ .

Мы оцениваем параметры факторного анализа с помощью EM-алгоритма, модифицированного для максимизации байесовской апостериорной плотности вероятности. EM-алгоритм оенивает параметры $\lambda,\;\Psi$ и апостериорные значения $z$ для каждого $x$ . Аналогично EM-алгоритму, максимизирующему правдоподобие, модифицированный EM-алгоритм максимизирует нижнюю границу апостериорной плотности логарифмов

$-\frac{1}{2}\sigma_{\lambda}^{-2}(\lambda-\mu_{\lambda}1)^T(\lambda-\mu_{\lambda}1) + \frac{nN}{2}\log{2\pi} - \frac{N}{2}\log{\|\Psi|} - \frac{1}{2} \sum_{i=1}^N{E_{z_i|x_i}((x_i-\lambda z_i)^T\Psi^{-1}(x_i-\lambda z_i)),$

гдк $x$ уже нормализован и имеет нулевое матожидание и

$z_i | x_i \sim \textit{N}(\mu_{z_i|x_i}, \;\sigma_{z_i|x_i}^2),$

$\mu_{z_i|x_i} = (x_i)^T(\lambda \lambda^T + \Psi)^{-1}\lambda,$

$\sigma_{z_i|x_i}^2 = 1 - \lambda^T(\lambda \lambda^T + \Psi)^{-1}\lambda.$

Отметим, что максимальный апостериорный факторный анализ позволяет выделить и ненормально распределённые сигналы. Ковариационная матрица правдоподобия равна $\lambda \lambda^T + \Psi$ , поэтому увеличение диагональных элементов $\Psi$ приведёт к большему уменьшению правдоподобия, чем увеличение одного собственного значения с помощью $\lambda \lambda^T$ (отметим, что при приведении ненормального распределения к единичной дисперсии $\lambda$ увеличивается). Причиной большего уменьшения правдоподобия в первом случае является суммарный эффект увеличения $n$ собственных значений ковариационной матрицы.

3. Оценка действительной интенсивности

Наша задача - определить действительную интенсивность $s_i$ с помощью оцененного значения $z_i$ , то есть нужно оценить $\sigma$ и $\mu$ . Для каждой пробы мы имеем

$\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j.$

Мы определяем $\sigma$ и $\mu$ методом наименьших квадратов. Учитывая, что и $\tau_i$ и $\gamma_i$ взяты из распределения с нулевым матожиданием, получаем:

$\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},$

$\mu = \arg\min_{\tilde{\mu}}\sum_{j=1}^n{(\mu_j - \tilde{\mu})^2 \; = \; \frac 1n \sum_{j=1}^n{\mu_j}.$

Действительная интенсивность в таком случае представляется в виде

$s_i \; = \;\sigma \;z_i \;f \;+ \;\mu,$

где $f$ это фактор, который компенсирует уменьшение вариации данных в ходе предобработки и факторного анализа (вариация данных в некоторой степени рассматривается как шум). Значение $f$ эмпирически определено на модельных данных для разных методов нормализации: $f=2$ для квантильной нормализации и $f=1.5$ для циклической сглаживающей кривой.

Ссылки

Hochreiter, S.; Clevert, D.-A.; Obermayer, K. A new summarization method for Affymetrix probe level data // Bioinformatics. — (Oxford, England): 2006 T. 22. — С. 943-9.

Kogadeeva 02:45, 4 декабря 2010 (MSK)

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%B5%D0%B4%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%D0%94%D0%9D%D0%9A-%D0%BC%D0%B8%D0%BA%D1%80%D0%BE%D1%87%D0%B8%D0%BF%D0%BE%D0%B2»

Категория: Биоинформатика

@@ Строка 99: / Строка 99: @@
 =====3. Оценка действительной интенсивности=====
-Наша задача - определить действительную интенсивность <tex>s_i</tex> с помощью оцененного значения <tex>\z_i</tex>, то есть нужно оценить <tex>\sigma</tex> и <tex>\mu</tex>. Для каждой пробы мы имеем
+Наша задача - определить действительную интенсивность <tex>s_i</tex> с помощью оцененного значения <tex>z_i</tex>, то есть нужно оценить <tex>\sigma</tex> и <tex>\mu</tex>. Для каждой пробы мы имеем
 ::<tex>\sigma = \lambda_j - \tau_j, \; \mu = \mu_j - \gamma_j. </tex>
-Мы определяем <tex>\sigma</tex> и <tex>\mu</tex> методом наименьших квадратов, что возможно в силу предположений о том, что и <tex>\tau_i</tex> и <tex>\gamma_i</tex> взяты из распределения с нулевым матожиданием:
+Мы определяем <tex>\sigma</tex> и <tex>\mu</tex> методом наименьших квадратов. Учитывая, что и <tex>\tau_i</tex> и <tex>\gamma_i</tex> взяты из распределения с нулевым матожиданием, получаем:
 ::<tex>\sigma = \arg\min_{\tilde{\sigma}}\sum_{i=1}^n{(\lambda_j - \tilde{\sigma})^2 \; = \; \frac 1n \sum_{j=1}^n{\lambda_j},</tex>

Предобработка данных ДНК-микрочипов

Материал из MachineLearning.

Версия 08:54, 4 декабря 2010

Содержание

Факторный анализ для робастной суммаризации микрочипов (Factor Analysis For Robust Microarray Summarization (FARMS))

Модель

Оценка параметров модели и сигнала

1. Нормализация наблюдений

2. Максимальный апостериорный факторный анализ

3. Оценка действительной интенсивности

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты