Прогнозирование класса третичной структуры белка по первичной (пример)

Материал из MachineLearning.

Версия от 06:26, 3 марта 2014; Yury Chekhovich (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Аннотация
2 Постановка задачи
3 Данные
4 Пути решения задачи

Аннотация

Рассматривается задача классификации третичной структуры белка по его аминокислотной последовательности. Эта задача является актуальной проблемой биоинформатики последние 20 лет. В работе предлагается использовать для создания признакового описания частоты встречаемости аминокислот в последовательности первичной структуры белка. Для решения задачи применяется алгоритм «Метод ближайших соседей». Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.

Постановка задачи

Первичная структура белка представляет собой линейную цепь аминокислот, расположенных в определенной последовательности и соединенных между собой пептидными связями.

Дана последовательность аминокислот длины $N$ ,

$\{s_i\}_{i=1}^N,\;s_i \in A \$ ,

где $A$ — множество из двадцати аминокислот, которые кодируются уникальными буквами

$A = \{a,\;r,\; d,\;n,\; v,\; h,\; g,\; e,\; q,\; i,\;,l,\; k,\;m,\; p,\; s,\; y,\;t,\; w,\; f,\; c\}.$

и метки классов третичной структуры белка

$\{y_i\}_{i=1}^7,\;y_i\in Y = \{a,\;b,\;c,\;d,\;e,\;f,\;g\}.$ .

Требуется определить класс третичной структуры по первичной новых белков.

Данные

Предлагается использовать базу данных «ASTRAL SCOP Genetic Domain Sequences 1.75» [1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq

d1dlya_ — идентификатор эксперимента (код файла в PDB),
a.1.1.1 — классификатор белка, иерархическая структура разделена точками,
slfaklggreavea… — последовательность аминокислот (без пробелов и переносов до символа >).