Прогнозирование класса третичной структуры белка по первичной (пример)
Материал из MachineLearning.
Содержание |
Аннотация
Рассматривается задача классификации третичной структуры белка по его аминокислотной последовательности. Эта задача является актуальной проблемой биоинформатики последние 20 лет. В работе предлагается использовать для создания признакового описания частоты встречаемости аминокислот в последовательности первичной структуры белка. Для решения задачи применяется алгоритм «Метод ближайших соседей». Построен график точности алгоритма с доверительными интервалами в зависимости от параметров предложенного алгоритма.
Постановка задачи
Первичная структура белка представляет собой линейную цепь аминокислот, расположенных в определенной последовательности и соединенных между собой пептидными связями.
Дана последовательность аминокислот длины ,
,
где — множество из двадцати аминокислот, которые кодируются уникальными буквами
и метки классов третичной структуры белка
.
Требуется определить класс третичной структуры по первичной новых белков.
Данные
Предлагается использовать базу данных «ASTRAL SCOP Genetic Domain Sequences 1.75» [1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]
Структура данных
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
- d1dlya_ — идентификатор эксперимента (код файла в PDB),
- a.1.1.1 — классификатор белка, иерархическая структура разделена точками,
- slfaklggreavea… — последовательность аминокислот (без пробелов и переносов до символа >).
Пути решения задачи
Предлагается использовать в качестве признаков частоты повторения отдельных аминокислот.