ISSN 1812-3368. Вестник МГТУ им. Н.Э. Баумана. Сер. «Естественные науки». 2012
159
Оценка периода скрытой профильной периодичности.
Разра-
ботанный спектрально-статистический подход [2, 4] позволяет оце-
нить не только период скрытой профильной периодичности последо-
вательностей ДНК, но и ее случайный паттерн. При таком подходе
статистическим материалом является анализируемая последователь-
ность ДНК, т. е. только одна реализация случайной строки. Поэтому
при формальном использовании спектрально-статистического подхода
в качестве оценки периода скрытой профильной периодичности может
быть получен обертон искомого периода и соответствующий ему пат-
терн периодичности. На практике длина этого паттерна задает размер
алфавита случайных букв тандемного повтора, реализацией которого
предположительно является анализируемая последовательность ДНК.
При более детальном анализе статистического материала можно
улучшить оценку длины паттерна, тем самым сократить размер алфа-
вита случайного тандемного повтора. Оценка паттерна периодичности
получается в виде профильной матрицы [2, 4], в столбцах которой сто-
ят вероятностные распределения соответствующих случайных букв
этого паттерна. На практике, как правило, столбцы профильной мат-
рицы оценки паттерна попарно различны, т. е. длина паттерна совпадает
с размером алфавита случайных букв тандемного повтора. Но среди
этих столбцов (на заданном уровне значимости) могут встречаться ста-
тистически неразличимые. Отождествив эти столбцы с одной случай-
ной буквой, распределение которой получено усреднением этих столб-
цов, можно сократить размер алфавита случайного тандемного повтора.
В результате получится декомпозиция паттерна скрытой профильной
периодичности, ведущая к оптимизации оценки паттерна скрытой про-
фильной периодичности анализируемой последовательности ДНК.
В рассматриваемой работе исследуются случайные паттерны по-
следовательностей ДНК кодирующих районов из генома человека, в
которых наблюдается скрытая профильная периодичность. Согласно
статье [6], в большинстве последовательностей кодирующих районов
ДНК (CDS) наблюдается скрытая профильная периодичность, корре-
лирующая (в некоторых случаях) с известными структурно-функ-
циональными свойствами кодируемых белков [2, 3]. Кроме того, ха-
рактерные свойства CDS позволяют значительно упростить процесс
декомпозиции их паттернов периодичности. В настоящей работе
предложены методы, упрощающие декомпозицию паттернов скрытой
периодичности в CDS.
Общие методы декомпозиции паттернов скрытой периодично-
сти CDS.
Как упоминалось в [6], практически для всех CDS в характе-
ристических спектрах наблюдается регулярная повторяемость пиков
через два нуклеотида. Такое явление в работах [2—4] было названо
3-
регулярностью последовательностей ДНК, которая обусловлена
триплетной структурой универсального генетического кода. Поэтому