ISSN 1812-3368. Вестник МГТУ им. Н.Э. Баумана. Сер. «Естественные науки». 2012
160
далее CDS пошагово разбивают на подстроки в 3 нуклеотида (далее —
нукл.). Затем создают текстовые строки, последовательно составлен-
ные из нуклеотидов первой, второй и третьей позиций этих подстрок.
В результате CDS сводится к трем производным подпоследовательно-
стям, каждая из которых соответствует первой, второй и третьей пози-
циям триплетного разбиения исходной последовательности. С помо-
щью спектрально-статистического подхода [2, 4] такие подпоследова-
тельности исследуют на наличие скрытой профильной периодичности.
Далее рассматривают CDS, для которых во всех производных подпо-
следовательностях выявляется скрытая профильная периодичность.
Для случайного паттерна скрытой периодичности анализируемой под-
последовательности производят его внутреннюю декомпозицию, т. е.
статистически неотличимые столбцы профильной матрицы паттерна
заменяют усредненным столбцом, определяющим одну случайную
букву (полиномиальную схему) в алфавите этого паттерна. В резуль-
тате такой внутренней декомпозиции сокращается алфавит случайного
паттерна периодичности производной подпоследовательности.
Возможна также декомпозиция случайных паттернов производ-
ных подпоследовательностей, имеющих одинаковый скрытый пери-
од. В случае статистической неотличимости таких паттернов их за-
меняют единым случайным паттерном, полученным в результате их
усреднения, что позволяет сократить алфавит паттерна периодично-
сти исходной анализируемой CDS. Такое сокращение назовем внеш-
ней взаимной декомпозицией случайных паттернов производных
подпоследовательностей. Кроме того, размер алфавита паттерна ис-
ходной анализируемой CDS можно сократить путем статистического
сравнения случайных букв паттернов различных производных под-
последовательностей.
Рассмотрим гипотетический пример описанной выше декомпози-
ции CDS, в которой производная подпоследовательность, соответ-
ствующая первой позиции триплетов в разбиении исходной последо-
вательности, имеет скрытый период в одну случайную букву; произ-
водная подпоследовательность, соответствующая второй позиции, — в
две случайные буквы; производная подпоследовательность, соответ-
ствующая третьей позиции, — в три. Пусть случайные паттерны этих
последовательностей имеют вид A, AБ и БAВ соответственно, где A,
Б, В — некоторые случайные буквы (полиномиальные схемы с че-
тырьмя исходами). Тогда оценка скрытого периода всей анализируемой
CDS ДНК будет не менее 18 нукл. Формальная обработка статистиче-
ского материала может дать значение обертона этого периода (36, 54 и
т. д.). Следовательно, формальный подход приведет к оценке размера
алфавита случайного паттерна периодичности всей анализируемой CDS
не менее чем из 18 случайных букв, несмотря на то, что в действитель-
ности алфавит этого паттерна состоит их трех случайных букв.