Простая математическая модель информационной системы и ее анализ

Мир собирается объявить бесполётную зону в нашей Vselennoy! | Президенту Путину о создании Института Истории Русского Народа. |Нас посетило 40 млн. человек | Чем занимались русские 4000 лет назад? | Кому давать гранты или сколько в России молодых ученых?

Статьи Соросовского Образовательного журнала в текстовом формате

Простая математическая модель информационной системы и ее анализ (Арзамасцев А.А. , 2000), МАТЕМАТИКА

С самых общих позиций относительно конструкции информационной системы показано существование оптимального числа букв в ее алфавите, обеспечивающего наиболее компактную реализацию такой системы.

ПРОСТАЯ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ИНФОРМАЦИОННОЙ СИСТЕМЫ И ЕЕ АНАЛИЗ

А. А. АРЗАМАСЦЕВ

Тамбовский государственный университет им. Г.Р. Державина

В различных естественных и искусственных информационных системах имеется различное число букв. Например, лингвистические системы: в русском языке 33 буквы, английском 26, а в 40-томном словаре китайского языка "Чжунвэнь дацзидянь" приведено 49 905 иероглифов. Компьютерные системы базируются на двухбуквенном алфавите, но известны компьютеры, работающие в троичной системе счисления. Информационная система живых организмов базируется на записи информации в цепочках ДНК (РНК) с помощью четырехбуквенного алфавита, буквами которого являются химические основания - нуклеотиды: аденин, цитозин, гуанин, тимин (урацил).

Возникает естественный вопрос: почему в той или иной информационной системе определенное число букв? Попытаемся ответить на него при помощи построения простой математической модели информационной системы и ее анализа.

Любая информационная система состоит как минимум из двух компонент: информационной последовательности (программы), в которой с помощью знаков (букв) используемого алфавита записывается информация, и декодирующей машины, переводящей данное сообщение на язык конечного пользователя. Наличие этих компонент прослеживается во всех известных информационных системах: компьютерной, лингвистических, биологической.

Возникает необходимость нахождения компромисса между малым количеством букв в алфавите (n), что упрощает декодирующую машину, но приводит к большим по длине информационным последовательностям, и большим n, что сокращает длину последовательности, но усложняет информационную машину. Общим итогом такой оптимизации (компромисса) является получение минимума одного из параметров суммарной информационной компоненты, представляющей собой сумму соответствующих параметров декодирующей машины и самой программы (рис. 1).

Пусть необходимо закодировать в информационную последовательность N различных возможностей. Если для этой цели будет использован n-буквенный алфавит, то длину информационной последовательности можно вычислить по формуле

Объем записи (программы) на носителе пропорционален ее длине, то есть

Сложность, а следовательно, и объем информационной машины, осуществляющей расшифровку информации, тем больше, чем больше n. Предполагая, что такая машина устроена по принципу револьверного барабана, то есть имеется n селективных элементов, каждый из которых настроен на идентификацию определенной буквы, получим, что объем машины

Vm = k2n.

"Конструкция" такой машины схематично показана на рис. 2. Буквы условно показаны различными цветами. Их идентификация заключается в повороте вала селективного механизма до совпадения цветов в последовательности и селективном механизме.

В уравнениях (2) и (3) k1 , k2 - константы пропорциональности, зависящие от способа реализации информационной системы.

Полный объем, занимаемый информационной системой, будет

Зависимости от n двух составляющих (Vi и Vm) показаны на графиках (см. рис. 1). Видно, что зависимость Vi(n) является убывающей, в то время как Vm(n) возрастает, так что суммарная зависимость Vt(n) всегда является унимодальной, имеющей один минимум, соответствующий наиболее компактной реализации информационной системы.

Таким образом, существует оптимальное число n* букв в алфавите информационной системы (рис. 1), обеспечивающее ее наиболее компактную реализацию.

Замечания. 1. Общая картина, показанная на рис. 1, сохранится и в случае нелинейной зависимости Vm(n); важно, чтобы эта зависимость была во всех случаях возрастающей.

2. Коэффициент k1 зависит от общего числа возможностей N, закодированных в программе. Это означает, что при использовании одной декодирующей машины оптимальное количество букв в алфавите информационной системы зависит от длины сообщения.

3. По всей видимости, для многих информационных систем компактность их реализации может означать не только "экономию свободного пространства", но и такие важные факторы, как энерго- и материалоемкость системы, а также относительную долю используемого пространства для случая, когда информационная система представляет собой часть объекта, для нужд которого она создана.

В качестве примера для иллюстрации изложенных здесь принципов покажем, что информационная система биологических объектов, по-видимому, имеет оптимальное число букв [2, 3]. Напомним, что информационной последовательностью в биологической информационной системе является последовательность нуклеотидов в ДНК, а декодирующей машиной - рибосома [1, 4].

Покажем, что минимум суммарного объема информационной составляющей для некоторых биологических объектов приходится на n = 4. Если окажется, что это так, то, следовательно, Природа, проектируя молекулярный механизм передачи информации, пыталась осуществить его компактную реализацию, решая таким образом задачу одномерной оптимизации.

Проведем идентификацию параметров и коэффициентов уравнений (2)-(4) на основе известных данных так, чтобы уравнение (4) представляло собой функцию только одной переменной n. Коэффициент k1 определим из рассмотрения вторичной структуры ДНК (радиус цилиндра равен примерно 1 нм, а длина ДНК, приходящаяся на один нуклеотид, составляет 0,34 нм) [1, 5]. Поскольку информационной машиной клетки является рибосома, линейный размер которой составляет примерно 18 " 10- 9 м, а объем 3 " 10- 24 м3 [4], найдем и k2 . С учетом этих значений получим окончательное выражение для Vt :

Функция, представленная уравнением (5), имеет минимум тогда, когда минимально выражение, стоящее в квадратных скобках. Найдем, при каком n это выражение минимально. Для этого определим производную dVt / dn и приравняем ее к нулю:

Последнее уравнение можно решить лишь численными методами, и если доверить это дело компьютеру, то при ln (N ) = 5765 действительно получим n ~ 4.

Теперь стоит обсудить приведенную здесь величину ln (N ). Напомним, что N представляет собой общее количество закодированных в геноме возможностей. Нетрудно показать, что приведенная величина ln (N ) соответствует цепочке ДНК длиной примерно 4200 пар нуклеотидов (букв). Программа такой длины характерна для простейших организмов, ДНК митохондрий и некоторых вирусов. Значения суммарного объема Vt , соответствующие значениям n, равным 3, 4 и 5, практически одинаковы, то есть чувствительность Vt к n при 3 < n < 5 крайне мала. Поэтому могло бы быть выбрано практически любое значение n из этой области. Реализация выбора в пользу n = 4 позволяет получить дополнительную степень свободы при небольших изменениях длины цепи ДНК, без нарушения общей оптимальности. Так, при значениях параметров, принятых в этой статье, минимум выражений (4) и (5) достигается при n = 4 (при условии, что n целое), если длина цепочки ДНК изменяется в довольно широких пределах - от 3100 до 5400 оснований или пар оснований.

Таким образом, исходя из самых общих соображений о конструкции информационной системы, показано, что в алфавите любой информационной системы существует оптимальное число букв, обеспечивающее ее наиболее компактную реализацию. Показано также, что четырехбуквенный код, имеющий место в информационных последовательностях ДНК, является оптимальным в смысле минимума объема суммарной информационной начинки клетки. Указанная оптимальность выполняется лишь для простейших ДНК. Этот факт может служить косвенным доказательством того, что именно такие ДНК (а не более сложные) были объектами проектирования на одном из ранних этапов биологической эволюции.

ЛИТЕРАТУРА

1. Албертс Б., Брей Д., Льюис Дж., Рэфф М., Робертс К., Уотсон Дж. Молекулярная биология клетки. М.: Мир, 1986. Т. 1-5.

2. Арзамасцев А.А. Почему код ДНК содержит четыре буквы? // Журн. общ. биологии. 1995. Т. 56, ╧ 4. С. 405-410.

3. Арзамасцев А.А. Природа оптимальности кода ДНК // Биофизика. 1997. Т. 42, вып. 3. С. 611-614.

4. Волькенштейн М.В. Биофизика. М.: Наука, 1988.

5. Флиндт Р. Биология в цифрах. М.: Мир, 1992.

Рецензент статьи А.П. Маркеев

* * *

Александр Анатольевич Арзамасцев, доктор технических наук, профессор, зав. кафедрой компьютерного и математического моделирования Тамбовского государственного университета им. Г.Р. Державина, член-корреспондент Российской академии естественных наук. Автор более 150 публикаций.