Задачи управления при неполной информации

Мир собирается объявить бесполётную зону в нашей Vselennoy! | Президенту Путину о создании Института Истории Русского Народа. |Нас посетило 40 млн. человек | Чем занимались русские 4000 лет назад? | Кому давать гранты или сколько в России молодых ученых?

Статьи Соросовского Образовательного журнала в текстовом формате

Задачи управления при неполной информации (КОЛМАНОВСКИЙ В.Б. , 1999), МАТЕМАТИКА

В статье рассмотрены постановки некоторых задач оптимального управления стохастическими системами и некоторые методы их исследования.

ЗАДАЧИ УПРАВЛЕНИЯ

ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ

В. Б. КОЛМАНОВСКИЙ

Московский государственный институт

электроники и математики

ВВЕДЕНИЕ

Задачи управления при неполной информации встречаются в различных отраслях техники, экономики, биологии и т.д. В этих задачах эволюция системы происходит при наличии разнообразных факторов, известных неточно. Например, движение летательного аппарата в атмосфере происходит под действием большого числа разнообразных, слабо контролируемых или непредсказуемых факторов, к числу которых относятся внешние неточно известные силы, разброс аэродинамических характеристик и конструктивных параметров летательного аппарата, порывы ветра, вариации плотности атмосферы, магнитного и гравитационного поля Земли и др.

Источник неполноты информации может быть связан с помехами в канале наблюдения за системой. Важным источником неполноты информации является запаздывание, вызванное конечностью времени, необходимого для проведения наблюдений и обработки их результатов.

Возможны разные способы математической формализации задач управления при неполной информации. При вероятностном подходе, принятом ниже, неполнота информации интерпретируется как действие на систему случайных возмущений.

Задачи управления системами при случайных возмущениях связаны с оптимизацией некоторых стохастических характеристик (например, среднеквадратичных уклонений координат или скоростей системы от их номинальных значений). Ниже приведены постановки некоторых задач управления при случайных возмущениях, способы их решения и рассмотрены конкретные примеры.

ПОСТАНОВКА ЗАДАЧ УПРАВЛЕНИЯ

ПРИ СЛУЧАЙНЫХ ВОЗМУЩЕНИЯХ

Постановка задач управления стохастическими системами зависит от вида уравнений движения, минимизируемого функционала, ограничений на управление и фазовую траекторию системы, длительности интервала времени, на котором развивается управляемый процесс, и т.д.

Уравнения системы

Уравнения эволюции систем при случайных возмущениях могут иметь различную форму в зависимости от того, каким образом осуществляется учет указанных возмущений.

Ниже рассматриваются уравнения управляемого движения вида

dx(t) = a(t, x(t), u)dt + s(t, x(t), u)dx(t),

t $ 0, x(t0) = x0 .

Здесь фазовый вектор x(t) k R n, управление u k R m, стандартный винеровский процесс x(t) k R k. Вектор-функция a: [0, ?) i R n i R m R n и матрица s размера n i k заданы.

Напомним, что процессом броуновского движения (или винеровским процессом) называется гауссовский процесс с независимыми приращениями. Винеровский процесс x(t) может служить математической моделью для описания движения микрочастицы в жидкости. Как показал Н. Винер, траектория движения микрочастицы нигде не имеет касательной, то есть почти все реализации винеровского процесса x(t) являются непрерывными, нигде не дифференцируемыми функциями. Винеровский процесс x(t) называется стандартным, если x(0) = 0, Mx(t) = = 0, Mx(t)x'(t) = It, где I - единичная матрица, M - математическое ожидание, штрих - знак транспонирования. Винеровский процесс - пример марковского процесса, то есть процесса, значение которого в данный момент t полностью определяет его будущее поведение независимо от прошлого. Решение x(t) уравнения (1), при управлениях вида u = = u(t, x(t)) также являющееся марковским процессом, понимается в смысле интегрального тождества

Последний интеграл в правой части (2) называется стохастическим интегралом Ито по имени К. Ито, предложившего его конструкцию. Приведем еще часто используемую формулу Ито.

Пусть для скалярной функции V(t, x) существуют непрерывные частные производные Vt = ?V / ?t, Vx = ?V / ?x и Vxx . Тогда если процесс x(t) имеет стохастический дифференциал (1), то процесс h(t) = = V(t, x(t)) также имеет стохастический дифференциал dh(t), даваемый формулой Ито

Здесь Tr - след матрицы, Vx k R n - вектор с компонентами ?V / ?xi , Vxx - квадратная матрица с элементами ?2V / ?xi ?xj , i, j = 1, 2, _, n. Формула Ито представляет собой аналог формулы дифференцирования сложной функции.

Пример. Пусть x(t) - скалярный стандартный винеровский процесс. Вычислим интеграл Ито:

Рассмотрим процесс x(t), определяемый соотношениями

dx(t) = dx(t), x(0) = 0.

Ясно, что x(t) = x(t). Применим теперь формулу Ито к функции V(t, x(t)) = x2(t). Учитывая соотношение (1), имеем

dx2(t) = 2x(t)dx(t) + dt = 2x(t)dx(t) + dt.

Интегрируя обе части этого равенства, получаем

Таким образом, окончательно находим, что

Отметим, что если бы функция x(t) была непрерывно дифференцируемой, то указанный интеграл должен был равняться x2(T )/2, поскольку в этом случае он представлял бы обычный интеграл Римана.

Если время T > 0 движения системы (1) задано, то говорят о задачах управления на конечном интервале времени [0, T ]. Вместе с тем в ряде случаев момент окончания движения заранее не задан, а представляет собой случайную величину, определяемую конкретной траекторией движения. Примером подобного рода задач являются задачи стохастического быстродействия. Такие задачи называют иногда задачами со случайным моментом остановки. Рассматриваются также задачи на бесконечном интервале времени. Примером является задача оптимальной стохастической стабилизации.

Ограничения на управление

Задачи управления стохастическими системами решаются при различных ограничениях на управление, которые могут зависеть либо от имеющихся ресурсов, либо от степени информированности. Примером ограничений первого типа является следующее:

u(t) k U,

где заданное множество U ? R m.

Существенным фактором при построении управления является характер имеющейся информации о координатах объекта x(t). Если вектор x(t) ненаблюдаем, то оптимальное управление зависит только от времени t и называется программным. В противном случае, когда оптимальное управление может зависеть и от вектора x(t), оно именуется управлением по принципу обратной связи или синтезом управления.

Возможна и промежуточная ситуация, когда точное измерение x(t) невозможно, но доступен измерению вектор y(t), связанный с x(t) соотношением

y(t) = Q(t)x(t) + s0(t)x0(t), y(0) = 0.

Здесь Q(t) - матрица состава измерений, s0(t) определяет точность измерений, наконец, x0(t) - помеха в канале измерений. Ясно, что последняя ситуация является более общей по сравнению с предыдущими двумя. Действительно, в случае s0 ? ограниченная матрица Q соответствует отсутствию измерений, а в случае s0 = 0 невырожденная матрица Q соответствует точным измерениям x(t). Если измерению доступен вектор y(t), то возникает задача об оптимальном оценивании вектора x(t) по результатам измерений y(t), представляющая существенный самостоятельный интерес.

Ряд постановок задач связан с возможностью варьировать либо матрицу состава измерений Q(t), либо точность измерений s0(t). Если при этом цель варьирования матриц Q(t) и s0(t) заключается в минимизации ошибки оценивания вектора x(t) по результатам наблюдений y(t), то соответствующие задачи называются задачами оптимизации процесса наблюдения. Задачи, в которых одновременно можно варьировать управление u(t, y(t)), состав измерений Q(t) и их точность s0(t), называются задачами оптимального сочетания управления и наблюдения.

Целевой функционал (критерий качества)

Цели, поставленные перед управляющей стороной, обычно формализуются в виде задания критерия качества системы. Для стохастических систем критерий качества, как правило, представляет собой математическое ожидание заданных функционалов, зависящих от управления и траектории системы. Приведем некоторые характерные примеры. Предположим сначала, что интервал времени [0, T ], на котором функционирует система, задан. Тогда критерий качества можно записать в виде

Здесь F и F1 - заданные функции, М - знак математического ожидания.

Если нормальное функционирование системы происходит лишь тогда, когда ее координаты принадлежат G на всем интервале движения, то критерий качества можно выбрать в виде

P {x(t) k G, 0 # t # T }.

Здесь через Р обозначена вероятность события, стоящего в фигурных скобках.

Рассмотрим теперь постановки задач управления, в которых момент окончания является случайной величиной. Обозначим через tx(u) момент первого достижения системой (1) границы множества G при управлении и и начальном условии x(0) = x. Задача стохастического быстродействия состоит в минимизации по и функционала Mtx(u), представляющего собой среднее время достижения целевого множества G.

В задачах об удержании системы внутри множества G в качестве критерия качества можно наряду с (5) взять функционал Mtx(u), который в этих задачах должен быть максимизирован.

МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

Основным методом построения управления стохастическими системами является метод динамического программирования [1]. С его помощью синтез управления осуществляется на основе некоторого нелинейного уравнения в частных производных, называемого уравнением Беллмана [2-10].

Приведем вид этого уравнения для перечисленных выше задач. Для задачи (1)-(4) уравнение Беллмана имеет вид

Здесь оператор Lu определен формулой

где Tr - след матрицы, штрих - знак транспонирования.

Для задачи о максимизации на траекториях системы (1) вероятностного критерия качества (5) уравнение Беллмана имеет вид

V(t, x) = 0, 0 # t # T, x k R n \ G,

V(T, x) = 1, x k G.

Наконец, для задачи стохастического быстродействия уравнение Беллмана имеет вид

При использовании уравнения Беллмана для решения задачи оптимального управления стохастическими системами необходимо иметь в виду следующие обстоятельства.

1. Решения уравнения Беллмана может не существовать.

2. Решение уравнения Беллмана может быть неединственно. В этом случае необходимо дополнительное исследование, позволяющее выяснить, какое из имеющихся решений может претендовать на роль решения исходной задачи оптимального управления.

3. Даже если уравнение Беллмана имеет гладкое решение, управление, найденное из этого уравнения, вообще говоря, не является оптимальным, поскольку это управление может не быть допустимым, например, потому, что при этом управлении не существует решения стохастического уравнения. Кроме того, в заданном классе допустимых управлений не всегда существует такое, при котором достигается точная нижняя грань критерия качества.

В ряде случаев перечисленные трудности удается преодолеть и получить решение в аналитическом или приближенном виде. Ссылки на многочисленные работы, посвященные разнообразным приложениям теории управления при случайных возмущениях, можно найти в [2-10].

ПРИМЕРЫ

Проиллюстрируем использование метода динамического программирования при решении некоторых задач оптимального управления стохастическими системами.

Пример 1. Рассмотрим скалярную линейно-квадратическую задачу

Здесь a, b, s, h1 $ 0, h2 $ 0, h3 > 0 - заданные постоянные, x0 известно, ограничение на управление отсутствует, состояние x(t) доступно наблюдению. Уравнение Беллмана для задачи (9) в соответствии с (6) имеет вид

В квадратных скобках в (10) от выбора параметра и зависит величина суммы

bVx(t, x)u + h3u2.

Минимальное по и значение суммы (11) достигается при

и равняется

Ввиду (10)-(13) уравнение для V приобретает вид

Будем искать решение задачи (14) в виде

V(t, x) = P(t)x2 + a(t),

где функции P(t), a(t) подлежат определению.

Подставляя (15) в (14) и приравнивая нулю коэффициенты при одинаковых степенях х, получаем уравнение Риккати, определяющее P(t):

Аналогичным образом имеем

После того как функции P(t) и a(t) определены, синтез оптимального управления ввиду (12) дается выражением

Соответствующее этому оптимальному управлению минимальное значение критерия качества J с учетом (15)-(17)

Интересно отметить, что уравнение Риккати (16) и оптимальное управление (18) не зависят от величины s интенсивности возмущений, которая имеет влияние лишь на минимальное значение (19) критерия качества J.

Рассмотрим теперь ту же задачу (9), однако в предположении, что x(t) недоступно наблюдению при 0 # t # T. Тогда оптимальное управление должно быть построено в зависимости только от времени t. Поэтому в уравнении (9) управление u = u(t). Введем в рассмотрение две детерминированные функции m(t) и D(t):

m(t) = Mx(t), D(t) = M(x(t) - m(t))2.

Из уравнения (9) при u = u(t) следует, что эти функции удовлетворяют уравнениям

Критерий качества (9) теперь можно представить в виде J1 + J2 , где

Уравнение (21) и сумма (22) не зависят от выбора управления u(t). Поэтому как функция D(t), так и величина J1 могут быть определены заранее. Выбор же программного оптимального управления u(t) осуществляется из условии минимизации квадратичного функционала J2 на траекториях линейной системы (20). Сравнивая задачу (20), (23) с задачей (9), заключаем, что решение (20), (23) немедленно вытекает из решения задачи (9) при s = 0. В частности, оптимальное управление u(t) ввиду (18)

где P(t) - решение задачи (16). Далее с учетом (19) минимальное значение функционала

Таким образом, если состояние системы (9) недоступно наблюдению, то минимальное значение критерия качества J

поскольку в силу (21)

При этом построение оптимального программного управления осуществляется следующим образом: найти решение P(t) задачи (16); подставить в (20) вместо управления u(t) правую часть (24) и найти решение m(t) задачи (20); подставляя в правую часть (24) найденные функции P(t) и m(t), определяем оптимальное программное управление u(t) системой (20).

Отметим, что в этом примере уравнение Беллмана имело единственное решение, а определяемое этим решением оптимальное управление также было единственным. Следующие два примера показывают, что это не всегда верно.

Пример 2. Рассмотрим скалярную систему

Предположим, что x0 $ a, где a - заданная точка на прямой. Требуется перевести систему (25) за наименьшее среднее время из положения x0 в положение a. Ввиду стационарности поставленной задачи (то есть независимости управления и ограничений от времени) ее решение также не зависит от времени t. Поэтому уравнение Беллмана для этой задачи в соответствии с (8) имеет вид

Это уравнение эквивалентно уравнению

Vxx - | Vx | = -1, x > a, V(a) = 0.

Решением уравнения (27) служит любая функция

V(x) = x - a + C(ex - a - 1),

где С - любая неотрицательная постоянная. При этом управление, реализующее минимум в (26), равняется u = -1 и будет оптимальным по быстродействию, а среднее минимальное время перехода есть x - a. Сравнивая это выражение для времени быстродействия с (28), заключаем, что время быстродействия есть минимальное положительное решение уравнения (26). Эта ситуация типична для задач стохастического быстродействия.

Пример 3. Рассмотрим ту же систему (25). Выбором управления и требуется максимизировать вероятность достижения положения 0 при условии, что x0 $ 0. Ввиду (7) соответствующее уравнение Беллмана имеет вид

Ясно, что решением задачи (29) служит функция V(x) ╞ 1. Это означает, что любое допустимое управление удовлетворяет (29), то есть может выступать в роли оптимального. Однако это неверно, ибо вероятность достичь точку x = 0 при управлении u(x) ╞ 1 и начальном положении x > 0 равняется exp(- x). Оптимальным же в рассматриваемом примере является любое управление вида u(x) ╞ C, где C k [-1, 0), для которого вероятность достижения точки x = 0 равна 1 при любом начальном положении x0 > 0.

Пример 4 (управление по быстродействию движением твердого тела). Рассмотрим управляемое движение твердого тела относительно центра масс под действием управляющих моментов и случайных возмущений. Пусть xi , i = 1, 2, 3, - компоненты кинетического момента тела относительно жестко связанной с телом системы координат, оси которой совпадают с главными центральными осями инерции тела. Уравнения Эйлера движения твердого тела имеют вид

Здесь символ (1; 2; 3) означает, что остальные два уравнения движения получаются из (30) циклической перестановкой индексов, числа ai - главные центральные моменты инерции, s - постоянная, управление u = (u1 , u2 , u3) удовлетворяет при постоянной b > 0 ограничению

Для системы (30) поставим задачу о синтезе управления, при котором за минимальное среднее время модуль кинетического момента становится равным заданной величине r > 0 при произвольном начальном условии x(0), | x(0) | $ r. Для решения этой задачи используем уравнение (8). Его исследование приводит к следующим выражениям для времени быстродействия V0(x) и синтеза оптимального управления u0(x):

u0(x) = - bx | x | -1.

Отметим, что синтез оптимального управления не зависит от интенсивности возмущений s, максимален по абсолютной величине и направлен против вектора кинетического момента тела.

ЗАКЛЮЧЕНИЕ

В статье рассмотрены постановки некоторых характерных задач оптимального управления системами при случайных возмущениях, выписаны соответствующие им уравнения в частных производных Беллмана и приведены примеры, иллюстрирующие структуру решений.

ЛИТЕРАТУРА

1. Беллман Р. Динамическое программирование. М.: Изд-во иностр. лит., 1960.

2. Острем К.Ю. Введение в стохастическую теорию управления. М.: Мир, 1973.

3. Ройтенберг Я.Н. Автоматическое управление. М.: Наука, 1978.

4. Браммер К., Зиффлинг Г. Фильтр Калмана-Бьюси. М.: Наука, 1982.

5. Черноусько Ф.Л., Колмановский В.Б. Оптимальное управление при случайных возмущениях. М.: Наука, 1978.

6. Сагиров П. Стохастические методы в динамике спутников // Механика: Сб. пер. 1974. ╧ 5(147). С. 28-47.

7. Хасьминский Р.З. Устойчивость систем дифференциальных уравнений при случайных возмущениях их параметров. М.: Наука, 1969.

8. Afanas'ev V.N., Kolmanovskii V.B., Nosov V.R. Mathematical Theory of Control Systems Design. Dordrecht: Kluwer Acad. Publ., 1996.

9. Флеминг В.Х., Ришел Р.В. Детерминированное и стохастическое оптимальное управление. М.: Мир, 1978.

10. Колосов Г.Е. Синтез оптимальных автоматических систем при случайных возмущениях. М.: Наука, 1984.

* * *

Владимир Борисович Колмановский, доктор физико-математических наук, профессор. Область научных интересов - дифференциальные и функционально-дифференциальные уравнения, нелинейный анализ, теория устойчивости, теория управления. Автор более 100 научных статей и десяти монографий.