Оптимизация динамических систем с разрывными траекториями и импульсными управлениями

Мир собирается объявить бесполётную зону в нашей Vselennoy! | Президенту Путину о создании Института Истории Русского Народа. |Нас посетило 40 млн. человек | Чем занимались русские 4000 лет назад? | Кому давать гранты или сколько в России молодых ученых?

Статьи Соросовского Образовательного журнала в текстовом формате

Оптимизация динамических систем с разрывными траекториями и импульсными управлениями (ДЫХТА В.А. , 1999), МАТЕМАТИКА

Дается элементарное введение в теорию оптимального импульсного управления. Задачи импульсного управления рассматриваются как естественное расширение классических задач динамической оптимизации с неограниченным множеством управлений. Основное внимание уделено неформальному описанию импульсных воздействий типа дельта-функций Дирака, которые вызывают разрывы фазовых траекторий.

ОПТИМИЗАЦИЯ ДИНАМИЧЕСКИХ СИСТЕМ

С РАЗРЫВНЫМИ ТРАЕКТОРИЯМИ И ИМПУЛЬСНЫМИ УПРАВЛЕНИЯМИ

В. А. ДЫХТА

Иркутская государственная экономическая академия

Иркутский государственный университет

Оптимальное управление - сравнительно молодая область математики, в которой исследуются задачи оптимизации динамических систем. Под динамическими понимаются любые системы (физические, биологические, экономические), состояние которых изменяется с течением времени и математически описывается дифференциальными уравнениями. Становление оптимального управления пришлось на 50-е годы нынешнего века. Весомый вклад в фундамент этой науки внесли Р. Беллман, М. Хестенс, Р. Айзекс, но центральную роль сыграли исследования академика Л.С. Понтрягина и его коллег. Знаменитый принцип максимума Понтрягина, сформулированный в 1956 году и распространенный на широкий класс задач со сложными ограничениями, оказался наиболее универсальным условием оптимальности, удобным инструментом исследования прикладных моделей оптимизации.

Цель статьи - познакомить читателя с неклассическими задачами оптимального управления, в которых траектории динамической системы могут быть разрывными, а управления содержат импульсы - мгновенные воздействия на систему кумулятивного (ударного) характера. Класс таких задач интенсивно исследуется в последние годы. Достижение нашей цели в некоторой степени облегчается публикацией статьи [1], которая дает представление о классических задачах оптимального управления и их связи с задачами вариационного исчисления (см. также доступную по уровню изложения книгу [2]). Знакомство с указанной статьей желательно.

Немного об истории вопроса.

К. Вейерштрасс первым обратил внимание на тот факт, что в классической задаче вариационного исчисления

минимум на непрерывных, кусочно-гладких кривых x(t) может не достигаться, и тогда минимизирующие последовательности допустимых кривых {xn(t)} поточечно сходятся к разрывной функции. В начале века Д. Гильберт в постановке одной из своих знаменитых проблем высказал идею расширения вариационных задач с целью гарантировать существование искомого решения в более широком классе функций, чем кусочно-гладкие. В 20-х годах А.М. Размадзе построил теорию расширения вариационных задач на разрывные функции.

Однако в вариационном исчислении разрывные решения считались скорее досадной патологией, чем ситуацией достаточно общего положения. При отсутствии стимулирующих приложений, что объясняется главным образом недостаточной "практичностью" самой постановки вариационных задач, развитие теории разрывных решений не пошло дальше простейшей задачи. Не случайно задачи с разрывными решениями оказались причисленными к разряду вырожденных.

С появлением оптимального управления ситуация резко изменилась. Сама модель, постановка задачи оказалась удивительно приспособленной для приложений. И вскоре выяснилось, что вырожденные задачи оптимального управления, приводящие к необходимости рассматривать разрывные траектории, - это вовсе не экзотика. Например, в динамических системах, линейных по управлению, с неограниченным множеством U возможных значений управляющих функций вырожденность оказалась правилом, а не исключением. Многочисленные приложения к динамике космических аппаратов, экономике, экологии, квантовой электронике, робототехнике стимулировали интерес к проблемам оптимизации систем с разрывными траекториями и импульсными управлениями. В настоящее время теория импульсного управления представляет собой развивающийся раздел динамической оптимизации, в котором исследуются главным образом нелинейные задачи со сложными ограничениями [3-6].

КЛАССИЧЕСКАЯ ЗАДАЧА

ОПТИМАЛЬНОГО УПРАВЛЕНИЯ

Следуя [1], напомним постановку классической задачи.

Рассматривается динамическая система с начальным условием

где t - независимая переменная (время), x = (x1 , x2 , _, xn) - фазовый вектор, - производная фазовой траектории (вектор-функция с компонентами ), u = (u1 , u2 , _, um) - вектор управления, f (t, x, u) = ( f1(t, x, u), f2(t, x, u), _ _, fm(t, x, u)) - заданная функция, t0 = 0 - начальный момент времени, x0 - вектор начального состояния системы.

Обычные допустимые управления - это векторные функции u(t), определенные на некотором отрезке [0, T ] и удовлетворяющие двум условиям:

а) u(t) кусочно-непрерывна, то есть может иметь на интервале (0, T ) лишь конечное число точек разрыва, в которых существуют левый и правый пределы

(q - возможная точка разрыва управления);

б) управление u(t) удовлетворяет поточечному ограничению

u(t) k U,

где U - известное множество допустимых значений управления в R m (например, при m = 1 ограничение (2) может иметь вид | u(t) | # 1, u(t) $ 0). Отметим, что множество U может быть как ограниченным, так и неограниченным.

Каждому обычному управлению u(t) соответствует единственная кусочно-гладкая (и, следовательно, непрерывная) траектория x(t), которая находится из системы дифференциальных уравнений (1) при u = u(t) путем последовательного интегрирования по интервалам непрерывности u(t) и непрерывной стыковки значений траектории в точках разрыва управления. При этом выбор значения управления в точках разрыва произволен, так как он совершенно не влияет на траекторию, однако выполнение условий u(q?) k U предполагается.

Для оценки качества управления вводится целевой функционал

где функции F (t, x, u) и G(x) заданы. Иногда для краткости подынтегральную функцию F называют интегрантом, а функцию G - терминантом (от англ. terminal - конечный; здесь имеется в виду, что в критерии (3) G зависит от траектории в конечный момент времени). Обычно J(u) характеризует затраты на управление или прибыль, полученную от управления системой. Задача оптимального управления состоит в поиске среди допустимых управлений наилучшего в смысле минимума критерия качества (3).

Помимо описанных ограничений более сложные постановки задачи могут включать дополнительные терминальные ограничения на траекторию типа x(T ) = xT (попадание в заданную точку), x(T ) $ $ xT , или поточечные фазовые ограничения вида x(t) $ 0 "t. Заметим, что конечное время T может не фиксироваться и выбираться из условия минимума J. Например, в задаче быстродействия - попадания из точки в точку за минимально возможное время

КАК ВОЗНИКАЮТ ЗАДАЧИ С РАЗРЫВНЫМИ ТРАЕКТОРИЯМИ И ИМПУЛЬСАМИ

Если в классической задаче оптимального управления множество управлений неограничено, то нельзя ожидать, что задача оптимизации имеет решение в классе обычных управлений с непрерывными траекториями, и основное условие оптимальности - принцип максимума в своей классической форме оказывается неприменим - ведь он требует, чтобы обычное оптимальное управление существовало.

Первые прикладные задачи, имеющие столь неприятную особенность, возникли в ракетодинамике. Пожалуй, наиболее ярким примером является широко известная "оптимальщикам" задача Лоудена о переводе космического корабля с одной орбиты на другую при минимальном расходе топлива. Следующий пример в упрощенной форме моделирует особенности этой задачи.

Пример 1. Требуется минимизировать критерий качества

при ограничениях

u(t) $ 0, x(0) = 0, x(t) = 1.

Здесь u интерпретируется как скорость сжигания топлива, за счет которого создается сила тяги, а x - положение движущейся материальной точки. Задача состоит в переводе системы из точки в точку с минимумом расхода топлива. Заметим, что существуют ракетные двигатели, способные расходовать топливо с очень высокой скоростью, развивая громадную тягу в течение коротких отрезков времени. Поэтому допущение о неограниченности управления сверху реалистично.

Покажем, что в этой задаче обычного оптимального управления не существует. Для этого преобразуем критерий (4), используя дифференциальное уравнение и граничные условия из (5):

Ясно, что задача минимизации J(u) равносильна максимизации критерия

Таким образом, дело сводится к поиску допустимой траектории, график которой ограничивает максимальную площадь над осью t.

Рассмотрим траекторию которая исходит из конечной точки с управлением Тогда , так что не является допустимой траекторией. Однако пара задает границы возможного: для нее расход топлива идеален а ограничиваемая траекторией площадь

как нетрудно сообразить, является верхней оценкой J1 : для любого допустимого управления u(t).

Убедимся, что к этой оценке можно приблизиться сколь угодно близко. Для этого построим следующую последовательность допустимых управлений и траекторий (рис. 1):

Нетрудно подсчитать, что при n ?

Отсюда следует, что оптимального управления не существует: мы не можем получить значение критерия J1 = 1 - e-1, так как оно достигается только на недопустимой траектории , и в то же время это число является точной верхней гранью J1(u) в силу (7) (заметим, что идеал не совпал с точной нижней гранью J(u) - последняя равна e-1).

Минимизирующая для J(u) последовательность обычных управлений {un} неограничена по амплитуде вблизи точки t = 0, но интегралы от un сходятся (см. (7)). Интуиция должна подсказать читателю, что un - это некоторая аппроксимация импульсного воздействия в момент t = 0. В то же время последовательность траекторий {xn} поточечно сходится к разрывной функции

для которой критерий J1 в точности равен 1 - e-1. Поскольку функция x* хорошо аппроксимируется допустимыми траекториями, то ее естественно назвать обобщенной оптимальной траекторией в данной задаче. Предельная картина (при n ?) оказывается такой: в начальный момент t = 0 мгновенно сжигается 1/ e единиц топлива и точка скачком перебрасывается на "магистраль" по которой движется в пассивном режиме до конечной точки.

Теория импульсного управления как раз занимается проблемами корректного математического описания и оптимизации обобщенных управляемых процессов, подобных описанному выше. В данной статье мы ограничимся только проблемой описания импульсных управлений и соответствующих разрывных траекторий.

ДЕЛЬТА-ФУНКЦИЯ

И ИМПУЛЬСНЫЕ УПРАВЛЕНИЯ

Первым шагом в расширении классической задачи является введение чисто импульсных управлений - так называемой дельта-функции Дирака (d-функции). Она названа так в честь знаменитого физика, который впервые использовал эту необычную функцию в период становления квантовой механики и теории столкновений. Строгое определение d-функции можно дать лишь в рамках теории меры и обобщенных функций, но мы избежим прямого обращения к этой сложной теории. Ограничимся предостережением: в действительности d-функция не является функцией в обычном смысле и лишь поэтому она может вызывать разрыв траектории динамической системы.

Для простоты будем считать далее, что управление скалярно (то есть m = 1). Подчеркнем, что это предположение носит не технический характер.

Условимся трактовать обозначение d(t - q) как символ ударного воздействия на динамическую систему в момент q, которое порождает мгновенный скачок траектории согласно условию скачка, которое будет описано ниже. По традиции будем называть d(t - q) d-функцией, сосредоточенной в точке q, или же единичным импульсом в момент q.

Чтобы лучше представить природу d-функции, естественно понимать импульс d(t - q) как идеализацию достаточно большого по величине обычного управления, сосредоточенного (отличного от 0) в малой окрестности точки q. Элементарным примером является обычное управление

где e > 0 - малый параметр. График ue(t) представляет собой "ступеньку" высоты 1/ e, ограничивающую с осью t единичную площадь (рис. 2). Этим и объясняется термин " единичный импульс".

При e 0 отрезки [q, q + e] стягиваются к точке q, высота "ступенек" неограниченно возрастает, а получающееся предельное управление можно изобразить лишь схематично в виде устремленной вверх "иглы". Прикладники часто рассматривают ее как геометрический образ d-функции. Конечно, вместо отрезка [q, q + e] можно взять отрезок [q - e, q] или - все равно будет получена некоторая d-образная последовательность обычных управлений, аппроксимирующая d(t - q). Понятно, как построить аппроксимацию для управления cd(t - - q) - d-функции с "весом" с, где с - любое число.

Для приложений вполне достаточно импульсных управлений вида

где u(t) - обычное управление, 0 # q0 < q1 < _ < qk # # T - моменты приложения импульсов, ci - их величины. Число импульсов, моменты их приложения и "веса" зависят от выбора управления и в задачах оптимизации являются управляющими параметрами. Ясно, что обычные управления являются частным случаем импульсных. Поскольку переход к импульсным управлениям мы рассматриваем как естественное расширение класса обычных управлений в случае, когда множество U неограничено, то типовыми являются две ситуации: U = R и U = R+ , где R+ означает множество неотрицательных действительных чисел. Составляющие u(t), ci импульсного управления (8) наследуют эти ограничения в итоге расширения.

ОПИСАНИЕ СТРУКТУРЫ

РАЗРЫВНЫХ ТРАЕКТОРИЙ

Опишем, как находить траектории динамических систем при импульсных управлениях вида (8). Изложение удобно разбить на пункты.

1. Введем множество D вектор-функций x(t), которые удовлетворяют на отрезке [0, T ] следующим условиям:

a) x(t) имеет на [0, T ] не более конечного числа точек разрыва 1-го рода, причем разрывы в точках t = 0, T не исключаются;

б) на интервалах между точками разрыва x(t) непрерывна и кусочно дифференцируема (то есть имеет свойства обычной траектории);

в) x(t) непрерывна справа на (0, T ], то есть x(q) = = x(q+) в каждой точке разрыва q k (0, T ]; при q = T мы полагаем x(T ) = x(T+), а при q = 0 x(0) = x(0-), имея в виду непрерывные продолжения x(t) вправо от t = T и влево от t = 0.

Заметим, что условие в) - это удобное соглашение.

Bce разрывные траектории будут функциями из D.

2. Пусть задана обычная управляемая система

линейная по управлению с гладкими вектор-функциями f, g. Опишем обобщенную траекторию системы (9), которая соответствует импульсному управлению u. Подчеркнем, что предположение линейности по управлению существенно для описываемого расширения: во-первых, общий нелинейный случай еще недостаточно изучен; во-вторых, как это ни странно, в нелинейных системах гораздо реже встречаются особенности, которые приводят к необходимости вводить разрывные траектории.

Свяжем с системой (9) вспомогательную систему дифференциальных уравнений в момент qi :

Систему (10) назовем предельной для системы (9) в момент приложения импульса qi .

Будем говорить, что функция x k D удовлетворяет в момент qi условию допустимости скачка, если выполняется равенство

x(qi) = zi(1).

Иначе говоря, разрыв функции x(t) в момент q допустим, если ее левый и правый пределы можно соединить траекторией предельной системы, которая зависит от управляющего параметра ci .

3. Функцию x k D назовем обобщенной траекторией системы (9), соответствующей импульсному управлению u вида (8), если в каждый момент импульса x(t) удовлетворяет условию допустимости скачка, а на интервалах между импульсами - обычной дифференциальной системе

Таким образом, x(t) находится по u последовательным интегрированием исходной системы на интервалах (q, qi + 1) с применением условия скачка (10), (11) в моменты действия импульсов.

Пример 2. Пусть g = g(t), то есть g не зависит от x. Тогда zi(t) = g(qi)cit + x(q-) и скачок обобщенной траектории находится элементарно:

x(qi+) - x(qi-) = g(qi)ci .

Пример 3. Рассмотрим уравнение динамики лимитированной биологической популяции, модифицированное с учетом возможности ее добычи:

где x - численность популяции, a, b, d > 0 - коэффициенты, управление u имеет смысл темпа затрат на добычу, эффективность которых падает с уменьшением численности популяции.

При полуограниченном управлении разумные задачи оптимизации в этой модели имеют решение только в классе импульсных управлений. Пусть q - произвольный момент импульса. Предельная система (10) имеет решение z(t) = x(q-)e - cdt, условие (11) принимает вид x(q+) = x(q-)e - cd. Из него следует, что даже при импульсном управлении популяция не может быть полностью уничтожена.

Пример 4 представляет собой модель поляризации возбуждения двухуровнего атома из квантовой электроники:

Введение импульсных управлений в этой модели диктуется ее физическим содержанием, поскольку управление u $ 0 имеет смысл интенсивности лазерного излучения.

Предельная система для любого момента q здесь такова:

где Фактически она сводится к решению дифференциального уравнения 2-го порядка Траектория предельной системы показывает, в частности, что из начальной точки (x1 , x2) = (0, 1) невозможно мгновенно попасть в точку (x1(q+), x2(q-)) = (0, 0). Это замечание окажется полезным, если анализировать задачи оптимизации в данной модели.

В заключение отметим, что в случае скалярного управления обобщенные траектории устойчивы в том смысле, что при любой аппроксимации импульсного управления обычными соответствующие последовательности непрерывных траекторий системы сходятся к одной и той же разрывной траектории. В случае векторного управления положение иное: наблюдается феномен зависимости предельной разрывной траектории от способа аппроксимации импульсного управления. Однако, если матрица g не зависит от x или в более общем случае удовлетворяет специальному условию полной интегрируемости Фробениуса [4-6], обобщенные траектории устойчивы и находятся по описанной схеме с формальной заменой чисел ci на векторы из R m.

В другой статье автора будет рассмотрено необходимое условие оптимальности импульсных управлений - аналог классического принципа максимума.

ЛИТЕРАТУРА

1. Колмановский В.Б. Задачи оптимального управления // Соросовский Образовательный Журнал. 1997. ╧ 6. С. 121-127.

2. Оптимальное управление: Сборник. М.: Знание, 1978. 143 с.

3. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. М.: Наука, 1973. 446 с.

4. Завалищин С.Т., Сесекин А.Н. Импульсные процессы: Модели и приложения. М.: Наука, 1991. 256 с.

5. Миллер Б.М. // Автоматика и телемеханика. 1995. Т. 56, ╧ 4. С. 62-77.

6. Дыхта В.А. // Изв. вузов. Математика. 1996. ╧ 12. С. 1-9.

* * *

Владимир Александрович Дыхта, доктор физико-математических наук, профессор, зав. кафедрой высшей математики Иркутской государственной экономической академии, профессор кафедры методов оптимизации Иркутского государственного университета, заслуженный деятель науки РФ, действительный член Академии нелинейных наук. Область научных интересов - качественная теория оптимального управления, разрывные и импульсные динамические системы, эколого-экономическое моделирование. Автор более 100 научных работ, среди которых 11 монографий.