Оптимальное поведение системы по А.Л. Шамису. Поведение. Закон оптимального поведения Оптимальное поведение

Жаропонижающие средства для детей назначаются педиатром. Но бывают ситуации неотложной помощи при лихорадке, когда ребенку нужно дать лекарство немедленно. Тогда родители берут на себя ответственность и применяют жаропонижающие препараты. Что разрешено давать детям грудного возраста? Чем можно сбить температуру у детей постарше? Какие лекарства самые безопасные?

Организационная деятельность. Альтернативные парадигмы организационного процесса.

Все многообразие подходов к организационной деятельности можно представить в виде двух альтернативных парадигм (табл. 5.1). Приведенные парадигмы отражают два принципиально разных подхода к организационной деятельности. Первый можно условно назвать подходом принуждения, когда для создания и поддержания необходимо прикладывать усилия. Как только эти усилия прекращаются, система возвращается к исходному состоянию. Можно конструировать сколь угодно много искусственных организационных схем, но они будут непрочными и неэффективными. История знает немало таких примеров: колхозы, совнархозы, производственные объединения и т.д.

Таблица 5.1

Альтернативные парадигмы организационного процесса

Второй подход ориентирован на естественные процессы организации, развивающийся достаточно долго, чтобы дать место и волеизъявлению человека. Цели человека, выпадающие из диапазона естественного развития (например, создание колхозов), обречены на провал, какие бы ресурсы ни привлекались для их достижения. Вместе с тем здесь нет фатализма – человек с его целеполагающей и волевой деятельностью не исключается из процесса развития, надо лишь выполнить условие: пространство целей человека должно совпадать с диапазоном направлений естественного (возможного в принципе) развития. Ориентацию на естественное развитие можно найти и в исследованиях А. Смита, который утверждал, что для социально-экономического развития общества необходимы мир, легкие налоги и терпимость в управлении, а все остальное сделает естественный ход вещей.

Система управления - кибернетический подход. Принципы управления: принцип разомкнутого управления; принцип разомкнутого управления с компенсацией возмущений; принцип замкнутого управления; принцип однократного управления.

Организация как процесс организовывания – одна из основных функций управления. Под функцией управления понимают совокупность повторяющихся управленческих действий, объединенных единством содержания. Поскольку организация (как процесс) служит функцией управления, любое управление представляет собой организационную деятельность, хотя и не сводится только к ней.

Управление – особым образом ориентированное воздействие на систему, обеспечивающее придание ей требуемых свойств или состояний. Одним из атрибутов состояния является структура.

Организовать – значит, прежде всего создать (или изменить) структуру.

При различиях в подходах к построению систем управления существуют общие закономерности, разработанные в кибернетике. С позиций кибернетического подхода система управления представляет собой целостную совокупность субъекта управления (управляющая система), объекта управления (управляемая система), а также прямых и обратных связей между ними. Предполагается также, что система управления взаимодействует с внешней средой.

Базовым классификационным признаком построения систем управления, определяющим вид системы и ее потенциальные возможности, способ организации контура управления. Согласно последнему выделяют несколько принципов организации контура управления.

Принцип разомкнутого (программного) управления. В основе этого принципа лежит идея автономного воздействия на систему независимо от условий ее работы. Очевидно, что область практического применения этого принципа предполагает достоверность знания состояния среды и системы на всем интервале ее функционирования. Тогда можно предопределить реакцию системы на рассчитанное воздействие, которое заранее программируется в виде функции (рис. 5.1).

Рис. 5.1. Принцип разомкнутого управления

Если данное воздействие отлично от предполагаемого, немедленно последуют отклонения в характере изменения выходных координат, т.е. система окажется незащищенной от возмущений в исходном смысле этого слова. Поэтому подобный принцип используется при уверенности в достоверности сведений об условиях работы системы. Например, для организационных систем подобная уверенность допустима при высокой исполнительской дисциплине, когда отданное распоряжение не нуждается в последующем контроле. Иногда такое управление называют директивным. Несомненным достоинством такой схемы управления является простота организации управления.

Принцип разомкнутого управления с компенсацией возмущений. Содержание подхода состоит в стремлении ликвидировать ограниченность первой схемы, т.е. нерегулируемое воздействие возмущений на функционирование системы. Возможность компенсации возмущений, а значит, ликвидация недостоверности априорной информации базируется на доступности возмущений измерениям (рис. 5.2).


Рис. 5.2. Принцип компенсационного управления

Измерение возмущений позволяет определить компенсирующее управление, парирующее последствия возмущений. Обычно наряду с корректирующим управлением система подвергается программному воздействию. Однако на практике далеко не всегда удается зафиксировать информацию о внешних возмущениях, не говоря уже о контроле отклонений параметров системы или неожиданных структурных изменениях. При наличии информации о возмущениях принцип их компенсации путем введения компенсирующего управления представляет практический интерес.

Принцип замкнутого управления. Рассмотренные выше принципы относятся к классу разомкнутых контуров управления: величина управления не зависит от поведения объекта, а представляет собой функцию времени или возмущения. Класс замкнутых контуров управления образуют системы с отрицательной обратной связью, воплощающие базовый принцип кибернетики.

В таких системах заранее программируется не входное воздействие, а требуемое состояние системы, т.е. следствие воздействия на объект, в том числе управления. Следовательно, возможна ситуация, когда возмущение позитивно воздействует на динамику системы, если приближает ее состояние к желаемому. Для реализации принципа априорно находится программный закон изменения состояния системы во времени Спр(t), а задача системы формулируется как обеспечение приближения действительного состояния к желаемому (рис. 5.3). Решение этой задачи достигается определением разности между желаемым состоянием и действительным:

∆С(t) = Спр(t) – С(t).


Рис 5. 3 Принцип замкнутого управления

Данная разность используется для управления, призванного свести к минимуму обнаруженное рассогласование. Тем самым обеспечивается приближение регулируемой координаты к программной функции независимо от причин, вызвавших появление разности, будь то возмущения различного происхождения или ошибки регулирования. Качество управления сказывается на характере переходного процесса и установившейся ошибке – несовпадении программного и действительного конечного состояния.

В зависимости от входного сигнала в теории управления различают:

■ системы программного регулирования (рассматриваемый случай);

■ системы стабилизации, когда cпр(t) = 0;

■ системы слежения, когда входной сигнал априорно неизвестен.

Эта детализация никак не сказывается на реализации принципа, но вносит специфику в технику построения системы.

Широкое распространение этого принципа в естественных и искусственных системах объясняется продуктивностью организации контура: задача управления эффективно решается на концептуальном уровне благодаря введению отрицательной обратной связи.

Рассмотрен случай программирования изменения во времени состояния системы Спр(t),что означает предварительный расчет траектории в пространстве состояний. Но из поля зрения выпал вопрос, как это сделать. Ответ лимитируется двумя требованиями к траектории, которая должна:

1) проходить через цель;

2) удовлетворять экстремуму критерия качества, т.е. быть оптимальной.

В формализованных динамических системах для отыскания подобной траектории привлекается аппарат вариационного исчисления или его современные модификации: принцип максимума Л. Понтрягина или динамическое программирование Р. Беллмана. В том случае, когда задача сводится к поиску неизвестных параметров (коэффициентов) системы, для ее решения привлекаются методы математического программирования – требуется отыскать экстремум функции качества (показателя) в пространстве параметров. Для решения плохо формализуемых проблем остается уповать на эвристические решения, основанные на футурологических прогнозах, или на результаты имитационного математического моделирования. Точность подобных решений оценить сложно.

Возвратимся к задаче программирования. Если существует способ расчета программной траектории для формализованных задач, то естественно потребовать от системы управления, чтобы она довольствовалась целеуказанием, а программное изменение состояния системы находила непосредственно в процессе управления (терминальное управление). Такая организация системы, конечно, усложнит алгоритм управления, но позволит свести к минимуму исходную информацию, а значит, сделает управление более оперативным. Подобная задача в 1960-х гг. была теоретически решена профессором Е. Горбатовым для управления движением баллистических ракет и космических аппаратов.

В отношении постановки и решения задачи оптимального управления следует учитывать следующее принципиальное обстоятельство.

Выбрать оптимальное поведение системы можно, только если достоверно известны поведение изучаемого объекта на всем интервале управления и условия, в которых происходит движение.

Оптимальные решения могут быть получены и при выполнении других, дополнительных допущений, но дело как раз в том, что каждый случай следует оговорить особо, решение будет справедливо “с точностью до условий”.

Проиллюстрируем сформулированное положение на примере поведения бегуна, стремящегося достичь высокого результата. Если речь идет о короткой дистанции (100, 200 м), то подготовленный спортсмен ставит целью обеспечить максимальную скорость в каждый момент времени. При беге на более длинные дистанции успех определяется его умением правильно распределять силы на трассе, а для этого он должен отчетливо представлять свои возможности, рельеф маршрута и особенности соперников. В условиях ограниченных ресурсов ни о какой максимальной скорости в каждый момент не может идти и речи.

Вполне очевидно, что приведенное ограничение выполняется только в рамках детерминированной постановки задачи, т.е. когда априорно все достоверно известно. Такие условия оказываются чрезмерными для реальных задач: прокрустово ложе детерминизма не соответствует действительным условиям функционирования системы. Априорность нашего знания чрезвычайно сомнительна как в отношении самой системы, так и среды и ее взаимодействия с тем или иным объектом. Достоверность априорных сведений тем меньше, чем сложнее система, что не добавляет оптимизма исследователям, проводящим процедуру синтеза.

Подобная неопределенность привела к появлению целого направления в теории управления, базирующегося на учете стохастических условий существования системы. Самые конструктивные результаты были получены при разработке принципов адаптивных и самонастраивающихся систем.

Оптимизация управления. Адаптивные и самонастраивающиеся, системы.

Адаптивные системы позволяют справляться с неопределенностью путем получения дополнительной информации о состоянии объекта и его взаимодействии со средой в процессе управления с последующей перестройкой структуры системы и изменением ее параметров при отклонении условий работы от априорно известных (рис. 5.4). При этом, как правило, цель трансформаций состоит в приближении характеристик системы к априорным, использовавшимся при синтезе управления. Таким образом, адаптация ориентирована на сохранение гомеостаза системы в условиях возмущений.


Рис. 5.4. Адаптивная система

Одной из сложнейших конструктивных составляющих этой задачи является получение сведений о состоянии среды, без чего затруднительно проводить адаптацию.

Примером успешного получения информации о состоянии среды может служить изобретение трубки Пито, которой снабжены практически все летательные аппараты. Трубка позволяет измерить скоростной напор – важнейшую характеристику, от которой зависят непосредственно все аэродинамические силы. Результаты измерения используются для настройки автопилота. Аналогичную роль в социальных системах играют социологические опросы, позволяющие корректировать решения внутри- и внешнеполитических проблем.

Эффективным приемом изучения динамики объекта управления является метод дуального управления, некогда предложенный А. Фельдбаумом. Суть его состоит в том, что на объект наряду с командами управления подаются специальные тестирующие сигналы, реакция на которые заранее установлена для априорной модели. По отклонению реакции объекта от эталонной судят о взаимодействии модели с внешней средой.

Подобный прием использовался в русской контрразведке во время Первой мировой войны для выявления шпиона. Выделялся круг сотрудников, подозреваемых в предательстве, и каждому из этого круга “доверялась” важная, но ложная информация, имеющая уникальный характер. Наблюдалась реакция противника, по которой и идентифицировался изменник.

От адаптивных систем отличают класс самонастраивающихся систем. Последние в процессе адаптации настраиваются. Однако на принятом уровне общности структура самонастраивающейся системы аналогична структуре адаптивной системы (см. рис. 5.4).

Относительно процессов адаптации и самонастройки можно отметить, что их возможность в конкретных случаях в основном определяется назначением системы и ее техническим воплощением. Подобная теория систем изобилует иллюстрациями, но, как представляется, не содержит обобщающих достижений.

Другой путь преодоления недостаточности априорных данных о процессе управления заключается в совмещении процесса управления с процедурой его синтеза. Традиционно алгоритм управления есть результат синтеза, базирующийся на допущении детерминированного описания модели движения. Но очевидно, что отклонения в движении принятой модели сказываются на точности достижения цели и на качестве процессов, т.е. приводят к отклонению от экстремума критерия. Отсюда следует, что строить управление нужно как терминальное, рассчитывая траекторию в реальном времени и обновляя сведения о модели объекта и условиях движения. Конечно, и в данном случае необходимо экстраполировать условия движения на весь оставшийся интервал управления, но по мере приближения к цели точность экстраполяции возрастает, а значит, повышается качество управления.

В этом видна аналогия с действиями правительства, которое не в состоянии выполнять плановые задания, например бюджетные. Условия функционирования экономики меняются нерасчетным образом, с нарушением прогнозов, поэтому приходится постоянно корректировать намеченный план в стремлении достичь итоговых показателей, в частности, производить секвестр. Отклонения от априорных предположений могут быть столь велики, что имеющимися ресурсами и принимаемыми мерами управления уже нельзя обеспечить выполнение цели. Тогда приходится “приближать” цель, размещая ее внутри новой области достижимости. Отметим, что описанная схема справедлива только для устойчивой системы. Низкое качество организации управления может привести к дестабилизации и, как следствие, к разрушению всей системы.

Остановимся еще на одном принципе управления, лежащем в основе развитой теории исследования операций.

Принцип однократного управления. Широкий круг практически значимых задач предполагает необходимость осуществить однократный акт управления, а именно – принять некоторое решение, последствия которого сказываются длительное время. Разумеется, и традиционное управление можно интерпретировать как последовательность разовых решений. Здесь мы вновь сталкиваемся с проблемой дискретности и непрерывности, граница между которыми так же размыта, как и между статическими и динамическими системами. Однако различие все-таки существует: в классической теории управления исходят из того, что воздействие на систему есть процесс, функция времени или параметров состояния, а не однократная процедура.

Другой отличительной особенностью исследования операций является то, что эта наука оперирует с управлениями – константами, параметрами системы. Тогда если в динамических задачах в качестве критерия используется математическая конструкция – функционал, оценивающий движение системы, то в исследовании операций критерий имеет вид функции, заданной на множества исследуемых параметров системы.

Область практических задач, охватываемая исследованием операций, весьма обширна и включает мероприятия по распределению ресурсов, выбору маршрутов, составлению планов, управлению запасами, очередями в задачах массового обслуживания и др. При решении соответствующих задач привлекается изложенная выше методология их описания с учетом категорий модели, состояния, цели, критерия, управления. Так же формулируется и решается проблема оптимизации, состоящая в нахождении экстремума критериальной функции в пространстве параметров. Задачи решаются как в детерминированной, так и в стохастической постановках.

Поскольку процедура оперирования с константами существенно проще, чем действия с функциями, теория исследования операций оказалась более продвинутой, нежели общая теория систем и, в частности, теория управления динамическими системами. Исследование операций предлагает больший арсенал математических средств, порой весьма утонченных, для решения широкого круга практически значимых задач. Вся совокупность математических методов, обслуживающих исследование операций, получила название математического программирования. Так, в рамках исследования операций развивается теория принятия решений – чрезвычайно актуальное направление.

Теория принятия решений, по сути, рассматривает процедуру оптимизации условий детального описания векторного критерия и особенности установления его экстремального значения. Так, для постановки задачи характерен критерий, состоящий из нескольких составляющих, т.е. многокритериальная задача.

Чтобы подчеркнуть субъективизм критерия и процесса принятия решения, в рассмотрение вводится лицо, принимающее решение (ЛИР), обладающее индивидуальным взглядом на проблему. При изучении решений формальными методами это проявляется через систему предпочтений при оценке той или иной составляющей критерия.

Как правило, для принятия решения ЛПР получает несколько вариантов действий, каждый из которых подвергается оценке. Такой подход максимально приближен к реальным условиям действий ответственного субъекта в организационной системе при выборе одного из вариантов, подготовленных аппаратом. За каждым из них стоит проработка (аналитическая, имитационное математическое моделирование) возможного хода развития событий с анализом конечных результатов – сценарий. Для удобства принятия ответственных решений организуются ситуационные комнаты, оборудованные наглядными средствами отображения сценариев на дисплеях или экранах. Для этого привлекаются специалисты (операционалисты), владеющие не только математическими методами анализа ситуаций и подготовки принятия решений, но и предметной областью.

Понятно, что результатом применения к объекту теории исследования операций, в частности, и теории принятия решений, является некоторый оптимальный план действий. Следовательно, на вход некоторого блока, “начиненного” оптимизационным алгоритмом и построенного с применением соответствующего метода математического программирования модели ситуации, подается информация: начальное состояние, цель, критерий качества, перечень варьируемых параметров, ограничения. (Модель системы используется при построении алгоритма.) Выход блока и есть искомый план. С точки зрения кибернетики такое построение классифицируется как разомкнутый контур управления, поскольку выходная информация не влияет на входной сигнал.

В принципе, рассмотренный подход можно применить и для случая замкнутого управления. Для этого необходимо организовать итерационный процесс во времени: после реализации плана ввести новое состояние системы в качестве начального условия и повторить цикл. Если позволяет задача, можно сократить плановый период за счет приближения цели к начальному состоянию системы. Тогда просматривается аналогия предлагаемых действий с рассмотренной выше итерационной процедурой терминального управления, также базирующейся на периодическом обновлении исходной информации. Более того, динамическую задачу, оперирующую с процессами, можно свести к аппроксимации функций функциональными рядами. При этом варьируемыми переменными будут уже параметры таких рядов, а значит, применим аппарат теории исследования операций. (Подобное осуществлено в теории вероятностей, когда случайные процессы описываются каноническим разложением.)

Изложенная методология начала находить применение в теории искусственного интеллекта при синтезе ситуационного управления.

Следует указать на опасность, связанную с практическим применением теории принятия решений недостаточно компетентными в теории систем лицами. Так, часто в организационных системах (государственных учреждениях, фирмах, финансовых организациях) принятие решения абсолютизируют и сводят к оперированию многочисленными показателями и оптимальному осуществлению разового управленческого акта. При этом из поля зрения упускают последствия произведенного действия для системы, забывают, что управляют не критерием, а системой, не учитывая многостадийность замкнутого процесса – от системы к ее состоянию, далее через показатели к решению и вновь к системе. Конечно, на этом долгом пути делается множество ошибок, объективных и субъективных, которых уже достаточно для серьезного отклонения от плановых результатов.

Под принципом оптимальности понимается та совокупность правил, при помощи которых ЛПР определяет свое действие (решение, альтернативу, стратегию, управленческое решение), наилучшим образом способствующее достижению поставленной им цели. Принцип оптимальности выбирается исходя из учета конкретных условий принятия решения: количества участников, их возможностей и целей, характера столкновения интересов (антагонизм, неантагонизм, кооперация и т.п.).

В моделях принятия решения, особенно в теории игр, разработано большое число формальных принципов оптимального поведения. Мы здесь остановимся лишь на некоторых из них.

Принцип максимизации (минимизации). Такой принцип применяется, в основном, в задачах математического программирования (см. (2) - (4)).

Принцип свертки критериев. Применяется при "оптимизации"" многих критериев одним координирующим центром (задача многокритериальной оптимизации (5)).Для каждого из критериев (целевых функций)

f 1 (u),...,f n (u)

экспертным путем назначаются "веса" (числа)

причем α i показывает "важность или значимость" критерияf. Далее решениеx* из множества допустимых решений Х выбирается так, чтобы максимизировать (или минимизировать) свертку критериев:

Принцип лексикографического предпочтения. Это еще один принцип оптимальности в задачах многокритериальной оптимизации. Сначала критерии ранжируются по "важности". Пусть такая ранжировка составлена:

f 1 (x),f 2 (x),...,f n (x)

Решение х*Х "лучше" решения хХ в смысле лексикографического предпочтения, если выполнено одно изn+1 условий:

    f 1 (x*)>f 1 (x);

    f 1 (x*)=f 1 (x), f 2 (x*)>f 2 (x);

    f 1 (x*)=f 1 (x), f 2 (x*)=f 2 (x), f 3 (x*)>f 3 (x);

………………

    f i (x*)=f i (x) для i=1,…,n-1, f n (x*)>f n (x);

n+1) f i (x*)=f i (x) для i=1,…,n.

Принцип минимакса. Применяется при столкновении интересов двух противоборствующих сторон (антагонистический конфликт). Каждое ЛПР сначала для каждой своей стратегии (альтернативы) вычисляет "гарантированный" результат, затем окончательно выбирает ту стратегию, для которой этот результат наибольший по сравнению с другими его стратегиями. Такое действие не дает ЛПР "максимальный выигрыш", однако является единственным разумным принципом оптимальности в условиях антагонистического конфликта. В частности, исключен всякий риск.

Принцип равновесия. Это обобщение принципа минимакса, когда во взаимодействии участвуют много сторон, преследующих каждыйсвою цель (прямого противостояния нет). Пусть число ЛПР (участников неантагонистического конфликта) естьn. Набор выбранных стратегий (ситуация)x 1 *,x 2 *,…,x n * называется равновесным, если одностороннее отклонение любого ЛПР от этой ситуации может привести разве лишь к уменьшению его же "выигрыша". В ситуации равновесия участники не получают «максимального» выигрыша, но они вынуждены придерживаться ее.

Принцип оптимальности по Парето. Данный принцип предполагает в качестве оптимальных те ситуации (наборы стратегий х 1 ,…,x n), в которых улучшение «выигрыша» отдельного участника невозможно без ухудшения «выигрышей» остальных участников. Этот принцип предъявляет слабые требования к понятию оптимальности, чем принцип равновесия. Поэтому Парето-оптимальные ситуации существуют почти всегда.

Принцип недоминируемых исходов . Этот принцип является представителем многих принципов оптимальности в кооперативных играх (коллективное принятие решений) и приводит к понятию "ядра" решений. Все участники объединяются и совместными согласованными действиями максимизируют «общий выигрыш». Принцип недоминируемости -один из принципов ""справедливого"" дележа между участниками. Это та ситуация, когда ни один из участников не может аргументировано возразить против предлагаемого дележа (элемента "ядра"). Существуют и другие принципы «оптимального» дележа общего суммарного выигрыша.

Принципы устойчивости (угрозы и контругрозы). Идея всех принципов устойчивости на основе угроз и контругроз заключается в следующем. Каждая коалиция участников выдвигает свое предложение, сопровождая его реальной угрозой: если предложение не будет принято остальными участниками, то будут предприняты такие действия, которые ухудшают положение остальных участни­ков и не ухудшают (возможно улучшают) положение угрожающей коалиции. Оптимальным считается то решение, в условиях которого против всякой угрозы любой коалиции найдется контругроза со стороны какой-то коалиции.

Арбитражные схемы. Экономические конфликты наводят на мысль об "общественном арбитре". Нежелательно, чтобы столкновения интересов переходили, например, воткрытые угрозы и контругрозы. Должны существовать социальные механизмы, которые позволяли бы учитывать предпочтения и стратегические возможности каждого участника и обеспечили бы "справедливое" решение конфликта. Такой предварительный механизм, будь то отдельное лицо или система голосования, называется арбитром. В теории игр оптимальное, в смысле арбитражной схемы, решение строится при помощи системы аксиом, включающих такие понятия, как статус-кво, оптимальность по Парето, линейность альтернатив, независимость от "рангов" и т.д.

Рассмотрим далее вопросы оптимального принятия решения в условиях неопределенности. Для выработки оптимального поведения ЛПР такую ситуацию полезно моделировать, как антагонистическую игру двух лиц, где в качестве противника ЛПР рассматривается природа. Последняя наделяется всеми мыслимыми в данных условиях возможностями.

В "играх с природой" существуют свои специфические (хотя и напоминающие принцип минимакса) принципы оптимального выбора решения.

Принцип крайнего пессимизма (критерий Вальда). Согласно этому принципу игра с природой (принятие решения в условиях неопределенности) ведется как игра с разумным, агрессивным противником, делающим все для того, чтобы помешать нам достигнуть успеха. Оптимальной считается стратегия ЛПР, при которой гарантируется выигрыш, не меньший, чем "разрешенный природой".

Принцип минимаксного риска (критерий Сэвиджа). Этот принцип также пессимистический, но при выборе оптимальной стратегии советует ориентироваться не на "выигрыш", а на риск. Риск определяется как разность между максимальным выигрышем ЛПР (при условии полной информации о состоянии природы) и реальным выигрышем (при незнании состояния природы). В качестве оптимальной выбирается та стратегия, при которой величина риска минимальна.

Принцип пессимизма - оптимизма (критерии Гурвица). Этот критерий рекомендует при выборе решения не руководствоваться ни крайним пессимизмом («всегда рассчитывай на худшее!»),ни крайним оптимизмом ("авось кривая вывезет!").Согласно этому критерию максимизируется взвешенное среднее между выигрышами крайнего пессимизма и крайнего оптимизма. Причем «вес» выбирается из субъективных соображений об опасности ситуаций.

Концепция динамической устойчивости. Все изложенные выше принципы оптимальности сформулированы относительно статических задач принятия решения. Попытка применения их в динамических задачах может сопровождаться всевозможными осложнениями.

Главное -это особенности динамических процессов. Нужно, чтобы тот или иной принцип оптимальности, выбранный в начальном состоянии процесса (в начальный момент времени), оставался оптимальным в любом текущем состоянии (в любой момент времени) до конца динамического процесса. Этот принцип называется динамической устойчивостью.

При УСЛОВИИ Cq -^ О

Исследование решения задачи для малых значений весового множителя в функционале (6.6) представляет существенный интерес с точки зрения оценки предельно достижимой точности замкнутой системы при несущественности ограничений на интенсивность (мощность) управления. Кроме того, представляется важным оценить тот максимальный уровень мощности управляющего воздействия, превышение которого не приводит к дальнейшему увеличению точности управления.

Основные положения исследования предельного поведения оптимальной системы при условии с 0 -»0 представим в форме следующего утверждения.

Теорема 6.3. Для замкнутой системы (6.4), (6.7), которая оптимальна в смысле функционала (6.6), справедливы соотношения

Здесь использованы следующие дополнительные обозначения:

причем полином B*(s) является гурвицевым, а комплексные числа (3, Р 2 ,..., Р п -это общие корни полиномов M(s) и B*(-s).

Доказательство. Введем обозначение и по аналогии с формулами (6.26), (6.27) запишем соотношения

где gj (i = l,n) - корни полинома G‘(-s,7.).

С учетом (6.42)-(6.44) формулы (6.13)-(6.15) могут быть представлены в следующем виде:

Очевидно, что рассмотрение предельного поведения замкнутой системы при условии с 0 -> 0 эквивалентно рассмотрению ее предельного поведения при условии X -> сю.

Прежде чем переходить к непосредственному доказательству утверждений теоремы, рассмотрим предельное поведение корней полинома G*(-s,X ) в тождестве (6.43) при указанном условии.

С этой целью воспользуемся известным утверждением, представленным в работе , в соответствии с которым при стремлении X -> 00 m корней полинома G*(-s,X) стремятся к корням полинома B*(-s) -негурвицева результата факторизации:

Остальные (п - т) корней полинома G*(-s,X) при условии X -> °о уходят в бесконечность, асимптотически приближаясь к прямым, пересекающимся в начале координат и образующим с вещественной осью углы, определяемые выражением

причем все эти корни расположены на окружности радиуса

С учетом отмеченных соображений имеем
где использованы обозначения

причем постоянные коэффициенты /с, (/ = ,п-т- ) не зависят от величины X,

Теперь последовательно рассмотрим два возможных варианта по отношению к полиному M pb (-s) в разложении (6.41), соответственно характеризуемых условиями М рЬ =1 и М рЬ Ф 1.

Вариант 1. Предположим, что выполняется условие M p b(~ s) = 1, которое эквивалентно равенству Г) = 0. Это значит, что полином В" (-s) не имеет общих корней с полиномом M(s) = B"(-

Рассмотрим предельное поведение полинома R(s,X) (6.47) при условии X -> °°, предварительно заметив, что

Из (6.50) следует, что т корней полинома lim G f (-s,X) совпадают с корнями (3, (/ = 1,т) полинома B*(-s ), а остальные (п - т)

корней - с корнями р г (г = т + 1,п) полинома P(-s,X) (6.53), которые определяются следующими выражениями:

При этом с очевидностью выполняются соотношения

Учитывая соотношения (6.50) и (6.54)-(6.56), предельный полином R(s, X) можно представить в виде суммы двух предельных полиномов R^SyX) и R 2 (s,X ):

Первый из этих полиномов связан только с корнями (3, а второй - только с корнями р,:

Согласно (6.56) имеем lim Р(-|3-Д) = Игл Х 1 , поэтому выраже-

ние (6.57) можно представить в виде или

поскольку, согласно формулам (6.51), (6.53),

Заметим, что полином B,*(s) имеет конечные коэффициенты, отличные от нуля в силу условия М(Р,.)*0 и не зависящие от X .

Теперь преобразуем соотношение (6.58), напомнив следующие равенства: deg A(s) = п , Sj(s) = N(s)/T(s ), degN(s) = p , degT(s) = q . Кроме того, учтем, что условие degB"(-s) = degB“(s) = т, как нетрудно показать, влечет за собой выполнение соотношения

Тогда имеем

Но из формулы (6.55) с учетом соотношения (6.60) следует: и согласно (6.56), (6.51):

где г* и г** (/ = m + 1,н) - комплексные числа с конечными модулями, отличными от нуля. Тогда получаем

и соответственно

В силу (6.50)-(6.53) и (6.55) имеем:

причем постоянные комплексные числа r ; , r u , r 2i , к и, k 2i , ... , k(n - m - 2 )i (i = + 1,и) не зависят от величины А,.

Тогда, учитывая справедливость неравенства п-т> 1 (иначе Pj(s,X) = const), имеем lim ?)(s,A)/A = 0 и согласно формуле (6.61)

Но тогда в соответствии с тождествами (6.59) и (6.62) получаем

При этом, в соответствии с (6.45) и (6.46), имеем следующие формулы для предельных передаточных матриц оптимальной замкнутой системы:

Вариант 2. Теперь рассмотрим вторую ситуацию, когда тождество М b (-s) = 1 не выполняется, т.е. в данном случае считаем, что полиномы В" (-s) и M(s) = B"(-s)RC(s) имеют Г) общих корней.

При этом полином B-s) представляется произведением где

В отличие от предыдущего случая, при рассмотрении предельного поведения полинома R(s,X) представим его в виде суммы трех слагаемых:

причем первый полином будем строить только с использованием корней (3, (/ = 1,Г)) полинома M pb (-s), второй - корней Р г (I = Т) +1,ш) полинома B" Q (-s ) и третий - корней ц г (i = m + l,n ) полинома P(s).

При этом для второго и третьего полиномов, в полной аналогии с предыдущим вариантом, получим

Для полинома R x имеем

поскольку М(РД = 0 Vie .

Из приведенных формул (6.67)-(6.69) следует тождество lim Kj(s,A,) = B* 2 (s) , и, заменяя в (6.64) полином B[(s) на B* 2 (s ),

получим второй вариант предельных передаточных матриц для оптимальной замкнутой системы. Объединяя оба варианта единой записью, получим соотношения (6.37)-(6.41).

Теорема доказана полностью. ?

Приведем естественное следствие из теоремы 6.3, которое имеет самостоятельное значение.

Теорема 6.4. Если все корни полинома В* (-s) являются одновременно и корнями полинома M(s) = B"(-s)RC(s), и при этом выполняется равенство RyR = 0, то I x0 = Нш 1 х (с 0) = 0, т.е.

при условии, что ограничение на мощность управляющего воздействия не меньше величины 1 и0 = Нш7 1((с 0), определяемой форму-

лой (6.37 а), достижима абсолютная (с нулевой ошибкой) точность управления.

Доказательство. Согласно условию теоремы, на основании тождества (6.41) имеет место соотношение Г) = т, но тогда из формулы (6.40) следует тождество R" (s) = 0 .

При этом выполнение равенства RyR = 0 в соответствии с формулами (6.38), (6.39) и (6.37), (6.37а) и с учетом (6.41) дает

где . Теорема доказана. ?

Рассмотрим следующую частную ситуацию.

Теорема 6.5. Если матрица R является диагональной с единственным отличным от нуля элементом r pp = 1, т. е. точность замкнутой системы определяется дисперсией р-й компоненты вектора х, то имеют место следующие соотношения:

а) если полином В р (s) является гурвицевым или все его «правые» корни входят в спектр корней полинома C p (s), то

б) если полином B p (s) имеет хотя бы один корень в правой полуплоскости, который не является корнем полинома C p (s), то

причем здесь учитываются формулы (6.37а) и (6.39)-(6.41) (в данном случае имеем г

Доказательство. Из формулы (6.18) следует, что матри- ца 7(5) = ■ Будем считать, что на верхнем уровне иерархии расположен элемент А0, который называется центром. Множество Г = 10\ {/40 } разобьем на 1> непересекающихся подмножеств ¿>2 , таких, что.и £¿=7. Обозначим

через 1Г, ..,^(0 множества допустимых действий (управле-

ний, стратегий) элементов А0> Ал Мы будем предпо-

лагать, что в общем случае множества допустимых действий зависят от управлений, выбранных элементами более верхних уровней системы и не пусты при любых допустимых значениях этих управлений. Критерий любого элемента £е I будем задавать некоторым функционалом определенным на множестве 1/х х. ..л гсе ^е^О), . Каждый из элементов заинтересован в максимизации своего функционала.

Процесс принятия решения в такой системе мы будем моделировать иерархической многоуровневой игрой Г, которую будем называть иерархической игрой общего вида.

В § 1.2 обсуждаются проблемы оптимизации в системах управления и принятия решений с иерархической структурой, формулируется понятие иерархической структуры управления. Характерным элементом, использованным для выбора решения в иерархической системе является множество оптимальных реакций отдель-

ноР компоненты системы или группы компонент /?( ) на

выбор управлений подсистемами более еысоких уровней. В этом параграфе рассмотрен ряд конкретных: моделей принятия решений в двухуровневых системах управления.

Параграф 1.3 посвящен принципам оптимальности, используемым в теоретико-игровых моделях. Здесь рассматриваются двухуровневая, древовидная игры и иерархическая игра общего вида. В качестве принципов оптимальности в отих играх используются равновесия по Нэшу и по Штакельбергу. Показано, что в древовидной игре при предположении о единственности точек максимума функционалов выигрышей для всех значений параметров, решение по Штакельбергу совпадает с множеством ситуаций равновесия по Нээу.

Для игры Г введем.понятие равновесных иерархических стратегий игроков.

Определим множество оптимальных реакций игроков шютего уровня следующим образом:

/Г(>У,...У~1Ь{гЛг/£_ ^ Н; (и, у,1 .и1~\

где ик

vl¡\!^". - Еектор управлений, в котором £-ая компонента заменена на г>/ .

Определение. Отображение V п., и]..и^""1) » ставящее в соответствие каядому допустимому набору и> у1, .. единственное управление к -го уровня, принадлежащее

.»пюгкеству оптимальных реакций, будем

называть равновесной иерархической стратегией Л-го уровня

Здесь множество оптимальных реакций?< -го уровня определяется так:

где V ( ),...(.) - соответственно равновесные иерархи-

ческие стратегии &-И,... , Ъ -го уровней.

Равновесным иерархическим решением центра будем называть множество R0 всех управлений its ¿7, таких, что

В лемме 1 доказывается, что любой набор равновесных иерархических стратегий образует ситуацию равновесия по Нэшу. Дчя частного случая игры Г, когда на каждом уровне иерархии расположен только один игрок формулируется Теорема -I о существовании ситуации е-равновесия.

В § 1.4 подробно обсуждается процесс нахождения решения по Дтакельбергу в ромбовидных играх, рассматриваются также многокритериальные ромбовидные системы управления, в которых используется смешанный принцип оптимальности. Для соответст-вую:дей этой системе ромбовидной игры вводится понятие SP-решения, которое обладает свойствами решения по Штакельбергу и требованиям оптимальности по Парето. Для иллюстрации процессов принятия решений в системах с ромбовидной структурой рассматривается задача построения оптимального плана производственного подразделения С, подчиненного двум административным центрам В1 и &г, которые ь свою очередь также подчинены центру А0, а такая задача распределения ресурсов в иерархической системе производства. "

Основной особенностью кооперативных игр с иерархической структурой является то, что характеристические функции в этих играх строятся с учетом информационной структуры. В работах Л.А.Петросяна характеристические функции ромбовидных игр строятся с использованием ситуаций равновесия по Нашу. В параграфе 1.5 предлагается способ построения характеристической функции кооперативной иерархической игры общего вида с использованием равновесных иерархических стратегий игроков в бескоалиционной игре Г. Доказывается супераддитивность построенной характеристической функции. В теореме 4 устанавливается, что вектор выигрышей в ситуации равновесия игры Г является дележом,в кооперативной игре и принадлежит ее С-ядру. В конце параграфа рассмотрены примеры построения характеристических функций в ромбовидных играх.

3 ряде научных публикаций Р.Д.Аумана, Н.Н.Воробьева, P.P. Льюса, Э.Ддмме, Д.М.Крепса, Н.Куна и других исследователей

рассматриваются различные модификации понятия устойчивости ситуаций равновесия в играх в развернутой форме. В параграфе 1,6 вводится новое понятие устойчивости решения в иерархической игре Г общего вида. Обозначим через

М = {О, V,...,г>п); и.е/г°, vke ..к = \,г,...,ь}

Решение иерархической игры Г, где - множество оптимальных иерархических решений центра, /?*( ] - множество оптимальных реакций игроков к-го уровня, непустое при всех допустимых значениях управлений игроков более верхних уровней.

Обозначим иерархические стратегии игрока г через Ц>-(") , а коалиции - через

Рассмотрим ситуацию (и, у 1(-), ■ ■., такую, что

любого -ие/?0 , = и, Л = 1,2,...,1-

Пусть М^ есть подмножество М, включающее в себя все альтернативы с фиксированной стратегией центра Для каждого "к =1,2,...,1 введем множество

м1м.... V1"") = {(г>?..., V1): . 1>1.у-"), 1-К..Л

Определение. Альтернатива (и, V1,... называется

иерархически устойчивой относительно ситуации если при любом к = ■(, 2,..., I

Подмножество А/," множества Ми будем называть иерархически устойчивым относительно ситуации (.и.гуЧ"),...,Ч10)) , если любая альтернатива из множества М^ является иерархически устойчивой относительно этой ситуации. Ситуацию (и,<рV-;,... ...»ф^С-)) будем называть абсолютно иерархически устойчивой, если относительно нее устойчиво множество М1о.

Сформулируем следующие теоремы о необходимых и достаточных условиях иерархической устойчивости, доказанные в первой главе.

Теорема 6. Для того, чтобы альтернатива

была иерархически устойчивой относительно ситуации (_ и,$4-),...

-»С-)) , необходимо и достаточно, чтобы для любого

£ =1,2,",..,£ выполнялось условие

П к-<1()у*"*;,

где У^ср1^,»1,..., V , £=

Теорема 7. Для того, чтобы оптимальная ситуация Си, ^"О,--"/?^")) была абсолютно иерархически устойчивой, необходимо и достаточно, чтобы для любой альтернативы (и, г>1...>у1)&М1 выполнялось условие

для всех А = {,2., ... ,1 .

Глава 2. Динамические конфликтные системы управления

с иерархической структурой

В этой главе формулируется задача конфликтного управления общей динамической системой с иерархической структурой. Для иерархических систем управления, динамика которых описывается векторными дифференциальными уравнениями, а функционалы выигрышей содержат интегральные и терминальные слагаемые, формулируется проблема динамической устойчивости решений для различных принципов оптимальности, исследуются условия, при которых решения оказываются динамически устойчивыми, для неустойчивых принципов оптимальности предлагаются методы регуляризации, обеспечивающие динамическую устойчивость решений иерархических игр.

В параграфе 2.1 формулируется задача конфликтного управления в динамических моледях с иерархической структурой, обсуждаются условия, обеспечивающие существование и единственность решений систем дифференциальных уравнений для различных классов стратегий и управлений, приводятся условия, при которых множества всевозможных траекторий при использовании программных и синтезирующих управлений совпадает. В конце параграфа рассматриваются два примера нахождения ситуаций равновесия в двухуровневых дифференциальных играх с терминальными

выигрышами. Рассмотренные примеры характерны тем, что оптимальные врогра»!»!Ные стратегии в одном из них оказываются динамически неустойчивыми, а в другом обладают противоположным свойством.

Динамика всех конфликтных иерархических систем рассматриваемых в первом параграфе и во всей главе описывается векторным дифференциальным уравнением

при начальных условиях

I й Т > управления гс. е, р. е й в каждый момент времени выбираются из компактных множеств,..., Рп, £ = ■1,2, ...,п Функционалы выигрышей игроков рассматриваются в виде

= ¿-0,1.....п.

Существенным моментом в построении теоретико-игровой модели принятия решения в конфликтной системе управления является выбор принципа оптимальности, а также типа стратегий, используемых игроками. Об этом идет речь в параграфе 2.2. В соответствии с принятой терминологией мы определяем стратегию игрока как отображение информационного множества этого игрока на множество его управляющих параметров. В общем случае предполагается, что пространство стратегий 1-го игрока есть множество отображений ^¿(¿,хО>) , где для фиксированного I, (р.(-) зависит от для %&1а\ Ь~\. Интересным представляет-

ся случай, когда в иерархической дифференциальной игре двух лиц используются стратегии, включающие предложение игроку нижнего уровня отслеживать совместно с игроком верхнего уровня некоторую траекторию, выгодную обоим игрокам. Такие стратегии использовались, например, в работах А.Ф.Клейменова.

В параграфе 2.2 аналогичные стратегии рассматриваются для двухуровневой игры п-Н лица с одним центром - игроком верхнего уровня, когда центр не оказывает влияния на динамику системы, а лишь только на значение функционалов выигрышей иг-

роков нижнего уровня. Характерной особенностью предлагаемых конструкций решения является наличие у центра стратегии угр; эы, предполагающей в случае отклонения от реализации предложенной страектории переход центра на универсальную стратеги которую можно трактовать еще как стратегию наказания. Далее в атом параграфе обсуждается применение принципа оптимально! ти штакольберга для двух и трехуровневых дифференциальных игр. Б конце параграфа рассматриваются примеры нахождения о: тикальных по Лтакельбсргу решений, а также БР-решений в дв, уровневкх дифференциальных играх.

Б параграфе 2.3 обсуждается проблема динамической устой чпвости решений иерархических дифференциальных игр. Решение М(10>х0) иерархической дифференциальной игры ГС^0,агр^ м называем динамически устойчивым, если для любого набора стр тегий еМ(10,х0) и любого ¿еЦ0>

спра ведай во условие

где _ сужение оптимальных стратегий На

интервал Г] . А/({,х(£)) - решение текущей игры в которой в качестве начальной позиции используется точка оптимальной траектории в момент времени Ь. Из такого опре деления динамической устойчивости решения следует, что дине мицески устойчивью оптимальные стратегии обладают свойство?, сохранять сбою оптимальность на протяжении всего периода рг вития игры вдоль оптимальной траектории.

Далее в отом параграфе доказывается динамическая устой* вость равновесия по Нолу и Парето-оптимального решения в ю ссе програмшых стратегий. Подробно обсуждаются здесь таш;:< динамические свойства решения по Стапельбергу перархическо! даффереициальной игры двух лиц. Показано, что даже в том с. чае, когда множество оптимальных реакций игрока нижнего ур> ня состоит из единственной стратегии, решение по Штакельбе; в общем случае оказывается динамически неустойчивым как в ссе программных, так и позиционных стратегий. Вместе с тем существуют иерархические игры, в которых решение по Штакел бергу является динамически устойчивым. Это подтверждается конкретным примером, помещенным в конце параграфа.

Параграф 2.4 посвящен методу регуляризации двухуровнев

дифференциальных игр. Цель метода состоит в том, чтобы обеспечить динамическую устойчивость решения игры. Для этого предлагается каждому игроку к моменту времени выплачивать такую часть интегрального гыигрива, чтобы на любом оставшемся до конца игры интервале времени этол?у игроку было не выгодно отклоняться от выбранной в начале игры стратегии. Характерное свойство решения по Штакельо"ергу двухуровневой игры в классе программных стратегий сюормулировано в следующей леммо.

Лемма 2Л. Пусть М(i0,x0)-решение по Штакельбергу двухуровневой игры Г на классе программных стратегий. Для любой ситуации (ü,v^,...,vn)

vil, П eRsCü.Li,T}),

где Rs{ñ ТУ) - множество оптимальных реакций игроков нижнего уровня в текущей игре I. й-lГ]~ = (ß^iyT]}.,., vn lít Г]) - сужения оптимальных управлений игроков на отрезке времени .

Аналогичная лемма в этом параграфе сформулирована для S Р -решения двухуровневой дифференциальной игры.

Рассмотрим теперь пучок траекторий X?.(í) ¿0¡x0) оптимальных по Штакельбергу, дая которых фиксировано управление центра il.(i). Тогда, как показано в теорема 2, условие

Н" °(йа,"П, vltj]) = max min

u-"eVCtSJ vt£R^ut) 0 *

где vb) - функционал центра в текущей игре,

xÍb xí(¿ í„, x\ - произвольная позиция сечения пучка в моме-

О > > О" О"

нт времени í, является достаточным для динамической устойчивости решения. Аналогичное условие устанавливается для SP-решения в теореме 3. В этих теоремах условие типа (I) предполагает, что оптимальная реакция нижнего уровня в случае динамически устойчивой ситуации равновесия (,ü,v) одновременно является и стратегией наказания. Однако, как показано в теореме 2, это условие можно ослабить, введя понятие некоторой универсальной стратегии наказания

и сформулировав уже условие (í) для этой стратегии нижнего уровня. Далее для реализации метода регуляризации предполагается, что интегральный выигрыш a.At) игрока i , который

ему выплачивается к моменту времени íe[í0,T} , определяется следующим образом:

и{ (t) = ¡i¿ (Ь) I h; С^С-с;, ü(T), ü(T)) dr, i=0,i,...,п,

где p¿(í)- кусочно непрерывные функции, принимающие значения в интервале от нуля до единицы. Причем значения функций ji-(i), вообще говоря, завися"." от выбранной траектории, поэтому

Это позволяет вычислить значения функционалов выигрышей игроков на сужония оптимальных управлений ¿¿, vLi,T3 с учетом функции Ji(-) , а для набора стратегий, не совладоэт-щих с выбранным оптимальным, обычным образом. Этот процесс перераспределения выигрша вдоль оптимальной траектории мы будем называть регуляризациой иерархической дифференциальной игры, а иерархическую дифференциальную игру, допускающую регуляризации, iti"poii с трапсферао"ельнк;>:и во времени шигршадш или ¿-трансферабелькыми выигрышами.

Пусть ü(_í) v(i),äi}

Поддержите проект — поделитесь ссылкой, спасибо!
Читайте также
Жена сергея лаврова - министра иностранных дел Жена сергея лаврова - министра иностранных дел Урок-лекция Зарождение квантовой физики Урок-лекция Зарождение квантовой физики Сила равнодушия: как философия стоицизма помогает жить и работать Кто такие стоики в философии Сила равнодушия: как философия стоицизма помогает жить и работать Кто такие стоики в философии