Biblioteka Główna AGH w Krakowiewinntbg.bg.agh.edu.pl/rozprawy/9998/full9998.pdf · Algorytmy...

AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA

WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI KATEDRA AUTOMATYKI

ROZPRAWA DOKTORSKA

ALGORYTMY STEROWANIA OPTYMALNEGO W NIELINIOWEJ REGULACJI PREDYKCYJNEJ

MGR INś. PIOTR BANIA

Promotor: dr hab. inŜ. Adam Korytowski

Kraków, 2008

Podziękowania

Dziękuję panu prof. Adamowi Korytowskiemu za udzielenie mi wsparcia oraz za nieustające

próby wyzwolenia mnie z pułapki nawykowego, konwencjonalnego myślenia. Dziękuję teŜ

mojej Ŝonie za cierpliwość i podtrzymywanie mnie na duchu w trudnych momentach.

Piotr Bania

Algorytmy sterowania optymalnego w nieliniowej regulacji predykcyjnej

Streszczenie

W rozprawie sformułowano ogólny algorytm predykcyjny z przybliŜoną optymalizacją i adaptacją wskaźnika jakości dla systemów opisywanych nieliniowymi równaniami róŜniczkowymi zwyczajnymi. PowyŜszy algorytm jest rozszerzeniem klasycznych algorytmów predykcyjnych i umoŜliwia realizację zadań sterowania czasooptymalnego i docelowego oraz stabilizacji po osiągnięciu celu. Podano szereg przykładów zastosowań algorytmu w układach magnetycznej lewitacji, technologii chemicznej, robotyce i lotach kosmicznych. Rozdział pierwszy ma charakter wprowadzający. Rozdział drugi rozprawy zawiera twierdzenia o stabilności i odporności algorytmu udowodnione przy załoŜeniu, Ŝe rozwiązania problemów optymalizacji są rozwiązaniami suboptymalnymi. Ta własność pozwala zredukować nakład obliczeń. Bazując na wynikach rozdziału drugiego, w rozdziałach trzecim i czwartym zaproponowano nowy, quasi-czasooptymalny algorytm predykcyjny, łączący w sobie cechy sterowania czasooptymalnego i stabilizacji. Rozdział 5 zawiera szczegółowe wyniki dotyczące wyznaczania ograniczeń stanu końcowego oraz własności asymptotycznych zaproponowanych algorytmów predykcyjnych. Następnie przeanalizowano moŜliwości zastosowania stosunkowo nowej metody optymalizacji dynamicznej, jaką jest metoda MSE. Metoda MSE, zaadaptowana do potrzeb sterowania predykcyjnego, okazała się skuteczna. Metoda ta charakteryzuje się duŜą szybkością zbieŜności w pobliŜu rozwiązania, co czyni ją uŜyteczną w zastosowaniu do algorytmów predykcyjnych, omawianych w niniejszej pracy. Praca kończy się wnioskami i spisem literatury zawierającym 98 pozycji.

Optimization Algorithms in Nonlinear Model Predictive Control

Abstract

This thesis presents a general Receding Horizon Control (RHC) algorithm with approximate optimization and adaptation of cost function for systems described by nonlinear ordinary differential equations. Presented algorithm is an extension of classical NMPC algorithms and allows a realisation of time-optimal and target control tasks and a stabilisation after reaching target. A series of applications of the algorithm were presented, in systems such as: magnetic levitation, chemical technology, robotics and space-flight. The first chapter has an introductory character. The second chapter contains theorems regarding stability and robustness of the algorithm on the assumption, that the optimisation problem solutions are sub-optimal. This property allows the reduction of computational effort. On the base of results of the second chapter in the third and fourth ones a new quasi-time-optimal receding horizon algorithm was introduced, that has properties of both time-optimal control and stabilisation. Chapter 5 contains specific results regarding terminal state constraints determination and asymptotic properties of proposed RHC algorithms. Subsequently, the possibilities of application of relatively new dynamical optimisation method which is the MSE method were analysed. This method, adapted for the needs of model predictive control has given successful results. The method is useful for RHC algorithms in this thesis, because of its strong convergence near the solution. Thesis ends with conclusions and a references list containing 98 positions.

Spis treści WaŜniejsze oznaczenia i skróty ............................................................................................................... s. 1 Wstęp oraz tezy pracy ............................................................................................................................... 2 Rozdział 1. RozwaŜania wstępne ............................................................................................................... 8

1.1 Przykłady wprowadzające .............................................................................................................. 8 Rozdział 2. Ogólny algorytm predykcyjny z przybliŜoną optymalizacją .............................................. 12 2.1. Podstawowe definicje i twierdzenia .............................................................................................. 12 2.2. Algorytm predykcyjny ................................................................................................................... 14 2.3. Stabilność algorytmu predykcyjnego ............................................................................................ 20 2.4. Odporność algorytmu predykcyjnego na zakłócenia i błędy modelowania .................................. 24 2.5. Rola algorytmu optymalizacji w sterowaniu predykcyjnym i planowaniu trajektorii .................. 28 Rozdział 3. Quasi-czasooptymalny algorytm predykcyjny ze zmiennym horyzontem i adaptacją wskaźnika jakości (Quasi Time Optimal Receding Horizon Control, QTO-RHC) ............................... 29

3.1. Algorytm QTO-RHC ..................................................................................................................... 30 3.2. Stabilność algorytmu QTO-RHC ................................................................................................... 31 3.3. Odporność algorytmu QTO-RHC .................................................................................................. 36 3.4. Przykłady sterowania systemami nieliniowymi ............................................................................ 38

Rozdział 4. Quasi-czasooptymalny algorytm predykcyjny dla zadań, w których funkcja L zaleŜy tylko od sterowania .................................................................................................................................... 89

4.1. Algorytm QTO-RHC dla zadań minimalizacji E-funkcjonałów ................................................... 89 4.2. Stabilność algorytmu QTO-RHC dla zadań minimalizacji E-funkcjonałów ................................. 90 4.3. Odporność algorytmu QTO-RHC dla zadań minimalizacji E-funkcjonałów ................................ 95 4.4. Przykłady sterowania systemami nieliniowymi ............................................................................. 97

Rozdział 5. Wyznaczanie ograniczeń stanu końcowego oraz własności asymptotyczne algorytmu QTO-RHC ................................................................................................................................................... 114

5.1. Ograniczenia stanu końcowego w algorytmie 3.1.1 ....................................................................... 114 5.2. Ograniczenia stanu końcowego w algorytmie 4.1.1 ....................................................................... 120 5.3. Własności asymptotyczne algorytmu QTO-RHC .......................................................................... 121

Rozdział 6. Algorytm optymalizacji .......................................................................................................... 126 6.1. Wprowadzenie ................................................................................................................................ 126 6.2. Zadanie sterowania optymalnego .................................................................................................. 128 6.3. Warunki optymalności zasady maksimum ..................................................................................... 130 6.4. Parametryzacja sterowań oraz pochodne wskaźnika jakości względem parametrów sterowania . 132 6.5. Procedury generacji i redukcji ........................................................................................................ 139 6.6. Metody całkowania równań stanu i równań sprzęŜonych .............................................................. 148 6.7. Ogólny algorytm metody MSE ....................................................... .............................................. 150 6.8. Przykłady optymalizacji sterowania ............................................................................................... 154 6.9. Uwagi o implementacji algorytmu MSE ........................................................................................ 159

Rozdział 7. Porównanie algorytmów z czasem dyskretnym z algorytmem QTO-RHC ....................... 160 7.1. Systemy ciągłe i dyskretne w czasie .............................................................................................. 160 7.2. Sterowanie predykcyjne systemami dyskretnymi w czasie ............................................................ 161 7.3. Uwagi o dyskretyzacji równań róŜniczkowych .............................................................................. 162 7.4. Problemy związane z konstrukcją dyskretnej wersji algorytmu QTO-RHC .................................. 164 7.5. Stabilność systemu ciągłego, sterowanego za pomocą algorytmu predykcyjnego z czasem dyskretnym ............................................................................................................................................ 165 7.6. Zalety i wady algorytmów predykcyjnych z czasem ciągłym i z czasem dyskretnym .................. 166

Podsumowanie ............................................................................................................................................. 168 Dodatek A. Twierdzenia pomocnicze .......................................................................................................... 170 Dodatek B. Zasada maksimum Pontriagina ................................................................................................ 176 Dodatek C. Efektywność generacji jednowęzłowych ................................................................................. 193 Literatura ................................................................................................................................................... 203

1

WaŜniejsze skróty i oznaczenia

ZSO − Zadanie Sterowania Optymalnego RHC – Receding Horizon Control MPC – Model Predictive Control NMPC – Nonlinear Model Predictive Control QTO-RHC − Quasi Time Optimal Receding Horizon Control SGAS – słaba globalna asymptotyczna stabilność algorytmu predykcyjnego GAS – globalna asymptotyczna stabilność algorytmu predykcyjnego w sensie Lapunowa I – macierz jednostkowa diag(a) – macierz diagonalna, której elementy na przekątnej głównej są określone wektorem a

)...,,,(col 21 naaa – wektor kolumnowy

0>H − macierz dodatnio określona TH – macierz transponowana do macierzy H

xxx T=|| – norma euklidesowa w nR Hyxyx

HT=, − iloczyn skalarny w przestrzeni nR z macierzą wag 0>= THH

Hxxx HT=|| − norma wektora w nR z macierzą wag 0>= THH ; Ixx |||| =

( )Hminλ , ( )Hmaxλ − najmniejsza i największa wartość własna macierzy symetrycznej H rządQ − rząd macierzy Q N – zbiór liczb naturalnych ...},2,1,0{ R – przestrzeń liczb rzeczywistych

}0:{0 ≥∈=+ tRtR − zbiór liczb rzeczywistych nieujemnych

)],,0([ mRTPC − przestrzeń funkcji przedziałami ciągłych o wartościach w mR )],,0([ np RTL – przestrzeń funkcji całkowalnych z p-tą potęgą

p

Tp

p dttuu ∫=0

|)(||||| – norma w przestrzeni pL , ,...2,1=p

)],,0([ nRTL∞ − przestrzeń funkcji mierzalnych istotnie ograniczonych z normą |)(|supess||||

],0[tuu

Tt∈∞ =

)],,0([,1 nRTW ∞ – przestrzeń funkcji absolutnie ciągłych z pierwszą pochodną istotnie ograniczoną

T

∂∂

∂∂

∂∂=∇

nx x

q

x

q

x

qzyxq ,....,,),,(

21

− gradient funkcji q względem zmiennej x

∂∂

∂∂

∂∂

∂∂

=∇

n

m

n

m

x

x

xf

x

xf

x

xf

x

xf

xf)()(

)()(

)(1

11

1

L

MOM

L

− transponowana macierz Jacobiego funkcji mn RRf →:

<≥

=+ .0gdy,0,0gdy,

)(x

xxx

Ω∂ – brzeg zbioru Ω

Wstęp

2

Wstęp oraz tezy pracy 1. Czym jest sterowanie predykcyjne?

Sterowanie predykcyjne lub teŜ sterowanie z przesuwanym horyzontem (MPC – Model Predictive Control lub RHC – Receding Horizon Control) jest metodą sterowania systemami dynamicznymi, polegającą na cyklicznym rozwiązywaniu zadania sterowania optymalnego (ZSO), z warunkiem początkowym równym aktualnej estymacie stanu obiektu. Początkowa część znalezionego rozwiązania (funkcji sterującej) podawana jest na wejście obiektu, po czym całą procedurę powtarza się dla nowego, aktualnie wyznaczonego stanu obiektu.

Słowo predykcja oznacza w kontekście tej pracy przewidywanie przyszłego zachowania układu przy zadanych sterowaniach (decyzjach) oraz przy zadanym stanie początkowym. Warto zapytać, czy i przy jakich załoŜeniach takie przewidywanie jest moŜliwe. Okazuje się, Ŝe dokładne przewidywanie zachowania nieliniowego układu dynamicznego nie jest moŜliwe w długich okresach czasu. Przyczynami tego stanu rzeczy są zakłócenia oraz wraŜliwość rozwiązań nieliniowych równań róŜniczkowych na zmiany warunków początkowych, zwana chaosem deterministycznym. Występowanie chaosu w nieliniowych układach dynamicznych wydaje się być zjawiskiem powszechnym, a nie, jak wcześniej sądzono, marginalnym (zob. np. Abracham i Marsden 1978, Kudrewicz 1993, Prigogine 2000). Zatem chaos oraz błędy estymacji warunków początkowych w sposób naturalny ograniczają moŜliwości przewidywania przyszłych stanów obiektu sterowanego. Ponadto model matematyczny realnego obiektu fizycznego jest często opisem przybliŜonym. PrzybliŜenia mają na celu pominięcie trudnych do modelowania zjawisk, których wpływ jest znikomy − ale rzadko kiedy Ŝaden − oraz umoŜliwienie rozwiązania równań modelu w dającym się zaakceptować czasie. Oddziaływanie na obiekt pominiętych w procesie modelowania zjawisk, wraŜliwość rozwiązań na zmiany warunków początkowych oraz losowe decyzje operatorów powodują szybki − często wykładniczy − przyrost błędu predykcji wykonywanej w oparciu o model obiektu. Wynika stąd, Ŝe dokładne przewidywanie przyszłego zachowania obiektów fizycznych jest moŜliwe tylko na stosunkowo krótkim horyzoncie czasu (Penrose 2000, s.200–211). Zatem horyzont predykcji w zadaniu optymalizacji powinien być moŜliwie krótki, przy jednoczesnym spełnieniu wymagań stabilności. Z drugiej strony, największe zyski z optymalizacji sterowania uzyskuje się, gdy horyzont predykcji jest nieskończony. NaleŜy zatem poszukiwać rozsądnego kompromisu, odpowiednio dobierając horyzont w czasie trwania procesu. 2. Uzasadnienie sterowania predykcyjnego

Problemy sterowania optymalnego moŜna rozwiązywać wykorzystując warunki konieczne optymalności w przestrzeni sterowań, wyraŜone przez zasadę maksimum Pontriagina (zob. dodatek B, Alekseev et al. 1987), bądź teŜ stosując metodę programowania dynamicznego Bellmana (zob. np. Lee i Markus 1967). Pierwszy sposób prowadzi do wyznaczenia sterowania optymalnego jako funkcji czasu, przy zadanym warunku początkowym. Metoda programowania dynamicznego pozwala wyznaczyć optymalne sprzęŜenie zwrotne, w oparciu o rozwiązanie równania Hamiltona − Jacobiego − Bellmana (HJB). Metoda programowania dynamicznego wydaje się bardziej atrakcyjna, poniewaŜ równanie HJB rozwiązywane jest tylko raz na etapie projektowania regulatora. Okazuje się jednak, Ŝe znalezienie rozwiązania równania HJB w przypadku systemów nieliniowych jest praktycznie niemoŜliwe, za wyjątkiem szczególnych przypadków. Równanie HJB jest bowiem nieliniowym równaniem róŜniczkowym cząstkowym pierwszego rzędu. Znacznie łatwiejsze jest cykliczne rozwiązywanie zadania sterowania optymalnego ze skończonym horyzontem, przy aktualnie wyznaczonym, na podstawie pomiarów, warunku początkowym. Analogiczne

Wstęp

3

uzasadnienie zastosowania sterowania predykcyjnego podają Mayne i współpracownicy (Mayne et al. 2000). Obecnie, sterowanie predykcyjne wydaje się być jedną z niewielu metod sterowania systemami nieliniowymi przy ograniczeniach sterowania i stanu. 3. Rozwój algorytmów predykcyjnych

Idea repetycyjnego wyznaczania sterowania w oparciu o rozwiązanie problemu optymalizacji dynamicznej nie jest ideą nową. JuŜ w roku 1967 Lee i Markus w ksiąŜce Foundations of Optimal Control Theory zauwaŜyli, Ŝe: „Jedną z technik wyznaczania regulatora na podstawie wiedzy o rozwiązaniach problemu sterowania optymalnego jest pomiar aktualnego stanu obiektu i bardzo szybkie wyznaczenie rozwiązania optymalnego. Pierwsza część tego rozwiązania jest uŜywana do sterowania obiektem, po czym dokonuje się ponownego pomiaru stanu procesu i rozwiązuje problem sterowania optymalnego z nowym warunkiem początkowym”1. Z drugiej strony juŜ Kalman w roku 1960 zauwaŜył, Ŝe optymalność nie zawsze pociąga za sobą stabilność. Pierwsze praktyczne implementacje algorytmów predykcyjnych dla systemów opisywanych liniowymi równaniami róŜnicowymi pojawiły się w latach siedemdziesiątych i były intensywnie rozwijane do lat 90-tych ubiegłego wieku. PoniŜej zestawiono chronologicznie kilka rozwiązań charakteryzujących rozwój algorytmów predykcyjnych dla systemów liniowych dyskretnych w czasie.

• Pakiet IDCOM (Identification and Command) – model liniowy dyskretny w postaci odpowiedzi impulsowej oraz kwadratowa funkcja kosztu (Richalet et al. 1976).

• DMC – Dynamic Matrix Control (Cutler i Ramaker 1980, Prett i Gilette 1980) − model liniowy dyskretny w postaci odpowiedzi skokowej, kwadratowa funkcja kosztu.

• QDMC – Quadratic Dynamic Matrix Control (Garcia i Morshedi 1986) – pełne zadanie programowania kwadratowego z uwzględnieniem ograniczeń stanu i sterowania, model liniowy dyskretny w czasie.

• GPC – Generalized Predictive Control (Clarke i Mothadi 1987) – model liniowy dyskretny w postaci transmitancji z uwzględnieniem zakłóceń i estymacją parametrów na bieŜąco.

W przypadku systemów nieliniowych opisywanych równaniami róŜniczkowymi rozwój następował nieco wolniej i dopiero w roku 1990 Mayne i Michalska opublikowali pracę Receding Horizon Control of Non-linear Systems, w której przedstawili algorytm predykcyjny dla systemów nieliniowych opisywanych równaniami róŜniczkowymi zwyczajnymi. Stabilność algorytmu osiągnęli oni nakładając ograniczenia na stan końcowy w zadaniu optymalizacji. Rozwinięciem tych wyników była praca Michalskiej i Mayne’a z roku 1993, w której uwzględniono ograniczenia stanu i sterowania oraz podano warunki odporności regulatora predykcyjnego. Kolejnym krokiem było zaproponowane przez Chena i Algöwera (1998) podejście o nazwie Quasi Infinity Horizon NMPC, w którym wskaźnik jakości był wybrany tak, aby dobrze oszacować koszt dla zadania z nieskończonym horyzontem sterowania. JeŜeli oszacowanie takie było dostatecznie dokładne, to rozwiązania zadania ze skończonym horyzontem dobrze przybliŜały rozwiązania zadań z horyzontem nieskończonym. W roku 1999 Scokaert, Mayne i Rao zwrócili uwagę, Ŝe w przypadku nieliniowych systemów dyskretnych, optymalność nie jest warunkiem koniecznym stabilności oraz zaproponowali suboptymalny algorytm predykcyjny. Obszerne omówienie algorytmów predykcyjnych dla liniowych i nieliniowych systemów dyskretnych w czasie podają Kwon 1 Tłumaczenie autora.

Wstęp

4

i Han (2005), Tatjewski (2002) oraz Maciejowski (2002) . Algorytmy predykcyjne są obecnie intensywnie badane i rozwijane, ciągle powstają nowe podejścia (zob. np. Mayne et al. 2000, Fontes 2003a, Primbs 1998, Jadbabaie 2001), a wyszukiwarka Google, po wpisaniu hasła „model predictive control”, podaje blisko 350 000 odnośników. 4. Zastosowania algorytmów predykcyjnych

Algorytmy predykcyjne odniosły sukces komercyjny. O sukcesie tym zadecydował fakt, Ŝe stanowią one jedną z niewielu metod sterowania, pozwalającą explicite uwzględnić ograniczenia stanu i sterowania oraz nadają się do sterowania systemami nieliniowymi. Początkowo algorytmy predykcyjne stosowane były w przemyśle petrochemicznym i chemicznym, a obecnie doczekały się zastosowań w metalurgii, lotnictwie, robotyce oraz w lotach kosmicznych. Obszerny przegląd zastosowań algorytmów predykcyjnych podają Qin i Badgwel (1997, 1998). Morari i Lee (1999) w artykule Model predictive control: Past, present and future, próbują określić przyszły rozwój algorytmów predykcyjnych. Tatjewski (2002) podaje szereg przykładów zastosowań algorytmów predykcyjnych w przemyśle chemicznym. 5. Cele pracy

Pierwotnym celem pracy było określenie roli i miejsca algorytmu optymalizacji w sterowaniu predykcyjnym systemami nieliniowymi, opisywanymi równaniami róŜniczkowymi zwyczajnymi, przy czym klasa zadań sterowania miała obejmować zadania sterowania czasooptymalnego, docelowego oraz zadanie stabilizacji. Uzyskane wnioski miały stanowić podstawę do stworzenia efektywnego numerycznie algorytmu optymalizacji dynamicznej, dostosowanego do potrzeb sterowania predykcyjnego.

W trakcie prowadzonych przeze mnie badań okazało się, Ŝe wymagania, jakie musi spełnić algorytm optymalizacji bardzo istotnie zaleŜą od konstrukcji samego algorytmu predykcyjnego oraz od sposobu, w jaki sformułowane jest zadanie sterowania optymalnego. W związku z powyŜszymi uwagami przyjąłem następujący cel badań:

Skonstruowa ć stabilny i odporny algorytm sterowania predykcyjne go umo Ŝliwiaj ący realizacj ę zadań:

•sterowania zbli Ŝonego do czasooptymalnego, •sterowania docelowego, •stabilizacji po osi ągni ęciu zadanego otoczenia celu sterowania,

przy mo Ŝliwie niskim nakładzie oblicze ń.

Uzasadnienie powyŜszego wyboru stanowi fakt, Ŝe algorytmy predykcyjne stosowane były dotychczas głównie do stabilizacji systemów nieliniowych, przy długim horyzoncie predykcji. Przedstawiony cel badań znacząco poszerza zakres stosowalności algorytmów predykcyjnych i nie był dotąd wyczerpująco analizowany w literaturze. 6. Omówienie tre ści rozprawy

Praca składa się z siedmiu rozdziałów, podsumowania, dodatków A, B i C oraz spisu literatury. Rozdział pierwszy ma charakter wprowadzający. Przedstawiam w nim dwa elementarne przykłady sterowania predykcyjnego oraz pewne hipotezy dotyczące stabilności algorytmu predykcyjnego. W rozdziale drugim podaję definicje podstawowych pojęć oraz przedstawiam ogólny algorytm predykcyjny z przybliŜoną optymalizacją i adaptacją wskaźnika jakości. W rozdziale tym dowodzę równieŜ stabilności i odporności omawianego algorytmu. NajwaŜniejszym wynikiem tego rozdziału są twierdzenia o stabilności

Wstęp

5

i odporności algorytmu predykcyjnego przy zastosowaniu suboptymalnych rozwiązań zadania sterowania optymalnego. Wyniki zamieszczone w rozdziale drugim stanowią podstawę konstrukcji nowego quasi-czasooptymalnego algorytmu predykcyjnego (QTO-RHC Quasi Time Optimal Receding Horizon Control), który omawiam w rozdziale trzecim. W początkowej fazie sterowania algorytm ten realizuje strategię zbliŜoną do czasooptymalnej, po czym, po osiągnięciu pewnego otoczenia celu, rozpoczyna zmianę strategii sterowania, mającą na celu przejście do fazy stabilizacji. Korzystając z wyników rozdziału drugiego określam warunki stabilności i odporności algorytmu QTO-RHC. Następnie podaję pięć obszernie skomentowanych przykładów sterowania systemami nieliniowymi z zakresu mechaniki, robotyki i technologii chemicznej. Na szczególną uwagę zasługuje przykład sterowania robotem oraz sterowanie przepływowym reaktorem chemicznym. Algorytm przedstawiony w rozdziale czwartym jest szczególną wersją algorytmu z rozdziału trzeciego, dostosowaną do zadań, w których funkcja podcałkowa we wskaźniku jakości zaleŜy tylko od sterowania. Korzystając z twierdzeń podanych w rozdziale drugim omawiam warunki stabilności i odporności tego algorytmu, po czym podaję przykłady sterowania ramieniem robota oraz statkiem kosmicznym. W obu przykładach kryterium jakości wyraŜa kompromis pomiędzy całką z kwadratu sterowania, a czasem osiągnięcia celu. Zagadnienie wyznaczania ograniczeń stanu końcowego stanowi treść rozdziału piątego. W rozdziale tym analizuję równieŜ własności asymptotyczne algorytmów z rozdziałów 3 i 4. Pokazuję tam m.in., Ŝe w przypadku systemów liniowych, przy kwadratowym wskaźniku jakości, algorytm QTO-RHC staje się lokalnie algorytmem liniowo-kwadratowym. Metoda Monotonicznej Ewolucji Struktur (MSE), stanowiąca centralną część algorytmu predykcyjnego, została przedstawiona w rozdziale 6. Ostatni rozdział zawiera porównanie typowych algorytmów predykcyjnych dla systemów z czasem dyskretnym, z algorytmem QTO-RHC. Dodatki A, B i C są uzupełnieniem podstawowej treści pracy. Dodatek A zawiera pomocnicze twierdzenia i lematy uŜywane w treści rozprawy oraz ich dowody. W dodatku B podana została wersja zasady maksimum Pontriagina dla rozwaŜanych w pracy zadań sterowania optymalnego oraz omówione zostało zagadnienie normalności zadania sterowania optymalnego. Dodatek C zawiera wzory określające efektywność generacji w algorytmie MSE. Wszystkie obliczenia numeryczne i symulacje przedstawione w pracy zostały wykonane za pomocą pakietu MATLAB ®, przy czym najbardziej złoŜone obliczeniowo procedury całkowania równań róŜniczkowych oraz procedury wyznaczania efektywności generacji napisano w języku C i skompilowano je do postaci, tzw. „mex-plików”. Praca kończy się podsumowaniem oraz spisem literatury zawierającym 98 pozycji. 7. Stosowana terminologia

Sterowanie predykcyjne jest dziedziną bardzo obszerną i stosunkowo młodą, o nie ustalonym jeszcze w pełni nazewnictwie. Niektóre pojęcia rozumiane są przez róŜnych autorów w róŜny sposób. Nazwa „sterowanie predykcyjne” (Model Predictive Control − MPC) odnosiła się pierwotnie do algorytmów predykcyjnych opartych o liniowy dyskretny model obiektu przy kwadratowym wskaźniku jakości określającym cel sterowania. Sformułowanie Nonlinear Model Predictive Control − NMPC stanowi określenie algorytmu predykcyjnego dla systemu dyskretnego, opisywanego nieliniowymi równaniami róŜnicowymi, przy czym wskaźnik jakości niekoniecznie musi być funkcją kwadratową. Nazwa ta bywa równieŜ uŜywana w odniesieniu do algorytmów wykorzystujących model w postaci nieliniowych równań róŜniczkowych. Zwykle jednak algorytmy takie znane są pod nazwą Receding Horizon Control, co często tłumaczy się jako „sterowanie z przesuwanym horyzontem”. Wydaje się, Ŝe bardziej adekwatna byłaby nazwa „sterowanie predykcyjne z przesuwanym oknem”.

Wstęp

6

Sformułowań „algorytm predykcyjny”, „algorytm z przesuwanym horyzontem”, „regulator predykcyjny”, „regulacja predykcyjna”, „sterowanie predykcyjne” oraz „schemat sterowania predykcyjnego” będę uŜywał w pracy wymiennie, za kaŜdym razem mając na myśli sterowanie predykcyjne systemem nieliniowym, opisanym układem równań róŜniczkowych zwyczajnych, przy czym wskaźnik jakości określający cel sterowania niekoniecznie musi być funkcją kwadratową, a horyzont moŜe być zmienną decyzyjną w zadaniu optymalizacji. Termin „obiekt” odnosi się do konkretnego, fizycznie istniejącego, bądź teŜ symulowanego obiektu sterowania. Termin „model” oznacza model matematyczny obiektu. Będę przy tym domyślnie przyjmował, Ŝe przewidywania oparte na modelu są obarczone pewnym błędem. Jedyny wyjątek stanowić będzie badanie stabilności systemu z regulatorem predykcyjnym, gdzie zakładam pełną zgodność modelu i obiektu oraz brak zakłóceń. Czasami na określenie modelu lub obiektu będę uŜywał słowa „system”. Przez sterowanie w systemie otwartym (open loop control), rozumiem zastosowanie do obiektu pewnego, arbitralnie wybranego sterowania. Termin „system zamknięty” będzie oznaczał, Ŝe do sterowania obiektem został zastosowany pewien regulator generujący sterowanie na podstawie pomiaru wyjść tego obiektu. Termin „wskaźnik jakości” będzie oznaczał funkcjonał minimalizowany w zadaniu sterowania optymalnego. W pewnych przypadkach, zamiast wyraŜenia „wskaźnik jakości”, będę uŜywał terminów „funkcja celu” lub „funkcja kosztu”. Sformułowania „cel sterowania” oraz „stan docelowy” będą zwykle oznaczać punkt w przestrzeni stanów, do którego powinien, w wyniku działania regulatora, zmierzać stan systemu. PoniewaŜ w pracy rozwaŜam wyłącznie przypadki, w których celem sterowania jest osiągnięcie zerowego punktu równowagi (zera przestrzeni stanów), to nazw „cel sterowania”, „stan docelowy”, „początek układu współrzędnych” oraz „zerowy punkt równowagi” będę uŜywał wymiennie. 8. Uwagi ko ńcowe

Powstanie tej rozprawy nie byłoby moŜliwe bez udziału prof. Wojciecha Gregi, który zaproponował mi pracę w Katedrze Automatyki i któremu pragnę w tym miejscu serdecznie podziękować. Realizacja eksperymentów numerycznych wymagająca napisania odpowiedniego oprogramowania nie doszłaby do skutku bez pomocy dr. Macieja Szymkata. Udostępnione przez niego fragmenty kodu metody MSE oraz liczne uwagi umoŜliwiły mi zaadaptowanie i rozszerzenie metody na potrzeby sterowania predykcyjnego, za co niniejszym dziękuję. Dziękuję równieŜ prof. Andrzejowi Turnauowi za liczne dyskusje i uwagi dotyczące sterowania czasooptymalnego oraz dr. Januszowi Millerowi za udostępnienie kodu pewnych metod numerycznych. Dziękuję takŜe prof. Piotrowi Grabowskiemu, kolegom z Katedry Automatyki oraz wszystkim osobom, które zaangaŜowały się w powstanie tej rozprawy.

Kraków, w lutym 2008

Wstęp

7

Tezy pracy 1. Zaproponowany w pracy quasi-czasooptymalny algorytm predykcyjny z adaptacją wskaźnika jakości umoŜliwia realizację zadań sterowania czasooptymalnego lub docelowego oraz zadania stabilizacji. Połączenie tych dwóch róŜnych strategii sterowania w jednym algorytmie moŜna osiągnąć poprzez adaptacyjną zmianę celu sterowania w trakcie trwania procesu. 2. Algorytmy predykcyjne nie wymagają dokładnego rozwiązywania zadania sterowania optymalnego. Zastosowanie odpowiednio zdefiniowanych rozwiązań suboptymalnych nie narusza stabilności oraz odporności układu regulacji, umoŜliwiając jednocześnie redukcję nakładu obliczeń. 3. Odpowiednio dopasowana do potrzeb sterowania predykcyjnego metoda Monotonicznej Ewolucji Struktur (MSE − Monotone Structural Evolution), w połączeniu z moŜliwościami obliczeniowymi współczesnych komputerów, nawet o niewielkiej mocy obliczeniowej, pozwala na uŜycie proponowanych algorytmów predykcyjnych do sterowania systemami nieliniowymi.

1. RozwaŜania wstępne

8

Rozdział 1. Rozwa Ŝania wst ępne

Niniejszy rozdział ma charakter wprowadzający. RozwaŜymy w nim dwa elementarne przykłady sterowania predykcyjnego oraz sformułujemy na tej podstawie pewne hipotezy dotyczące zachowania się trajektorii, właściwej konstrukcji algorytmu predykcyjnego oraz stabilności systemu zamkniętego. W szczególności podamy przykład utraty stabilności systemu z regulatorem predykcyjnym, spowodowanej nieprawidłowym doborem parametrów algorytmu. 1.1. Przykłady wprowadzaj ące

Aby wstępnie zapoznać się z działaniem algorytmów predykcyjnych, przeanalizujemy dwa elementarne przykłady.

Przykład 1.1 (trajektoria i sterowanie planowane w chwili początkowej, róŜnią się od trajektorii i sterowania uzyskanych po zastosowaniu regulatora predykcyjnego).

RozwaŜmy prosty system liniowy

0,)0(,)(),(),()()( 0 ≥=∈+−= txxRtutxtutxtx& . (1.1)

Szukamy sterowania u realizującego minimum wskaźnika jakości

0,),(2

))()((2

1)( 2

0

22 >++= ∫ TTxdttutxuQT

ρρ . (1.2)

Zgodnie z zasadą maksimum Pontriagina (zob. dodatek B), sterowanie optymalne maksymalizuje hamiltonian

)(5,0)( 22 uxxuH +−−=ψ ,

gdzie zmienna sprzęŜona ψ spełnia równanie sprzęŜone

)()()( txtt +=ψψ& , )()( TxT ρψ −= .

Maksimum hamiltonianu jest osiągane, gdy

0=−=∇ uHu ψ .

Korzystając z warunku maksimum hamiltonianu otrzymuje się równania kanoniczne

)()()( ttxtx ψ+−=& ,

)()()( txtt +=ψψ& .

Rozwiązanie układu równań kanonicznych ma postać

)0()()0()()( 1211 ψφφ txttx += ,

)0()()0()()( 2221 ψφφψ txtt += ,

gdzie

)2(sh2

1)2(ch)(11 ttt −=φ , )2(sh

2

1)()( 2112 ttt == φφ , )2(sh

2

1)2(ch)(22 ttt +=φ .

Uwzględnienie warunków brzegowych na stan i zmienną sprzęŜoną pozwala wyznaczyć sterowanie jako funkcję czasu i stanu początkowego


9

0)()()( xtkttu ==ψ , (1.3)

gdzie

)()(

)()()()()(

2212

21112221 TT

TTtttk

φρφφρφφφ

++

−= . (1.4)

RozwaŜmy teraz następujący algorytm sterowania.

Algorytm A 0. Dane: 0x , system (1.1), wskaźnik jakości (1.2), liczba 0>δ , i = 0. 1. Oblicz sterowanie ixitktu )()( δ−= i zastosuj je w systemie (1.1), w przedziale czasu

))1(,[ δδ +∈ iit . 2. Podstaw 1: += ii , )(: δixxi = i idź do 1.

Algorytm A stanowi prosty przykład sterowania predykcyjnego. ZauwaŜmy, Ŝe algorytm ten realizuje sprzęŜenie zwrotne od stanu. W punkcie pierwszym wyznaczamy rozwiązanie zadania sterowania optymalnego (ZSO) w zaleŜności od aktualnego stanu obiektu. Rozwiązanie ZSO jest w tym przypadku trywialne i sprowadza się do jednokrotnego wyznaczenia funkcji )(tk . Następnie stosujemy początkowy fragment sterowania optymalnego w przedziale czasu ))1(,[ δδ +∈ iit . W punkcie 2 wyznaczamy stan obiektu w chwili δ)1( += it i ponownie wracamy do 1. Wynik działania powyŜszej procedury pokazano na rys.1.1a i b. Przez xzamk oznaczono trajektorię systemu zamkniętego, będącą wynikiem działania algorytmu A, którą to trajektorię porównano z trajektorią xotw, uzyskaną po zastosowaniu sterowania (1.3) w przedziale czasu ],0[ T . Sterowania w układzie zamkniętym i otwartym oznaczono odpowiednio przez uzamk, uotw. Na rys. 1.1c pokazano trajektorię i sterowanie w przypadku, gdy horyzont T ulega z kaŜdym krokiem działania algorytmu skróceniu o liczbę δ. Rys. 1.1d przedstawia kolejne rozwiązania ZSO uzyskane w algorytmie A.

Analiza powyŜszego przykładu pozwala stwierdzić, Ŝe:

1. Sterowanie i trajektoria składają się z kawałków sterowań i trajektorii, będących rozwiązaniami kolejnych ZSO. Sterowanie w systemie zamkniętym jest na ogół nieciągłe, nawet wtedy, gdy rozwiązanie kaŜdego ZSO jest ciągłe.

2. Analiza przypadków z rys. 1.1b i d pokazuje, Ŝe rozwiązanie uzyskane po zamknięciu sprzęŜenia zwrotnego, moŜe być istotnie róŜne od rozwiązania problemu sterowania uzyskanego w chwili początkowej.

3. WydłuŜenie horyzontu sterowania powoduje, Ŝe trajektoria systemu zamkniętego zbliŜa się do optymalnej trajektorii uzyskanej w chwili początkowej (rys. 1.1a).

4. Skracanie horyzontu o liczbę δ (rys. 1.1c) powoduje, Ŝe trajektoria systemu zamkniętego jest równa optymalnej trajektorii uzyskanej w chwili początkowej (przy braku zakłóceń).

5. Rozwiązania kolejnych ZSO mogą się od siebie znacznie róŜnić (rys. 1.1d). Jest to efekt niekorzystny, gdyŜ powoduje odstępstwa od trajektorii optymalnej dla zadania z nieskończonym (długim) horyzontem oraz utrudnia rozwiązywanie ZSO w kolejnych krokach. Z punktu widzenia optymalizacji dobrze byłoby wykorzystać poprzednio uzyskane rozwiązanie jako punkt startowy w kolejnym ZSO. RóŜnice pomiędzy rozwiązaniami kolejnych ZSO stają się pomijalnie małe przy odpowiednim wyborze horyzontu T i liczby ρ.


10

0 2 4 6 8 100

0.5

1

t

x

0 2 4 6 8 10

-0.4

-0.2

0

t

u

uotw

xzamk

uzamk

xotw

a. 1,0,10,10 === δρT – przesuwany

horyzont.

0 0.5 1 1.50

0.5

1

t

x

0 0.5 1 1.5-1

-0.5

0

t

u

uzamk

xotw

xzamk

uotw

b. 1,0,10,1 === δρT – przesuwany

horyzont.

0 0.2 0.4 0.6 0.8 10

0.5

1

t

x

0 0.2 0.4 0.6 0.8 1-0.8

-0.6

-0.4

t

u

xzamk = xotw

uzamk = uotw

c. 1,0,10,1 === δρT – skracany horyzont

0 0.5 1 1.5 20

0.5

1

t

x

0 0.5 1 1.5 2

-0.6

-0.4

-0.2

0

t

u

d. 1,0,10,1 === δρT – kolejne rozwiązania

ZSO, przesuwany horyzont

Rys. 1.1. Trajektorie i sterowania.

Algorytm predykcyjny na ogół nie zapewnia stabilności systemu zamkniętego (rozumianej tutaj roboczo jako zmierzanie trajektorii do zera). Aby się o tym przekonać, rozwaŜmy następujący

Przykład 1.2 (utrata stabilności systemu z regulatorem predykcyjnym).

Weźmy prosty system liniowy (niestabilny)

0,)0(,)(),(),()()( 0 ≥=∈+= txxRtutxtutxtx& . (1.5)

Sterowanie zapewniające minimum wskaźnika jakości (1.2) jest określone wzorami (1.3) i (1.4), przy czym

)2(sh2

1)2(ch)(11 ttt +=φ , )2(sh

2

1)()( 2112 ttt == φφ , )2(sh

2

1)2(ch)(22 ttt −=φ .

(1.6) Do sterowania systemem (1.5) zastosowano algorytm A z przykładu 1.1. Na rys. 1.2a przedstawiono trajektorię i sterowanie dla horyzontu T = 10. Zmniejszenie horyzontu do T = 0,6 (rys. 1.2b) nie powoduje jeszcze utraty stabilności, ale znacznie wydłuŜa czas osiągnięcia stanu ustalonego. Zwiększenie wagi w funkcji stanu końcowego do ρ = 10 (rys. 1.2c) skraca czas osiągnięcia stanu ustalonego do około 2. Krótki horyzont T = 0,5 i mała wartość ρ = 0,1 prowadzą do utraty stabilności (rys. 1.2d).


11

0 1 2 3 4 5 6 70

0.5

1x

t

0 1 2 3 4 5 6 7-3

-2

-1

0

u

t

xzamk

uzamk

a. 05,0,1,0,10 === δρT

0 1 2 3 40.7

0.8

0.9

1

t

x

0 1 2 3 4-1.5

-1

-0.5

t

u

xzamk

uzamk

b. 05,0,1,0,6,0 === δρT

0 0.5 1 1.5 2 2.5 30

0.5

1

t

x

0 0.5 1 1.5 2 2.5 3-3

-2

-1

0

t

u uzamk

xzamk

c. 05,0,10,5,0 === δρT

0 1 2 3 40.5

1

1.5

t

x

0 1 2 3 4-1.5

-1

-0.5

t

u

xzamk

uzamk

d. 05,0,1,0,5,0 === δρT

Rys. 1.2. Trajektorie i sterowania w systemie zamkniętym – przykład utraty stabilności przy nieodpowiednim wyborze wskaźnika jakości (rys. d).

Mamy następujące dwa wnioski dotyczące analizowanego przykładu.

1. Zbyt krótki horyzont moŜe spowodować utratę stabilności.

2. Wprowadzenie funkcji kary za niespełnienie warunku końcowego pozwala ustabilizować system − nawet przy krótkich horyzontach.

W dalszych rozdziałach pracy uściślimy i rozwiniemy przedstawione powyŜej spostrzeŜenia. Na szczególną uwagę zasługuje fakt, Ŝe skracanie horyzontu o liczbę δ w kaŜdym kroku algorytmu powoduje, Ŝe trajektoria w systemie zamkniętym jest dokładnie równa optymalnej trajektorii planowanej w chwili początkowej.

2.Ogólny algorytm predykcyjny z przybliŜoną optymalizacją

12

Rozdział 2. Ogólny algorytm predykcyjny z przybli Ŝoną optymalizacj ą

W tym rozdziale formułujemy ogólną postać algorytmu predykcyjnego. Algorytm dopuszcza moŜliwość ewolucji wskaźnika jakości w trakcie procesu sterowania, co wydaje się istotną − z punktu widzenia zastosowań − własnością. Następnie podajemy warunki dostateczne stabilności układu regulacji z regulatorem predykcyjnym. Warunki te wymagają jedynie znajdowania rozwiązań suboptymalnych odpowiedniego problemu optymalizacji, co pozwala na znaczną redukcję nakładu obliczeń. W dalszej części rozdziału zajmujemy się analizą odporności układu sterowania na zakłócenia i błędy modelowania. Następnie podajemy warunki, przy których trajektoria stanu, generowana przez algorytm w obecności zakłóceń, osiąga w skończonym czasie pewne otoczenie celu i pozostaje w tym otoczeniu. Promień otoczenia maleje do zera przy zmniejszaniu amplitudy zakłóceń.

2.1. Podstawowe definicje i twierdzenia

Model obiektu

Zakładamy, Ŝe dysponujemy modelem obiektu w postaci układu równań róŜniczkowych zwyczajnych

)),(),(()( 0ptutxftx =& , 0)0( xx = , +∈ 0Rt . (2.1)

Funkcja nlmn RRRRf →××: jest klasy 1C względem wszystkich argumentów oraz 0),0,0( 0 =pf . Funkcja ta jest zaleŜna od l parametrów danych wektorem

lRp ∈0 . Ponadto f spełnia globalnie (dla wszystkich nR∈21, ξξ ,

mRv∈ ) warunek Lipschitza

||ˆ|),,(),,(| 210201 ξξξξ −≤− Lpvfpvf , (2.1a)

ze stałą 0ˆ >L , niezaleŜną od 021 ,,, pvξξ . Zakładamy teŜ, Ŝe istnieje ciągła funkcja RRL nu →: , taka Ŝe dla wszystkich

nR∈ξ , mRvv ∈21, zachodzą warunki

||)(|),,(),,(| 210201 vvLpvfpvf u −≤− ξξξ , (2.1b)

0)( >ξuL . (2.1c)

Ograniczenia wartości sterowania mają postać

Utu ∈)( , }0,0,:{ maxminmaxmin >


13

Sterowanie ∗u spełnia takie same załoŜenia jak sterowanie u . Funkcje pwa ,, reprezentują zakłócenia w generacji sterowań, zakłócenia zewnętrzne oraz zmiany parametrów obiektu. PoniewaŜ stan systemu nie jest na ogół bezpośrednio dostępny, konieczne jest zastosowanie estymatora stanu. Zakładamy, Ŝe dysponujemy odpowiednio dokładnym estymatorem stanu (moŜe to być np. estymator typu high-gain, Bornard 1991, Busawon 2000, Gauthier 1994, Findeisen 2003a,b lub estymator z przesuwanym oknem, Michalska i Mayne 1995, Rao i Rawlings 1998). Niech )(ˆ tx oznacza estymatę stanu obiektu oraz niech

)()(ˆ)( txtxte ∗−= (2.4)

będzie błędem estymacji stanu. Funkcje a, w, p, e będziemy wspólnie nazywać zakłóceniami. Zakładamy, Ŝe zakłócenia są przedziałami ciągłe na +0R oraz ograniczone, tzn.

aa η


14

)ˆexp(|)(|)ˆ)(0(|)(||)(|

/1

/1 TLdssuLqLTtxsx

pTt

t

pqu

++≤ ∫

+− ,

gdzie 1, >qp , 111 =+qp

,

(ii) ponadto jeŜeli Ω∈+ )( Ttx , to zachodzi oszacowanie

)ˆexp(|)(| 1 TLMsx ≤ ,

gdzie

||supˆ)0(||sup 11 vLLMUv

u∈

−

Ω∈+= ξ

ξ. □

Dowód twierdzenia znajduje się w dodatku A.

Lemat 2.1.1. Niech ML będzie zbiorem wszystkich funkcji nRTx →],0[: spełniających

warunki:

W1) 0|)(| Mtx ≤ ],0[ Tt ∈∀ , gdzie 00 >M jest ustaloną liczbą,

W2) |||)()(| 2121 ttMtxtx −≤− , ],0[, 21 Ttt ∈∀ , gdzie 0>M jest ustaloną liczbą.

Niech będzie dana funkcja ∈h K oraz funkcjonał +→ 0: RQ ML ,

∫=T

dttxhxQ0

)|)(|()( .

Niech })(:{, qxQx MqM ≤∈= LL ,

będzie zbiorem poziomicowym funkcjonału Q, przy czym +∈ 0Rq .

Wówczas:

T1) istnieje funkcja ∈ϕ K, taka Ŝe dla dowolnego +∈ 0Rq oraz dla wszystkich qMx ,L∈ , spełniony jest warunek

)(|)(|sup],0[

qtxTt

ϕ≤∈

,

T2) jeŜeli dodatkowo ∞=∞→

)(lim ξξ

h , to warunek W1 moŜe być pominięty i zachodzi T1. □

Dowód lematu znajduje się w dodatku A. 2.2. Algorytm predykcyjny

Niech nRx →∞),0[:~ będzie funkcją przedziałami ciągłą, ze skończoną liczbą punktów nieciągłości pierwszego rodzaju w kaŜdym przedziale ograniczonym. Niech będą dane odwzorowania ++ →××× 00: RRRRNS

nn , +→ 00 : RRSn oraz niech ciąg kε spełnia równanie

))(ˆ),(~,,(1 kkkk txtxkS εε =+ , ))0(ˆ(00 xS=ε . (2.6)


15

Niech nkkkk RTttx →+ ],[: dla 0≥kT będzie rozwiązaniem równania (2.1), z warunkiem

początkowym )(~ ktx i sterowaniem dopuszczalnym ku . Wskaźnik jakości w k-tym kroku

czasowym jest dany równością

∫+

+++=kk

k

Tt

t

kkkkk

kkkkkk TtxqdssusxLTtxTuJ ))(())(),(()),(~;,( εε , (2.7)

przy czym funkcja L jest róŜniczkowalna w sposób ciągły względem obu argumentów oraz

0),( ≥vL ξ , 0)0,0( =L dla wszystkich nR∈ξ , mRv∈ . (2.8)

Zakładamy, Ŝe funkcja q jest róŜniczkowalna w sposób ciągły oraz

0)( ≠∇ xqx , dla 0≠x . (2.9)

Ponadto zakładamy, Ŝe

0)0( =q (2.10)

oraz Ŝe istnieje funkcja ∈w K, spełniająca warunek ∞=∞→

)(lim ξξ

w i taka, Ŝe

)||()( xwxq ≥ . (2.11)

Z powyŜszych załoŜeń wynika, Ŝe funkcja q ma dokładnie jedno minimum w punkcie 0=x . ZałoŜenie (2.9) pozwala wykluczyć pojawiające się w zadaniu optymalizacji dodatkowe minima lokalne. ZałoŜenia (2.10), (2.11) są zwykle spełnione w praktycznych problemach. Wskaźnik jakości zaleŜy w sposób ciągły od kkk

k txTu ε),(~,, , przy czym ciągłość względem ku rozumiemy w sensie jednej z norm ∞= ,...,2,1,|||| pp . Konstrukcja wskaźnika jakości

(2.7) umoŜliwia, poprzez odpowiedni dobór współczynnika kε , zmianę celu sterowania w czasie trwania procesu. W opinii autora istnieje szereg problemów sterowania, w których cel sterowania powinien zmieniać się w zaleŜności od czasu i stanu procesu. Konkretne przykłady sterowania ze zmieniającym się kryterium jakości, zostaną przedstawione w rozdziałach trzecim i czwartym.

Sformułujemy teraz zadanie sterowania optymalnego. Zakładamy, Ŝe zbiór Ω jest ustalony.

Problem ))(~,,( kkk txtP ε : Znajdź sterowanie dopuszczalne ku oraz horyzont kT ,

minimalizujące wskaźnik jakości (2.7) na trajektoriach systemu (2.1), przy ograniczeniach

i) Ω∈+ )( kkk Ttx ,

ii) minTTk ≥ .□

Rozwiązanie problemu ))(~,,( kkk txtP ε oraz odpowiadającą mu trajektorię oznaczamy symbolami ))(~,( k

k txsu , kT , ));(~,( kk

k utxsx . Zakładamy, Ŝe rozwiązanie powyŜszego

problemu istnieje dla dowolnego warunku początkowego nk Rtx ∈)(~ . Ograniczenie horyzontu minTTk ≥ podyktowane jest względami praktycznymi. Po pierwsze, sterowanie musi być wyznaczone co najmniej w przedziale czasu ],[ δ+kk tt . Po drugie, w stanach awaryjnych, gdy nie jest moŜliwa estymacja stanu bądź wyliczenie nowego sterowania, chcemy na ogół dysponować sterowaniem na horyzoncie dłuŜszym niŜ δ. JeŜeli 0=kε i 0min =T oraz funkcja q rośnie dostatecznie szybko, to rozwiązanie zadania sterowania


16

optymalnego jest zbliŜone do rozwiązania zadania czasooptymalnego, a norma stanu końcowego jest bliska zeru. Ograniczenie Ω∈+ )( kk

k Ttx moŜe, ale nie musi występować.

Ograniczenie to będziemy wykorzystywać przy dowodzeniu stabilności systemu zamkniętego (por. np. Fontes 2000, Findeisen 2003a).

Definicja 2.2.1. Niech para ),( kk Tu będzie rozwiązaniem ))(~,,( kkk txtP ε . WyraŜenie

min)),(~;,()),(~( TtxTuJtxV kkk

kkk −= εε ,

będziemy nazywać funkcją wartości (value function) dla problemu ))(~,,( kkk txtP ε . □

W pewnych przypadkach będziemy pomijać drugi argument funkcji V.

Wniosek 2.2.1. Funkcja wartości jest ciągła, 0)0( =V oraz 0)( ≥ξV , nR∈ξ .□

Algorytm optymalizacji – procedury ΠΠ, oraz sterowania ω-suboptymalne

Do rozwiązywania problemów ))(~,,( kkk txtP ε będziemy na ogół uŜywać procedur numerycznych. Występują tu trzy podstawowe trudności:

• Problemy ))(~,,( kkk txtP ε są często niewypukłe i charakteryzują się występowaniem wielu minimów lokalnych;

• Przestrzeń decyzyjna jest nieskończenie wymiarowa (poszukujemy sterowania optymalnego w nieskończenie wymiarowej przestrzeni funkcyjnej);

• Sterowanie musi być wyznaczane on-line w kaŜdym kroku algorytmu, w czasie krótszym niŜ δ .

Problem wielu minimów lokalnych moŜna częściowo rozwiązać dopuszczając rozwiązania przybliŜone, spełniające warunek Ω∈+ )( kk

k Ttx . Drugą trudność omija się zwykle poprzez

wybór odpowiednio bogatej, skończenie wymiarowej parametryzacji sterowań, w taki sposób, aby procedura numeryczna była zbieŜna do zadowalającego przybliŜenia rozwiązania optymalnego. Problemu ograniczonego czasu obliczeń nie da się rozwiązać w pełni. JednakŜe, jak zobaczymy poniŜej, moŜna tak skonstruować algorytm predykcyjny, aby procedura numeryczna mogła zakończyć obliczenia po znalezieniu rozwiązania suboptymalnego, spełniającego odpowiednie kryteria. PoniewaŜ zbiór rozwiązań suboptymalnych ma zwykle niezerową miarę, to znajdowanie takich rozwiązań jest znacznie łatwiejsze niŜ znajdowanie rozwiązań optymalnych. Na obecnym etapie rozwaŜań będziemy zakładać, Ŝe istnieje pewna iteracyjna procedura

)],,([: ,1000n

kkkadn RTttWRURRR +××→××Π ∞+++ , ))(~,,(),,( kkk

kk

k txtxTu εΠ=

zdolna do znalezienia odpowiednio dokładnego przybliŜonego rozwiązania problemu ))(~,,( kkk txtP ε , takiego Ŝe Ω∈+ )( kk

k Ttx . Fakt, Ŝe rozwiązanie przybliŜone znajdujemy za

pomocą procedury Π będziemy zapisywać wzorem

))(~,,(),,( kkkk

kk txtxTu εΠ= . (2.12)

Procedurę, która znajduje rozwiązanie problemu ))(~,,( kkk txtP ε oznaczamy Π i piszemy

))(~,,(),,( kkkk

kk txtxTu εΠ= . (2.12a)


17

Definicja 2.2.2. Procedura Π jest ω -suboptymalna, jeŜeli istnieje funkcja ∈ω K, taka Ŝe dla dowolnych nk Rtx ∈)(~ , ]1,0[∈kε , ...,2,1,0=k i dowolnej liczby 0>η , trójka

),,( kkk xTu , wygenerowana przez tę procedurę, spełnia następujące warunki:

i) |))(~(|)),(~;,( min kkkkk txTtxTuJ ωε ≤− ,

ii) Ω∈+ )( kkk Ttx ,

iii) minTTk ≥ , iv) ηεε yh dla 0≠y . Wszystkie algorytmy predykcyjne, jakie będziemy analizować


18

w dalszych rozdziałach, będą miały postać analogiczną do przedstawionego poniŜej, ogólnego schematu. Analiza warunków stabilności i odporności tego schematu pozwoli określić wymagania wobec procedury Π oraz maksymalnej dopuszczalnej amplitudy zakłóceń.

Schemat 2.2.1 (ogólny algorytm predykcyjny z przybliŜoną optymalizacją).

Dane: δ , minT , model obiektu (2.1), estymata warunku początkowego )0(x̂ , funkcja h, liczba ]1,0(∈µ .

Inicjalizacja : Oblicz ))0(ˆ(00 xS=ε . Za pomocą procedury Π lub Π oblicz sterowanie początkowe ))0(ˆ,,0(),,( 0

00

0 xxTu εΠ= lub ))0(ˆ,,0(),,( 00

00 xxTu εΠ= .

1. Postaw 0:=k , δktk =: , )0(ˆ:)(~ xtx k = . 2. W przedziale czasu ),[ δ+kk tt stosuj do obiektu sterowanie

ku oraz jednocześnie

wykonuj czynności 3–7. 3. Wyznacz estymatę stanu )(ˆ ktx .

4. Oblicz min)),(~,,( TtxTuJr kkk

kk −= ε .

5. Oblicz ))(ˆ),(~,,(1 kkkk txtxkS εε =+ oraz wyznacz predykcję krótkoterminową )(~ 1+ktx . 6. Za pomocą procedury Π spróbuj wyznaczyć rozwiązanie ω -suboptymalne

))(~,,(),,( 1111

11

++++

++ Π= kkk

kk

k txtxTu ε , spełniające warunek ))(~(1 kkk txhrr µ−≤+ . JeŜeli takiego rozwiązania nie da się znaleźć, to wyznacz moŜliwie najlepsze przybliŜenie rozwiązania optymalnego.

7. Wykonaj obliczenia pomocnicze (aktualizacje współczynników, testy stabilności itp.). 8. Podstaw 1: += kk , δktk =: . 9. Idź do 2.

Sterowanie w systemie zamkniętym otrzymujemy poprzez konkatenację sterowań ku zastosowanych do obiektu w przedziałach czasu ),[ 1+kk tt , ,...2,1,0=k . Sterowanie to oznaczamy przez ∗u . Trajektoria obiektu ∗x jest funkcją ciągłą, natomiast sterowanie ∗u jest funkcją przedziałami ciągłą. Sterowanie 0u moŜe być w zasadzie dowolnym sterowaniem ω -suboptymalnym, jednakŜe wskazane jest, aby było ono dostatecznie dokładnym przybliŜonym rozwiązaniem problemu ))0(ˆ,,0( 0 xP ε . W związku z tym, w praktycznych realizacjach algorytmu, wyposaŜa się go w bibliotekę sterowań początkowych, wyliczonych off-line dla róŜnych warunków początkowych. Przy starcie algorytmu wybiera się z biblioteki rozwiązanie wyliczone dla warunku początkowego najbliŜszego aktualnej estymacie stanu

)0(x̂ . Czynności opisane w kroku 2 oraz w krokach 3 – 7 wykonuje się równolegle w czasie,

tzn. układy wykonawcze zajmują się realizacją sterowania ku i jednocześnie realizowane są kroki 3 – 7. Krok 7 algorytmu jest opcjonalny i nie musi występować. Na rys. 2.1 pokazano, w formie graficznej, przebieg obliczeń w schemacie 2.2.1, a na rys. 2.2 zobrazowano zaleŜności czasowe. Przykład 1.2 poucza, Ŝe podany powyŜej algorytm moŜe generować trajektorie ∗x , takie Ŝe ∞=∗

∞→|)(|lim tx

t, nawet przy braku zakłóceń. Dlatego w dalszym ciągu

zajmiemy się badaniem stabilności i odporności schematu 2.2.1.


19

)(tx∗

)(ty∗

))(~,,(),,( 1111

11

++++

++ Π= kkk

kk

k txtxTu ε

1+ku )(tuk

)(ta)(tp)(tw

ku

)(~ 1+ktx )(ˆ ktx

1, +kk uu

Zakłócenia

Algorytmoptymalizacji

Pamięć Obiekt

Predykcja

)(tx∗

)(ty∗

))(,,(),,( 1111

11

++++

++ Π= kkk

kk

k txtxTu ε

1+ku )(tuk

)(ta)(tp)(tw

ku

)( 1+ktx )(ˆ ktx

1, +kk uu

Rys. 2.1. Graficzna reprezentacja schematu 2.2.1

kt

kt

1+kt

1+kt

2+kt

2+kt

)( ktx∗

)(ˆ ktx

)(ˆ ktx

)(~ ktxx~ x~

)( 1+∗

ktx )( 2+∗

ktx

kx 1+kx

)(ˆ 1+ktx

)(~ 1+ktx

)(~ 1+ktx

)(~ 2+ktx

1−ku ku1+ku

Optymalizacja,obliczaniesterowania uk+1

t

t

Estymacjastanu

Predykcja

kt

kt

1+kt

1+kt

2+kt

2+kt

)( ktx∗

)(ˆ ktx

)(ˆ ktx

)( ktxx x

)( 1+∗

ktx )( 2+∗

ktx

kx 1+kx

)(ˆ 1+ktx

)( 1+ktx

)( 1+ktx

)( 2+ktx

1−ku ku1+ku

Rys. 2.2. ZaleŜności czasowe w schemacie 2.2.1.


20

2.3. Stabilno ść algorytmu predykcyjnego

Zajmiemy się stabilnością schematu 2.2.1 w przypadku nominalnym, gdy estymacja stanu jest dokładna i nie występują Ŝadne zakłócenia. W przypadku tym zachodzą równości

)()( txtxk ∗= dla ],[ 1+∈ kk ttt oraz )(ˆ)()(~ kkk

k txtxtx == . Będziemy rozwaŜać następujące definicje stabilności.

Definicja 2.3.1 (stabilność w sensie Lapunowa). Schemat 2.2.1 będziemy nazywać stabilnym w sensie Lapunowa, jeŜeli dla dowolnej liczby 0>λ istnieje liczba 0>η , taka Ŝe

λη yh dla 0≠y , taka Ŝe dla wszystkich 0kk ≥ i dowolnego rozwiązania ω -suboptymalnego ),,( kk

k xTu , procedura Π generuje rozwiązanie ω -suboptymalne ),,( 11

1 ++

+ kk

k xTu , spełniające nierówność


21

))(~(1 kkk txhrr −≤+ . (2.17)

b. JeŜeli schemat 2.2.1 ma słabą własność WS2 ze wskaźnikiem 0k oraz dodatkowo istnieje

funkcja ∈Lβ K , taka Ŝe |)(|)( yyh Lβ≥ dla wszystkich nRy∈ , to mówimy, Ŝe schemat 2.1.1 ma własność WS2 ze wskaźnikiem 0k w sensie zwykłym (zwykłą własność WS2) .

c. JeŜeli schemat 2.2.1 ma zwykłą własność WS2 ze wskaźnikiem 0k oraz dodatkowo

∞=∞→

)(lim ξβξ L

, to mówimy, Ŝe schemat 2.2.1 ma mocną własność WS2 ze wskaźnikiem 0k .□

WS3. Mówimy, Ŝe schemat 2.2.1 ma własność WS3 ze wskaźnikiem 0k , jeŜeli istnieje funkcja ∈ϕ K, taka Ŝe nierówność

)(|)(| kk rtx ϕ≤ (2.18)

jest spełniona dla wszystkich wskaźników 0kk ≥ oraz wszystkich ],[ 1+∈ kk ttt .□

Łatwo zauwaŜyć, Ŝe prawdziwe są następujące implikacje: (i) mocna własność WS1 ze wskaźnikiem 0k ⇒ zwykła własność WS1 ze wskaźnikiem 0k

(ii) mocna własność WS2 ze wskaźnikiem 0k ⇒ zwykła własność WS2 ze wskaźnikiem 0k

⇒ słaba własność WS2 ze wskaźnikiem 0k .

Rys. 2.3. MoŜliwe zachowanie ciągu kr w przypadku, gdy schemat 2.2.1 ma własność WS2a.

Od tej chwili zakładamy, Ŝe spełnione są wszystkie załoŜenia odnośnie prawej strony równań modelu (2.1) i obiektu (2.3) oraz problemów ))(~,,( kkk txtP ε przyjęte w punktach 2.1 i 2.2 niniejszego rozdziału.

Lemat 2.3.1. JeŜeli schemat 2.2.1 ma własność WS1 (mocną własność WS1) ze wskaźnikiem

0k , to ma zwykłą własność WS2 (mocną własność WS2) ze wskaźnikiem 0k .

Dowód: PokaŜemy, Ŝe całka w (2.16) ma niezerowe oszacowanie dolne. Schemat 2.2.1 generuje trajektorie takie, Ŝe Ω∈+ )( kk

k Ttx . Z twierdzenia 2.1.1 wynika, Ŝe

)ˆexp(|)(| 1 kk TLMtx ≤ , dla ],[ kkk Tttt +∈ . Z (2.16) wynika, Ŝe ciąg kr nie rośnie dla 0kk ≥ .


22

PoniewaŜ ∞M . Wynika stąd, Ŝe

|)(|))(|)(~|,0max( txttMtx kkk ≤−− , ktt ≥ .

Funkcja ∈Lα K , zatem musi być

|))((|)))(|)(~|,0max(( txttMtx kLkkL αα ≤−− .

Całkując tę nierówność w granicach ],[ δ+kk tt otrzymujemy oszacowanie

dtttMtxdttxk

k

k

k

t

tkkL

t

t

kL ∫∫

++

−−≥δδ

αα )))(|)(~|,0max((|))((| . (2.19)

WyraŜenie

dtttMtxtxk

k

t

t

kkLkL ∫+

−−=δ

αβ )))(|)(~|,0max((|))(~(| (2.20)

określa dla 0>δ ciągłą i ściśle rosnącą funkcję normy warunku początkowego )(~ ktx . PoniewaŜ 0)0( =Lβ , to ∈Lβ K. Na mocy (2.16), (2.19) i (2.20) otrzymujemy

|))(~(||))((|1

1 kLk

t

t

kLkk txrdttxrr

k

k

βα −≤−≤ ∫+

+ .

Przyjmując |))(~(|))(~( kLk txtxh β= otrzymujemy nierówność (2.17), co kończy dowód. □

Lemat 2.3.2. JeŜeli schemat 2.2.1 ma własność WS1 ze wskaźnikiem 0k , to ma równieŜ

własność WS3 ze wskaźnikiem 0k .

Dowód: PokaŜemy, Ŝe spełnione są załoŜenia lematu 2.1.1. Z (2.16) wynika, Ŝe

k

t

t

kL rdttx

k

k

≤∫+1

|))((|α , 0kk ≥ .

Schemat 2.2.1 generuje trajektorie takie, Ŝe Ω∈+ )( kkk Ttx . Z twierdzenia 2.1.1 wynika, Ŝe

)ˆexp(|)(| 1 kk TLMtx ≤ dla ],[ kkk Tttt +∈ . PoniewaŜ ∞


23

Dowód: a. PoniewaŜ zakłócenia nie występują i estymacja stanu jest dokładna, to )()(ˆ)()(~ kkk

kk txtxtxtx

∗=== . W przedziale czasu ],0[ 0δk , trajektoria ∗x jest ograniczona.

W chwili δ0k znajdujemy ω-suboptymalne rozwiązanie problemu ))(~,,( 000 kkk txtP ε . Rozwiązaniu temu odpowiada skończona wartość

0kr . Bezpośrednio z własności WS2 (zob.

wzór (2.17)) i z konstrukcji algorytmu wynika, Ŝe ciąg ikr +0 , ,...2,1,0=i , jest nierosnący i ograniczony od dołu, a zatem jest zbieŜny. PoniewaŜ kaŜdy ciąg zbieŜny jest ciągiem Cauchy’ego, to z własności WS2 mamy

0))(~(0 1 ∞→+→−≤≤

kkkk rrtxh .

A zatem 0))(~(∞→

→k

ktxh . Na mocy własności WS3 istnieje funkcja ∈ϕ K, taka Ŝe

)(|)(| kk rtx ϕ≤ dla ],[ δ+∈ kk ttt , 0kk ≥ . (2.21)

PoniewaŜ ciąg kr jest nierosnący dla 0kk ≥ , to z (2.21) wynika, Ŝe ciąg )()(~ kk

k txtx = jest ograniczony. Funkcja h jest ciągła oraz 0)0( =h i 0)( >yh dla 0≠y . Wynika stąd, Ŝe warunek 0))(~(

∞→→

kktxh implikuje 0)(

~∞→

→k

ktx . (Uwaga: gdyby ciąg )(~

ktx nie był

ograniczony, to na ogół nie byłby zbieŜny do zera). Procedura Π jest ω -suboptymalna (zob. def. 2.2.2), zatem |))(~(| kk txr ω≤ , gdzie ∈ω K . Ponadto na mocy (2.21) mamy

|))(~(|(|)(| kk txtx ωϕ≤ . PoniewaŜ przy braku zakłóceń dla ],[ 1+∈ kk ttt zachodzi równość

)()( txtxk ∗= , to |))(~(|(|)(| ktxtx ωϕ≤∗ , dla ],[ 1+∈ kk ttt . Przechodząc do granicy ∞→k

otrzymujemy 0|)(|lim =∗∞→

txt

. A zatem schemat 2.2.1 jest SGAS.

b. PoniewaŜ schemat 2.2.1 ma słabą własność WS2 ze wskaźnikiem 00 =k , to ciąg kr , ,...2,1,0=k nie rośnie. Z (2.21) i z definicji ω -suboptymalności (def. 2.2.2) mamy

|))0(~(|()()(|)(| 0 xrrtx kk ωϕϕϕ ≤≤≤ , gdzie ∈ωϕ o K.

PoniewaŜ przy braku zakłóceń dla ],[ 1+∈ kk ttt zachodzi równość )()( txtxk ∗= oraz

)()(~ kk txtx∗= , to |)))0((|(|)(| ∗∗ ≤ xtx ωϕ dla wszystkich 0≥t , co dowodzi, Ŝe schemat

2.2.1 jest stabilny. Z punktu a twierdzenia przy 00 =k wynika, Ŝe schemat 2.2.1 jest SGAS. A zatem schemat 2.2.1 jest GAS. □

Twierdzenie 2.3.2 (o stabilności schematu 2.2.1). a. JeŜeli schemat 2.2.1 ma własność WS1 ze wskaźnikiem 00 ≥k , to jest on słabo

globalnie asymptotycznie stabilny. b. JeŜeli dodatkowo 00 =k , to schemat ten jest globalnie asymptotycznie stabilny

w sensie Lapunowa.

Dowód: PoniewaŜ schemat 2.2.1 ma własność WS1, to z lematów 2.3.1 i 2.3.2 wynika, Ŝe ma zwykłą (a zatem i słabą) własność WS2 oraz własność WS3. Teza wynika natychmiast z twierdzenia 2.3.1. □

Komentarz

Z twierdzeń 2.3.1 i 2.3.2 wynika, Ŝe stabilny algorytm predykcyjny naleŜy konstruować w taki sposób, aby wskaźnik jakości malał w kolejnych krokach, przy czym wskaźnik ten powinien stanowić pewnego rodzaju miarę odległości trajektorii kx od celu (własność WS3).


24

O tym, Ŝe algorytmy posiadające własności WS1–3 rzeczywiście istnieją, przekonamy się w rozdziałach 3 i 4. Własności WS1 i WS2 są analogiczne do warunku ujemnej określoności pochodnej funkcjonału Lapunowa w klasycznej teorii stabilności (zob. np. Demidowicz 1972). Własność WS2 jest słabsza niŜ własność WS1. Fundamentalnym wymaganiem jest ograniczoność trajektorii kx . Spełnienie tego wymagania gwarantowane jest przez warunki Lipschitza oraz poprzez Ŝądanie, aby Ω∈+ )( kk

k Ttx . JeŜeli skądinąd wiadomo, Ŝe

trajektorie są ograniczone, to globalny warunek Lipschitza względem x moŜe być zastąpiony warunkiem lokalnym. Znaczenie warunku końcowego Ω∈+ )( kk

k Ttx moŜna wyrazić nieco

nieprecyzyjnie stwierdzając, Ŝe regulator musi „widzieć” cel. Optymalność nie jest warunkiem koniecznym stabilności. Ilościowe kryterium wcześniejszego przerwania obliczeń podane w punkcie 6 schematu 2.2.1, pozwala unikać nadmiernej liczby iteracji w końcowej fazie optymalizacji. Jest oczywiste, Ŝe nadmierne odejście od optymalności nie jest wskazane ze względu na cel sterowania (wyraŜany przez wskaźnik jakości), jednak niewielka utrata optymalności pozwala − zdaniem autora − znacząco odciąŜyć algorytm optymalizacji, zwłaszcza w obecności zakłóceń. W przypadku nominalnym naleŜy w algorytmie wybrać 1=µ . Przypadek 1γ moŜna dobrać liczby 0,,, >epwa ηηηη , takie Ŝe kaŜda trajektoria

∗x wygenerowana przez schemat 2.2.1

spełnia relację

)()( ∗∗ ≥∀∃ xttxt : γ≤∗ |)(| tx ,

to schemat 2.2.1 nazywamy odpornym. □

Prawa strona równania obiektu (2.3) spełnia załoŜenia twierdzenia o ciągłej zaleŜności rozwiązania od parametru i warunku początkowego (Palczewski 1999). Zatem dla dowolnej liczby 0~0 >ε istnieją liczby 0,,, >epwa ηηηη , takie Ŝe rozwiązanie

nkkk

k RTttx →+ ],[: , gdzie minTTk ≥ , równania (2.1) z warunkiem początkowym )(~ ktx i sterowaniem dopuszczalnym UTttu kkk

k →+ ],[: oraz rozwiązanie równania (2.3) z warunkiem początkowym )( ktx

∗ i z tym samym sterowaniem, spełniają na odcinku ],[ 1+kk tt warunek

0~|)()(| εε

istnieje liczba 01 >α taka , Ŝe warunek

111 |)()(~| α


25

11111

1111 ~)),(,,()),(~,,( εεε +< +++

++++

+kk

kk

kkkk

k txTuJtxTuJ . (2.24)

W chwili 1+kt (rys. 2.2) stan obiektu wynosi )( 1+∗

ktx , natomiast stan przewidywany jest

równy )(~ 1+ktx i jest on na ogół róŜny od stanu )( 1+kk tx , uzyskanego na podstawie

rozwiązania równania (2.1) z warunkiem początkowym )(~ ktx i sterowaniem ku . Odległość

pomiędzy stanem )(~ 1+ktx i stanem )( 1+kk tx , występującą w warunku (2.23), moŜna uczynić

dowolnie małą, wybierając odpowiednio małe liczby 0,,, >epwa ηηηη . Korzystając z (2.22) i (2.24) otrzymujemy

|))(~(|~)),(~,,()),(~,,( 11111

kLkkkk

kkkk txtxTuJtxTuJ βεεε −+≤+++

+ (2.25)

PołóŜmy 0>ε oraz εε ≤0~ , εε ≤1~ . Na mocy ciągłej zaleŜności rozwiązań równań (2.1) i (2.3) od parametrów i warunków początkowych wnioskujemy, Ŝe dla dowolnej liczby 0>ε istnieją liczby 0,,, >epwa ηηηη takie, Ŝe zachodzi nierówność

|))(~(|)),(~,,()),(~,,( 1111

kLkkkk

kkkk txtxTuJtxTuJ βεεε −+≤+++

+ (2.26)

Korzystając z definicji ciągu kr (zob. wzór (2.14)) moŜemy napisać

|))(~(|1 kLkk txrr βε −+ε i znaleźli odpowiadające jej liczby 0,,, >epwa ηηηη , to proces obliczania sterowania w algorytmie 2.2.1 mógłby być przerywany po znalezieniu rozwiązania ω -suboptymalnego gwarantującego spełnienie nierówności (2.27). Wskaźnik jakości malałby wówczas dla wszystkich )(~ ktx spełniających warunek |))(

~(| kL txβε < . PoniewaŜ na ogół nie znamy liczb 0,,, >epwa ηηηη odpowiadających zadanej liczbie 0>ε , to jako warunek wcześniejszego zakończenia obliczeń w algorytmie 2.2.1, przyjmujemy spełnienie nierówności (2.29).

Wniosek 2.4.1. JeŜeli schemat 2.2.1 ma zwykłą własność WS2 ze wskaźnikiem 00 ≥k oraz dla pewnego 0kk ≥ spełniona jest nierówność (2.28), to istnieją liczby 0,,, >epwa ηηηη takie, Ŝe procedura Π moŜe wygenerować rozwiązanie ω - suboptymalne ),,( 11

1 ++

+ kk

k xTu ,

spełniające warunek (2.29). □

Zachodzi następujące


26

Twierdzenie 2.4.1 (o odporności schematu 2.2.1). JeŜeli schemat 2.2.1 ma zwykłą własność WS2 ze wskaźnikiem 00 ≥k , własność WS3 ze wskaźnikiem 00 ≥k oraz )1,0(∈µ , to schemat 2.2.1 jest odporny.

Dowód: Będziemy badać zachowanie trajektorii )(txk . Niech ),0( maxE∈ε , gdzie 0)(lim)1(max >−= ∞→ ξβµ ξ LE . Ponadto niech εK będzie kulą domkniętą o środku

w zerze i promieniu ))1(()( 110−− −= µεβε LR , gdzie

1−Lβ jest funkcją odwrotną do Lβ .

Przypuśćmy, Ŝe ciąg )(~ ktx pozostaje zawsze na zewnątrz kuli εK , tzn.

))1((|)(~| 11 −− −> µεβ Lktx dla ,...2,1,0=k . (2.30)

Z (2.30) i z wniosku 2.4.1 wynika, Ŝe dla kaŜdego ),0( maxE∈ε istnieją liczby 0,,, >epwa ηηηη , takie Ŝe procedura Π moŜe wygenerować rozwiązanie ω -suboptymalne

),,( 111 +

++ k

kk xTu , spełniające warunek (2.29). Ze wzorów (2.14), (2.15), (2.29) i (2.30) oraz

z własności WS2 wynika, Ŝe przy odpowiednio małych liczbach 0,,, >epwa ηηηη wyrazy ciągu kr będą spełniać nierówności

µµεµβ−

−≤−≤≤ + 1|))(~(|0 1 kkLkk rtxrr dla ,...2,1,0=k .

Po skończonej ilości kroków wyrazy ciągu kr musiałyby przyjmować wartości ujemne, co

jest sprzeczne z definicją tego ciągu. Istnieje zatem taki wskaźnik 0≥k , Ŝe

))1((|)(~| 11 −− −≤ µεβ Lktx .

PoniewaŜ procedura Π jest ω -suboptymalna, to z definicji 2.2.2 oraz z ostatniej nierówności mamy oszacowanie wskaźnika jakości

)))1(((|))(~(| 11 −− −≤≤ µεβωω Lkk txr . (2.31)

Przypuśćmy teraz, Ŝe na skutek działania zakłóceń stan przewidywany opuszcza kulę εK ,

tzn. εKtx k ∈)(~ oraz εKtx k ∉+ )(

~1 . MoŜe się wówczas zdarzyć, Ŝe kk rr >+1 , jednak

z nierówności (2.27) wynika, Ŝe przyrosty ciągu kr są mniejsze niŜ ε , tzn.

ε+epwa ηηηη , następny wyraz tego ciągu musi spełniać nierówność

εµ

µεεµ

µεµβ +<−

−+<−

−≤−≤ ++++ kkkkLkk rrrtxrr 11|))(~(| 1112 .

Od tej chwili ciąg ikr + , ,...3,2=i , maleje aŜ do momentu, gdy εKtx ik ∈+ )(~ . Zatem wszystkie

wyrazy ciągu ikr + , ,...2,1,0=i , spełniają oszacowanie

ε+


27

PoniewaŜ schemat 2.2.1 ma własność WS3, to istnieje funkcja ∈ϕ K, taka Ŝe

)(|)(| ikik rtx +

+ ≤ ϕ . (2.33)

Łącząc ze sobą nierówności (2.32) i (2.33) otrzymujemy

))))1((((|)(| 11 εµεβωϕ +−< −−+ Lik tx dla ,...2,1,0=i .

JeŜeli 0,,, >epwa ηηηη są odpowiednio małe, to ∗x i kx są sobie bliskie, tzn.

ε


28

2.5. Rola algorytmu optymalizacji w sterowaniu pred ykcyjnym i planowaniu trajektorii

Dotychczasowe rozwaŜania pozwalają sformułować wnioski odnośnie roli algorytmu optymalizacji dynamicznej w planowaniu trajektorii i sterowaniu predykcyjnym. Obiekty przemysłowe są zwykle sterowane i prowadzone w strukturze warstwowej (rys. 2.4). Warstwa nadrzędna odpowiada za wyznaczenie optymalnego punktu pracy (optymalnego stanu ustalonego).

Optymalizacja statyczna, wypracowanie nowego punktu pracy bądź stanu docelowego.

Planowanie trajektorii optymalnej , bądź teŜ w prostszych przypadkach.

off-lineon-line

Realizacja zaplanowanej trajektorii za pomocą algorytmu predykcyjnego, optymalizacja prowadzona .on-line

Regulacja bezpośrednia i zabezpieczenia

Rys. 2.4.

Szczegółową analizę metod wyznaczania punktów pracy moŜna znaleźć w monografii Tatjewskiego (2002) oraz w pracach Brdysia (1986, 1994). Z doświadczeń autora wynika, Ŝe próby znalezienia rozwiązań optymalnych „na ślepo” w trybie on-line na ogół kończą się niepowodzeniem. Podobne stwierdzenie moŜna znaleźć w pracy Findeisena i innych (2003a). Dlatego w drugim etapie następuje planowanie trajektorii optymalnej, przy uŜyciu algorytmu optymalizacji dynamicznej. Planowanie trajektorii wymaga na ogół duŜego nakładu obliczeń i w bardziej skomplikowanych przypadkach musi być wykonane off-line. Często wyznacza się wiele trajektorii i sterowań optymalnych dla róŜnych warunków początkowych (Turnau 2002, Pesch 1989 a,b). Utworzona w ten sposób biblioteka podpowiedzi jest wykorzystywana w czasie pracy algorytmu predykcyjnego. Przy pracy w czasie rzeczywistym, algorytm optymalizacji ma za zadanie on-line wyznaczaćω -suboptymalne rozwiązania kolejnych problemów optymalizacji. Ograniczenie czasu obliczeń wymaga maksymalnego odciąŜenia algorytmu optymalizacji. Jedną z moŜliwości jest przedstawiona powyŜej koncepcja sterowań ω -suboptymalnych. Obliczenia optymalizacyjne mogą być przerwane bez utraty stabilności, po uzyskaniu poprawy wskaźnika jakości, określonej w punkcie 6 algorytmu 2.2.1. W praktyce, obliczenia są przerywane tylko w jednym przypadku – gdy zostanie wyczerpany limit czasu.

3. Quasi-czasooptymalny algorytm predykcyjny...

29

Rozdział 3. Quasi-czasooptymalny algorytm predykcyj ny ze zmiennym horyzontem i adaptacj ą wska źnika jako ści

Obserwując celowe działania zwierząt i ludzi oraz rozmaite systemy biologiczne, moŜna dojść do wniosku, Ŝe w układach tych cel sterowania osiągany jest w dwóch etapach. W pierwszym etapie podejmowane decyzje mają zagwarantować szybkie (czasooptymalne) dotarcie do pewnego otoczenia celu. W drugiej fazie – w miarę zbliŜania się do celu – sterowanie staje się coraz bardziej precyzyjne (miękkie, oszczędne). Na tym etapie waŜniejsza jest dokładność. Tym dwóm fazom sterowania odpowiadają dwa róŜne kryteria jakości. W pierwszej fazie istotny jest czas osiągnięcia celu. W drugim etapie istotna jest minimalizacja odchyłek stanu i sterowania. PowyŜsze spostrzeŜenie moŜna teŜ uzasadnić analizując wraŜliwość układu sterowania na zakłócenia oraz niepewność parametrów modelu. Wiadomo (Turnau 2002), Ŝe sterowanie czasooptymalne jest bardzo wraŜliwe na zakłócenia i błędy modelu. Największa wraŜliwość występuje zwykle pod koniec procesu, gdy trajektoria leŜy na powierzchni przełączeń (Turnau 2002). NaleŜy wówczas stosować sterowania uodpornione (Turnau et al. 2005). Wiadomo równieŜ, Ŝe algorytmy liniowo-kwadratowe (LQR – Linear Quadratic Regulator) oraz ich nieliniowe wersje (NLQR – Nonlinear Quadratic Regulator) są mniej wraŜliwe na błędy modeli i zakłócenia. MoŜna zatem oczekiwać, Ŝe przechodząc w odpowiednio regularny sposób od sterowania czasooptymalnego do sterowania stabilizującego, osiągniemy kompromis pomiędzy czasem osiągnięcia celu oraz wraŜliwością. W podejściu zaproponowanym przez Michalską (1993), regulator liniowy przejmuje sterowanie, gdy stan systemu osiągnie odpowiednio „małe” otoczenie celu. Poza tym otoczeniem sterowanie obliczane jest w oparciu o rozwiązanie ZSO ze swobodnym horyzontem. W pracy z roku 1997 Michalska badała algorytm z przesuwanym horyzontem, w którym funkcja celu zawiera dwa składniki. Pierwszy z nich reprezentuje czas osiągnięcia celu, natomiast drugi składnik stanowi karę nałoŜoną na stan końcowy w ZSO. Odpowiedni dobór funkcji kary umoŜliwił sformułowanie ZSO bez ograniczeń stanu końcowego. W tym rozdziale przedstawiamy rozwinięcie powyŜszego podejścia dla zadań ze stanem docelowym i proponujemy nowy quasi-czasooptymalny algorytm z przesuwanym horyzontem (QTO-RHC – Quasi Time Optimal Receding Horizon Control), realizujący opisaną powyŜej ideę zmiany kryteriów sterowania. W podejściu tym, funkcja celu zawiera trzy składniki. Pierwszy składnik reprezentuje czas sterowania i stanowi zmienną decyzyjną. Kiedy stan systemu osiągnie pewne otoczenie celu nR⊂B (na ogół kulę o dowolnie zadanym promieniu), algorytm stopniowo „włącza” do wskaźnika jakości drugi człon, całkowy. Trzeci człon stanowi karę za niespełnienie warunku końcowego. Adaptacja wskaźnika jakości, polegająca na stopniowym „włączaniu” członu całkowego, umoŜliwia regularne przejście od sterowania zbliŜonego do czasooptymalnego, do sterowania stabilizującego z całkowym (często kwadratowym) wskaźnikiem jakości. Wcześniejsze zejście z trajektorii czasooptymalnej pozwala uniknąć duŜej liczby przełączeń sterowania, występującej pod koniec procesu (por. np. Turnau 2002). Częste przełączenia sterowania od wartości maksymalnej do minimalnej oddziałują na ogół niekorzystnie na układy wykonawcze oraz są przyczyną drgań, rezonansów i awarii. Reguły adaptacji wskaźnika jakości gwarantują stabilność i odporność systemu zamkniętego. Algorytm dopuszcza rozwiązania suboptymalne, co umoŜliwia wcześniejsze zakończenie obliczeń i uniknięcie zbędnych iteracji w końcowej fazie procesu optymalizacji sterowania. W punkcie 3.1 podajemy algorytm QTO-RHC. W punktach 3.2 i 3.3 analizujemy własności algorytmu oraz dowodzimy jego stabilności i odporności. Na koniec pokazujemy przykłady sterowania systemami nieliniowymi. Będziemy przyjmować, Ŝe spełnione są załoŜenia o problemach

))(~,,( kkk txtP ε i prawych stronach równania stanu, przyjęte w punktach 2.1 i 2.2.


30

3.1. Algorytm QTO-RHC

Niech nR⊂B będzie zbiorem zwartym i jednospójnym oraz niech B zawiera pewną kulę otwartą o środku w zerze.

Algorytm 3.1.1 (QTO-RHC)

Dane: δ , minT ( 0min >≥ δT ), model obiektu (2.1), wskaźnik jakości (2.7), estymata warunku początkowego )0(x̂ , funkcja ∈Lα K, zbiór B, liczby ]1,0(∈µ , )1,0(∈ξ (np. =ξ 0,1),

]1,0(min ∈ε (np. =minε 0,01). Inicjalizacja : Podstaw 0:=k , δktk =: , )0(ˆ:)(~ xtx k = , 0:=kε . JeŜeli ∈)0(x̂ B, to podstaw

min: εε =k . Oblicz rozwiązanie początkowe ))0(ˆ,,0(),,( 00

00 xxTu εΠ= .

1. W przedziale czasu ),[ δ+kk tt stosuj do obiektu sterowanie ku oraz równolegle

wykonuj czynności 2–5. 2. Wyznacz estymatę stanu )(ˆ ktx .

3. Wyznacz na podstawie równania (2.13) predykcję krótkoterminową )(~ 1+ktx .

4. Podstaw kk εε =+ :1 oraz oblicz min))(~,,( TtxTuJr kkk

k −= . a. JeŜeli ),[0 minmin δε +∈∧= TTTkk , to podstaw min1 : εε =+k i idź do 5. b. JeŜeli B∈)(ˆ ktx , to podstaw )1,min(:1 kkk εεε ∆+=+ , gdzie

∫

∫+

+

+

+−=∆

kk

k

k

k

Tt

t

kk

t

t

kkk

k

dtuxL

dtuxL

δ

δ

εδξε

),(

),(

)1( dla δ+≥ minTTk , (3.1)

))((),(

),(

)1(

min

kkk

Tt

t

kk

t

t

kkkk

k

TtxqdtuxL

dtuxLTT

kk

k

k

k

++

+−

−=∆

∫

∫+

+

+

δ

δ

εξε dla ),[ minmin δ+∈ TTTk . (3.2)

5. a. JeŜeli 01 =+kε , to za pomocą procedury Π spróbuj wyznaczyć rozwiązanie ω-suboptymalne ))(~,,(),,( 111

11

1+++

++

+ Π= kkkk

kk txtxTu ε , spełniające warunek

µδ−≤+ kk rr 1 . b. JeŜeli 01 >+kε , to za pomocą procedury Π spróbuj wyznaczyć rozwiązanie ω-suboptymalne ))(~,,(),,( 111

11

1+++

++

+ Π= kkkk

kk txtxTu ε , spełniające warunek

∫+

−≤+1

|))((|min1k

k

t

t

kLkk dttxrr αεξµ .

c. JeŜeli nie da się znaleźć rozwiązania ω-suboptymalnego spełniającego warunki w punktach 5a lub 5b, to za ),,( 11

1 ++

+ kk

k xTu podstaw moŜliwie najlepsze

przybliŜenie rozwiązania optymalnego. 6. Podstaw 1: += kk , δktk =: i idź do 1.


31

Komentarz

Algorytm QTO-RHC łączy w sobie cechy algorytmu czasooptymalnego oraz klasycznego algorytmu predykcyjnego. W chwili początkowej wyznaczane jest sterowanie początkowe. Dopóki stan obiektu leŜy poza zbiorem B, to algorytm wyznacza sterowania ω-suboptymalne zbliŜone do sterowania czasooptymalnego. W tej fazie współczynnik kε jest równy zeru i wykonywane są punkty 1, 2, 3, 4, 5a i 6. PoniewaŜ sterowanie wyznaczane jest na jeden krok naprzód, to do wykonania procedury ))(~,,( 111 +++Π kkk txt ε wymagane jest wyznaczenie predykcji krótkoterminowej oraz współczynnika 1+kε . Czynności te wykonywane są w punktach 3 i 4. Po pewnym czasie zachodzi jeden z warunków w punktach 4a lub 4b. Od tej chwili algorytm przechodzi do fazy stabilizacji, współczynnik

kε przyjmuje pierwszy raz dodatnią wartość i rozpoczyna się adaptacja wskaźnika jakości. W fazie tej wykonywane są punkty 1, 2, 3, 4b, 5b i 6. 3.2. Stabilno ść algorytmu QTO-RHC

ZauwaŜmy, Ŝe istnieje pełna analogia pomiędzy algorytmem 3.1.1 i schematem 2.2.1 z rozdziału 2. WykaŜemy, Ŝe przy braku zakłóceń i dokładnej estymacji stanu, algorytm 3.1.1 jest GAS. JeŜeli zakłócenia nie występują, to )(~)()(ˆ)( kk

kkk txtxtxtx ===

∗ oraz

)()( txtx k=∗ dla ],[ 1+∈ kk ttt . Rozpoczniemy od analizy działania algorytmu przy 0=kε .

Lemat 3.2.1. JeŜeli w algorytmie 3.1.1 0=kε dla ,...2,1,0=k , to przy braku zakłóceń i dokładnej estymacji stanu spełniona jest nierówność

),min())(( min1 TTrtxV kkk −−≤+∗ δ . (3.3)

Dowód: Niech para ),( kk Tu będzie rozwiązaniem ω-suboptymalnym oraz niech para

),( 11

++

kk Tu będzie rozwiązaniem ))(~,,( 111 +++ kkk txtP ε . ZałóŜmy, Ŝe δ≥− minTTk . PoniewaŜ

),( 11

++

kk Tu minimalizuje )),(;;( 11 ++

∗kktxTuJ ε , to zastępując sterowanie

1+ku przez

sterowanie ku , obcięte do przedziału ],[ kkk Ttt ++ δ , otrzymujemy

=++−−≤++−= +++

++∗ ))(())(())(( min11

1min11 kk

kkkk

kkk TtxqTTTtxqTTtxV δ

δδε −=−−= ∗ kkkkk rTtxTuJ min)),(,,( .

JeŜeli δ


32

Dowód: ZałóŜmy, Ŝe B∉)0(x̂ i δ+≥ min0 TT . Zatem dla pewnego k, 0=kε , B∉)(ˆ ktx i δ+≥ minTTk . Rozpatrzmy teraz rozwiązanie ω-suboptymalne ),,(

11

1 ++

+ kk

k xTu , spełniające

warunek

),min()1())(( min11 TTtxVr kkk −−+≤ +∗

+ δµ .

Rozwiązanie takie istnieje, poniewaŜ załoŜyliśmy, Ŝe istnieją rozwiązania problemów ))(~,,( kkk txtP ε oraz procedura Π jest ω-suboptymalna. Na mocy lematu 3.2.1 otrzymujemy

),min())((),min()1( min1min1 TTrtxVTTr kkkkk −−≤≤−−− +∗

+ δδµ .

A zatem dla 0=kε , istnieją rozwiązania ω-suboptymalne ),,(1

11 +

++ k

kk xTu takie, Ŝe

),min( min1 TTrr kkk −−≤+ δµ . (3.3)

W k–tym kroku mamy

∑−

=

−−≤++−=≤1

0min0min ),min())((0

k

iikk

kkk TTrTtxqTTr δµ . (3.4)

PoniewaŜ minTrT kk +≤ , to z twierdzenia 2.1.1 wynika, Ŝe ))(ˆexp(|)(| min1 TrLMtx kk +≤ .

Z (3.4) i ostatniej nierówności wynika, ze w pewnej chwili δj horyzont jT zmaleje na tyle, Ŝe ),[ minmin δ+∈ TTT j lub będzie spełniony warunek B∈)(ˆ jtx . □

Mówiąc nieco nieprecyzyjnie: albo nie moŜna juŜ zmniejszyć horyzontu o δ , albo osiągnięty został zbiór B . Następujący wniosek podsumowuje dotychczasowe rozwaŜania.

Wniosek 3.2.1. Przy braku zakłóceń i dokładnej estymacji stanu algorytm 3.1.1 ma następujące własności: (i) istnieje wskaźnik ∈0k N, taki Ŝe dla wszystkich 0kk ≥ spełniony jest warunek

1min ≤≤ kεε , (ii) warunek w punkcie 4a zachodzi tylko raz, (iii) jeŜeli 0=kε oraz δ+≥ minTTk , to istnieją rozwiązania ω-suboptymalne gwarantujące spełnienie nierówności w punkcie 5a.

Dowód: (i) JeŜeli ∈0x̂ B, to w fazie inicjalizacji algorytmu mamy min0 εε = . W przeciwnym wypadku teza wynika bezpośrednio z lematu 3.2.2 oraz z punktów 4a i b algorytmu. (ii) Wynika bezpośrednio z lematu 3.2.2 i z faktu, Ŝe 0≥∆ kε . (iii) Wynika bezpośrednio ze wzoru (3.3). □

Warunki stabilności algorytmu 3.1.1 określa następujące

Twierdzenie 3.2.1 (o stabilności algorytmu QTO-RHC). Przyjmijmy następujące załoŜenia.

1. Rozwiązania problemów ))(~,,( kkk txtP ε istnieją dla wszystkich n

kkk RRtxt ××∈+ ]1,0[))(~,,( 0ε , ,...2,1,0=k .

2. Istnieje funkcja ∈Lα K , taka Ŝe funkcja podcałkowa L we wskaźniku jakości (2.7) spełnia dla wszystkich mn RRv ×∈),(ξ warunek

|)(|),( ξαξ LvL ≥ . (3.5)


33

3. Dla kaŜdego Ω∈)0(sx istnieje przedziałami ciągłe sterowanie Uus →],0[: δ , takie Ŝe trajektoria sx systemu (2.1) wygenerowana przez to sterowanie pozostaje w zbiorze Ω oraz spełniony jest warunek

0))(),(())(( ≤+ ττττ sss

uxLxqd

d, ],0[ δτ ∈ . (3.6)

Wówczas, przy braku zakłóceń i dokładnej estymacji stanu algorytm 3.1.1 jest GAS.

Dowód: JeŜeli ∉)0(x̂ B, to 00 =ε i z wniosku 3.2.1 wynika, Ŝe istnieją sterowania ω-suboptymalne gwarantujące spełnienie nierówności w punkcie 5a algorytmu. Współczynnik kε będzie równy zeru aŜ do osiągnięcia zbioru B, bądź teŜ do spełnienia warunku w punkcie 4a algorytmu. Z wniosku 3.2.1 wynika, Ŝe istnieje wskaźnik 00 ≥k taki, Ŝe dla wszystkich 0kk ≥ jest minεε ≥k . JeŜeli ∈)0(x̂ B , to minεε �

Biblioteka Główna AGH w Krakowiewinntbg.bg.agh.edu.pl/rozprawy/9998/full9998.pdf · Algorytmy...

Documents

Transcript of Biblioteka Główna AGH w Krakowiewinntbg.bg.agh.edu.pl/rozprawy/9998/full9998.pdf · Algorytmy...