Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék
Intelligens rendszerfelügyelet
Kocsis Imre, Micskei Zoltán, Tóth Dániel
Intelligens rendszerfelügyelet
Tartalom
Ipari és akadémiai kezdeményezéseko IBM Autonomic Computing, Microsoft DSI
Modellvezérelt tervezés és felügyeleto Diagnosztikao Rekonfiguráció
Merre tovább?
IBM Autonomic Computing IBM Research kezdeményezés 2001-ből
(vision for the future, grand challenge)
Minta: autonóm idegrendszer
„A computing environment with the ability to manage itself and dynamically adapt to change in accordance with business policies and objectives.”
Self-managing rendszer Self-configure: To adapt to dynamically changing
environments. Self-heal: To discover, diagnose, and act to prevent
disruptions. Self-optimize: To tune resources and balance
workloads to maximize the use of information technology resources.
Self-protect: To anticipate, detect, identify, and protect against threats.
Autonomic Manager
A vízió aprópénzre váltása AC jellegű funkciók beépítése termékekbe Autonomic Computing Toolkit
o Solution installation and deployment technologieso Problem determinationo Provisioning and orchestrationo Policy-based managemento…
Folyamatosan változó, fejlődő technológiákoWeb Services Distributed Management (WSDM), Build
to Manage Toolkit, SDD, Eclipse COSMOS…
Példa: Tivoli Intelligent Orchestrator
MS Dynamic Systems Initiative (DSI) ~2003: bejelentés, sajtóközlemény…
~2005:o Üzemeltetésre készített
szoftvero Visual Studio támogatáso SDM modellezési nyelv
MS Dynamic Systems Initiative (DSI) ~2006:
o Tudás, modell beépítése a Management Packekbeo Vitualizáció megjelento SDM -> SML
Service Modeling Language Service Modeling Language, Version 1.1
oW3C Proposed Recommendation 12 February 2009o http://www.w3.org/TR/sml/
Models represent a powerful mechanism for validating changes before applying the changes to a service/system.
The actual service/system and its model together enable a self-healing service/system ― the ultimate objective.
Common Model Library 2008: Ipari összefogás
(11 partner cég) SML-re épül Sajtóközlemény,
white paper, szép ábra De: ma már a
weboldal se él
MS Dynamic Systems Initiative (DSI) ~2009:
o ???
Ami megy tovább:o Design for Operations, Knowledge Driven Mgmgt,
Virtualized Infrastructure Példa:
o PRO – Performance and Resource Optimizationo Virtuális gép átmozgatása a monitorozó rendszer
mérése alapján
Tartalom
Ipari és akadémiai kezdeményezéseko IBM Autonomic Computing, Microsoft DSI
Modellvezérelt tervezés és felügyeleto Rekonfigurációo Diagnosztika
Merre tovább?
Modellvezérelt…
CMDB
Valóság Mérnöki/üzemeltetőimodell
Felderítés,követés
Modelltranszformáció
Matematikai,analízis modell
Mi idáig főleg ilyenekkel találkoztunk.
A valóságot viszonylag konkrétan ábrázolja.
Valamilyen vizsgálat elvégzéséhez használt
matematikai reprezentáció. Általában absztrakt.
Pl. gráf, hálózati elérhetőségi vizsgálathoz
Statikus architektúrák
CentOSApache
Tomcat DB2HW
elemek
A Rendszer
Ha egyszer végre áll csak akkor nyúlunk hozzá, ha tényleg kell
(akkor is megfontoltan)
Dinamikus architektúrák Fő ösztönző faktor: erőforráshatékonyság
o Kapacitástervezés: szolgáltatásonként „worst case”?o Hibatűrés: szolgáltatásonként dedikált redundancia?o Energiagazdálkodás?
• Hűtés!
Különböző helyzetekben különböző konfigurációk optimálisak. Példák:o Virtuális gépek erőforrás-allokációjao Gépek megosztása fürtök közötto „utility computing” szolgáltatások bevonásao … 1. Strukturális konfiguráció – de mi az a „struktúra”?
2. Parametrikus konfiguráció
Dinamikus architektúrák A szükséges technológiák megvannak
o Virtualizáció (számítási kapacitás, tárhely, hálózat)o Nagysebességű hálózatoko „utility computing”oMenet közben átkonfigurálható terhelésmegosztó
fürtöko Ha már itt tartunk: menet közben átkonfigurálható
kiszolgáló-rendszereko… „Apróbb problémák”:
1. Konfiguráció nem megfelelőségének meghatározása2. Optimális célkonfiguráció meghatározása
3. Újrakonfiguráció folyamatának meghatározása
Rekonfiguráció Aktív reagálás a belső és külső környezeti
változásokraoMeghibásodáso Terhelés változása (QoS vs. energiatakarékosság)o Támadások stb.
Kétféle alapeset:o Parametrikus rekonfigurációo Strukturális rekonfiguráció
Parametrikus Rekonfiguráció Valamilyen skalár érték beállítás megváltoztatása
o Pl. CPU idő allokáció virtuális gépek között Autonóm megoldása: szabályozástechnikai
problémao A szolgáltatásoknak adott QoS értéke, mint célértéko Külső terhelés, mint zavaró bemenő jelo Valamilyen (zűrös) összefüggés az alkalmazásnak allokált
erőforrások mennyisége és a szolgáltatási szint értékek között (rendszer identifikáció)
Parametrikus Rekonfiguráció
Megfigyelés (monitoring)Beavatkozás
Szabályozott rendszer
QoS célérték
Mért QoS érték
Szabályozási döntés
Nehézségek:- Sokféle szabályozható jellemző- Nehezen identifikálható rendszer
Szabályozott rendszermodellje
Strukturális Rekonfiguráció A szolgáltatásban résztvevő erőforrások és
szolgáltató elemek kapcsolatainak átrendezéseo virtuális gépek mozgatása hostok közötto feladat-átvételi fürtök
Autonóm megoldási lehetőségeko Statikus rekonfiguráció: előredefiniált konfigurációs
alapesetek (a fürtök tipikusan ilyenek)o Dinamikus rekonfiguráció: találja ki a gép a
konfigurációt • klasszikus mesterséges intelligencia problémák:
optimalizálás, keresések, játékelmélet
Strukturális Rekonfiguráció Miért kell dinamikus rekonfiguráció?
o A statikus módszerek pazarlóan bánnak az erőforrásokkal (minden duplázott, stb.)
o A statikus módszerek bizonyos hibákkal nem tudnak mit kezdeni
oMegosztott redundancia kívánatos lenne• Mit csinálna a rendszergazda, ha kiesik egy szolgáltatás?• Keresne épen maradt részeket az infrastruktúrában és arra
telepítené a szolgáltatást• Megpróbálná megjavítani az elromlott részeket• Hova tenne redundanciát?• Oda, ahol „el szokott romlani”
Strukturális Rekonfiguráció
Megfigyelés, FelderítésBeavatkozás
Futó konfiguráció
QoS célérték
Mért QoS érték
Keresés
Lehetséges rendszerkonfigurációkmodelljei
CMDBNehézségek:
- Sokkal bonyolultabb modell kell- Egy teljesen más konfiguráció teljesítménye nehezen előrejelezhető- Átkonfigurálási tranziensjelenségek modellezése
What-if analízis,hibadiagnosztika
Az IT menedzsment mint szabályozási probléma
Managed system
System management
Monitoring
Control policy
Workflowexecution
Faults & attacksQoS & dependabilityconstraints
Servicesprovided
Gondolatébresztő: egyszerű kiszolgáló vezérlése
Egyszerű HTTP szolgáltatás Változó terhelés Adott válaszidőt szeretnénk biztosítani…
o… de nem jobbat Beavatkozás: CPU frekvencia állítása
Elég-e valamelyik Linux CPU governor? Elég-e: f(terhelés) frekvencia?
o N.B. általában nem túl sok diszkrét érték van Elővettük a szabályozástechnika könyvet. Ez elég?
Gondolatébresztő: egyszerű kiszolgáló vezérlése
Tfh. A kiszolgálónk M/M/1-ként modellezhetőo Legtöbbször persze nem
Érkezési ráta (Poisson folyamatot feltételezve)
Feldolgozási ráta (exponenciális eloszlást
feltételezve)
1T
Sha, Liu, Lu, Abdelzaher: „Queueing Model Based Network Server Performance Control”, RTSS02, 2002.
Gondolatébresztő: egyszerű kiszolgáló vezérlése
Az egyensúlyi késleltetés kis
paraméterváltozásokra jól(?) linearizálható
Kis perturbációk: visszacsatolt szabályozásNagyok: „feed forward” vezérlés
1T
Gondolatébresztő: egyszerű kiszolgáló vezérlése
Egyszerű szabályozás?o Reflex: P/I/D…o ... amit lehet empirikusan is (Ziegler-Nichols)
paraméterezni,omeg szakasz-modell alapján.
A lehető legegyszerűbb (P):o u(t) = Kp * e(t)o f(t) = Kp * edelay(t)
Gondolatébresztő: egyszerű kiszolgáló vezérlése Szakaszmodell (elsőrendű ARX):
Vezérlés célja:
Ezért:
)1k(c)k(edelay
)1k(e)k(e delaydelay
)n(ec1)n( delay
Az érintő meredeksége
Ez még persze nem a frekvencia.
Figyelem: gyakorlati alkalmazásra nem mindenképp elég finom ez a modell. (pl. csak
egy feldolgozóegység).
IT rendszerek diagnosztikája A szolgáltatási szintű hibákat (failure) tudni kell…
o Detektálnio Az okokat meghatároznio Javításokat eszközölnio Előre jelezni?
Alkalmas eszközök Megfelelő folyamatok Beépített intelligencia?
ITIL folyamatok
Eseményfeldolgozás
IT rendszerek diagnosztikája
Monitorozás
CMDB
Historikus adatgyűjtés
ITIL folyamatok
Eseményfeldolgozás
IT rendszerek diagnosztikája
Monitorozás
CMDB
Historikus adatgyűjtés
Mit mérjünk?Határértékek?
…?
Mit gyűjtsünk? Mit kezdjünk vele?
A támogató folyamatoknak is van „konfigurációja”…
Rendszerszintű diagnosztika Több évtizedes terület
o Repülő eszközök, katonai eszközök, repülő katonai eszközök…o Simpson, Sheppard: System Test and Diagnosis
Alapfogalom: teszto Ütemezetto „active probing”
Diagnosztika stratégiák céljai:o Hibadetektáláso Hibalokalizáláso Hibaizoláláso …optimális javító akció kiválasztása
Rendszerszintű diagnosztika Diagnosztika: a javító akciók granularitásáig
o Klasszikusan: komponens csere / újraindításoModern IT: + parametrikus/strukturális rekonfiguráció
Általánosan jellemző: a diagnosztikai probléma formális kezeléseo Diagnosztikai stratégia megfelelőségének vizsgálatao Diagnosztikai/javítási logika szintézise
Hardware resourcesSoftware Elements
Service Architecture
Függőségeko erőforráshasználato adatcsere
Hibaterjedés:o erőforrás-állapoto adato … vagy hiánya
Statikus hibaterjedés-analízis
generic infrastructure
element
Inputs and outputs: behavior
v0, v0, v3, v2, v0, … reference
v1, v0, v4, v2, v0, … actual
E1, E0, E2, E0, E0, …
Kapcsolatok: protokoll-automata saját abc-vel
Adathiba: egy olyan érték egy adott pillanatban egy kapcsolaton, mely a referencia-rendszerben nem megengedett
Klasszifikáció: „mérnöki tapasztalat”
Statikus hibaterjedés-analízis
Error-sorozatok időbeli absztrakciója
PR_UP /OS_OK /NFS_OK
Good_req / [Good_rsp / no_log]Bad_req / [Error_code / req_log]
No_req / [No_rsp / no_log]
PR_DOWN /OS_OK
Good_req / [TCP_denial / no_log]Bad_req / [TCP_denial /no_log]
No_req / [No_rsp / no_log]
OS_DOWN
X / [No_rsp / no_log]
Ami számít: Ha egyáltalán nincs válasz, akkor OS_DOWN(Diagnózis)
Hasonlóan: Ha OS_DOWN, akkor egyáltalán nincs válasz(Hatásanalízis)
Ez egy reláció (input, fault_mode, output)!
{„any_input”, „OS_DOWN”, „no_answer”}{„good_requests”, „OK”, „good_answers”}{„any_request”, „PR_DOWN”, „TCP_deny”}…
Hasonlóan: Ha OS_DOWN, akkor egyáltalán nincs válasz(Hatásanalízis)
Error-sorozatok időbeli absztrakciója
Ami számít: Ha egyáltalán nincs válasz, akkor OS_DOWN(Diagnózis)
Bármely bemeneti error-szekvencia
(Véges prefix után) no_rsp error-szekvencia
Belső hibamód állapotsorozat: {OK}*.OS_DOWN
E1, E0, E2, E2, E0, …
S5
Rendszerfutás: hibák sorozatai a kapcsolatokon
o „no error” error
Lehetséges hiba-futások halmazának particionálása: szindrómáko Időbeli absztrakcióo Példa: vegyük a legsúlyosabbat ( „súlyossági” reláció!)
Aszinkron és szinkron rendszerekre ugyanaz
Statikus hibaterjedés-analízis
Példa: switch, belső hibaok nélkülhiányzó csomag hiányzó csomag
késő csomag késő csomag
rosszul formált csomag hiányzó csomag
adathiba az üzenettörzsben
adathiba az üzenettörzsben
Analízis statikus hibaterjedési leírásokkal
Analízis: mik a lehetséges, a leírásokkal és a megfigyelésekkel konzisztens változólekötések?
A diagnózis és a hatásanalízis ugyanaz a probléma!
APPLICATION PROCESS
OS + HW OS + HWNETWORK
WEB SERVER PROCESSCONNECTION CLIENT
I1F I2 O
f1i1
i2
i2
f2
Finite Domain Constraint Satisfaction
Problem (CSP)
Diagnosztika statikus hibaterjedési leírásokkal
Tartalom
Ipari és akadémiai kezdeményezéseko IBM Autonomic Computing, Microsoft DSI
Modellvezérelt tervezés és felügyeleto Diagnosztikao Rekonfiguráció
Merre tovább?
Cloud Computing Cloud computing az új „buzzword” Alapötlet: számítástechnikai erőforrások
szolgáltatásként való eladásaoMegfontolás: a legtöbb cég valójában nem akar IT-vel
foglalkozni, de mégis szüksége van ráo Piaci lehetőség: ne hardvert/szoftvert adjunk el az
ügyfeleknek, hanem szolgáltatásto Hagyományos megoldás: teljes IT infrastruktúra
telepítési/üzemeltetési szerződés külső céggelo Cloud Computing: Interneten keresztül bérbevehető
szolgáltatások
Cloud Computing Jellegzetes 6-os besorolás:
Infrastruktúra
Platform
Tárolás
Alkalmazás
Szolgáltatás
Kliensek
- Platform virtualizáció, mint
szolgáltatás- Grid Computing
- Alkalmazás futtatókörnyezet
(.net)- Web hosting
- Hálózati tárhelyek
- Web alkalmazások
- Online irodai szoftverek…
- Keresés- Térinformatika- Pénzügyek…
- Mobil eszközök- Böngészőbe
épülő szolgáltatások
Sok modern, divatos üzleti modellt húztak be
a „cloud” fogalomkör alá…
Cloud Computing Mi kerüljön alá? Nyilvánvaló, hogy az erőforrás szolgáltató
cégeknek…o… hatalmas hardverparkra van szüksége
• Komoly költség és energia-hatékonysági megfontolások!o… nagyon jó menedzsment megoldásokat kell
alkalmazniuk• Szisztematikus eljárásrend minden esetre• Automatizálás ahol csak lehet
Hardver a „Cloud” alá Hatalmas hardverpark rendel:
o Érdekes új termékfajta: Modular Datacenter pl. Sun S20 (aka. Black Box)
Specifikáció:
- Kívül: szabvány méretű konténer (8-15 t tömeg)- Belül: 8 db szabványos 42 egység magas rack- Áramellátás: 200kW- Hűtés vízzel (25kW/rack kapacitással)- teljes beépített hálózat- földrengésbiztos kivitel mag. 6,5-ig
Forrás: http://www.sun.com/products/sunmd/s20/
Hardver a „Cloud” alá
A Microsoft datacenter víziója:
Hardver a „Cloud” alá Google saját szerver építőeleme:
o Gigabyte GA-9IVDP alaplap (saját rendelésre készült, kereskedelmi forgalomban nem kapható)
o Csak egyetlen 12V-os tápellátáso És egy jó nagy akkumulátor… UPS helyett
Autonóm menedzsment megoldások Trend: inkább olcsó hardverből sokat, mint
drágából keveseto A hibatűrést szoftverből kell megoldanio Ember számára kezelhetetlen méretű rendszer,
automatizálni kell (emberi munkaerő túl drága)
Energiatakarékosság, költségkímélés: o Csak annyi redundancia legyen, amennyi feltétlen kello Okosan kell kihasználni ezt a redundanciáto Takarékoskodni az energiával, amikor csak lehet
További információ IBM, Autonomic Computing Manifesto, 2001 IBM, An architectural blueprint
for autonomic computing, 2006. Microsoft, DSI Overview White Paper, 2005.
Top Related