Service Level Agreement (SLA) a budoucnost s AI

Ilustrační obrázek, kde si člověk a robot podávají ruku. Na obrázku je text "SLA s AI?"
February 22, 2024

Zajímá vás, co SLA je, co zahrnuje, proč a jak ho měřit a jak ho může využití nástrojů AIOps zabezpečit stabilní provoz IT služeb?

V tomto článku se podíváme, co SLA znamená, co zahrnuje, proč a jak ho měřit a jak může využití nástrojů AIOps vaše SLA zlepšit a zabezpečit tak stabilní provoz IT služeb.

Co je SLA?

SLA, z anglického „Service Level Agreement“, volně přeloženo jako Dohoda o úrovni poskytovaných služeb, je smlouva mezi poskytovatelem služby a jejím uživatelem, která hraje důležitou roli při zajišťování kvality poskytovaných služeb. Může stanovovat např. přijatelnou dobu odezvy služby, její dostupnost, rychlost při řešení problémů a další metriky.

SLA tak slouží jako nástroj ke stanovení jasných očekávání mezi smluvními stranami.

Standardní SLA

SLA zahrnuje mnoho částí od definice služby, přes dohodnuté měřitelné metriky až po způsoby ukončení smlouvy. SLA tak většinou zahrnuje následující části:

  • Určení poskytované služby
  • Požadavky na výkon služby (např. spolehlivost či dostupnost, doba odezvy).
  • Způsob monitorování provozu služby, jejího výkonu a procesů
  • Kroky k nahlášení problému se službou
  • Dobu k vyřízení problému (jednak doba k zahájení šetření závady (response time frame), jednak k odstranění či opravě (resolution time frame))
  • Následky při nedodržení závazku (např. právo ukončit smlouvu, nebo právo na nápravu škody)

Měření (monitoring) SLA

Ke kontrole dodržování úrovně SLA je třeba měřit jasné výkonnostní ukazatele, SLI (Service level indicator), a stanovit pro každý takový ukazatel požadovaný cíl, SLO (Service level objective).

V IT se pak často setkáte s metrikami jako Střední doba mezi poruchami (Mean time between failures, MTBF) a Střední doba opravy či obnovy (Mean time to repair, Mean time to restore, Meantime to recovery, MTTR).

Tyto metriky jsou velmi zásadní, obzvlášť v oblasti B2B, protože pokud má služba výpadek, přichází uživatel o peníze.

Představte si například, že byste provozovali Amazon a dvě hodiny by vám nefungovaly objednávky. O kolik peněz byste asi přišli?

V současné době je s rozvojem AI v provozu IT (AIOps) možné dobu opravy významně zkrátit a často poruchám či výpadkům úplně předejít. Viz dále „AIOps a SLA“.

Další metriky a standardy

Vedle již zmíněných metrik SLA tradičně zahrnuje také indikátory jako jsou průměrná rychlost odpovědi (Avarage speed to answer, ASA), vyřízení požadavku v definovaném čase (Time service factor, TSF), míra případů vyřízených při prvním kontaktu (First call resolution, FCR), čas k vyřízení úkolu (Turn around time, TAT, Total resolution time, TRT), doba běhu systému (Uptime) a další.

Při poskytování služeb v oblasti IT se mnoho SLA přidržuje specifik definovaných v rámci ITIL (Information Technology Infrastructure Library, soubor postupů a framework pro IT činnosti, např. správu IT služeb), nebo ISO/IEC 20000 (mezinárodní standard pro správu IT služeb).

Proč je důležité SLA měřit a hlídat?

Protože - bez okolků - monitoring SLA přináší četné výhody:

  1. Zajištění kvality a odpovědnosti:
    Měření SLA umožňuje kontrolovat, že je služba dodána v dohodnutém rozsahu a na požadované úrovni.  
  2. Efektivní řešení problémů:
    Monitorování SLA také přispívá k rychlejší identifikaci problému, což vede k minimalizaci výpadků, a tedy k úspoře nákladů na výpadky.
  3. Identifikace prostoru ke zlepšení:
    Díky monitoringu SLA může poskytovatel určit oblasti, ve kterých je možné službu zlepšit, aby ještě lépe naplňovala potřeby zákazníků.
  4. Zlepšení zákaznické spokojenosti:
    Dohodnutá úroveň služeb zákazníky jasně seznamuje s tím, co mohou očekávat, a zabezpečuje, že naplnění těchto potřeb.

AIOps a SLA

AIOps (Artificial Intelligence for IT Operations) je technologie, která využívá umělou inteligenci a strojové učení k automatické analýze a řízení IT operací. V kontextu SLA a daných metrik to přináší několik výhod:

  1. 100% dodržení SLA:
    S AIOps rutinní monitoring provádí automat, který udržuje pozornost 24 hodin denně a 7 dní v týdnu. Zásah člověka si vyžádá jen v případě nutnosti a kontaktuje přímo zodpovědnou osobu.
  2. Prediktivní analýza:
    Nástroje AIOps dokáží identifikovat potenciální problémy a výpadky služeb dříve, než nastanou. Můžete tak přijmout preventivní opatření a minimalizovat škody, nebo se jim dokonce úplně vyhnout.
    Rychlost odpovědi na problém (ASA) je zde proto de facto v záporných hodnotách: zareagovali jsme ještě před tím, než vůbec začal běžet čas. Klíčový systém navíc celkově funguje spolehlivěji a má tedy lepší Uptime.
  3. Automatické řešení problémů:
    AIOps může některé problémy vyřešit automaticky, nebo může doporučit kroky k jejich vyřešení. Představte si, že vám běžně přijde chyba jako chaotický text, zatímco s AIOps jako strukturovaná zpráva s návrhem řešení problému. Automatizace a návrhy řešení tak zkracují dobu, po kterou jsou služby při výpadku nedostupné (TRT,MTTR).
  4. Finanční úspora:
    Díky automatizaci, predikcím a návrhům řešení nástroje AIOps snižují náklady na výpadky. Nejde zde přitom ani tak o práci specialisty, který chyby odbavuje, ale mnohem spíš o to, že dvou hodinový výpadek může stát miliony. Zkrácení doby na opravu (MTTR), nebo úplné předcházení závadě tedy prostředky výrazně šetří.

Závěr

SLA je klíčovým nástrojem k zajištění kvality IT služeb. Využití nástrojů AIOps může firmě pomoci poskytovat vyšší úroveň SLA a snáze ho plnit.

Pokud jste IT profesionál, je čas zvážit implementaci AIOps a zajistit, že vaše služby budou fungovat na nejvyšší možné úrovni.

Na trhu se nyní objevují různé nástroje. Jedním z nich je i naše Qeedio, mezi jehož přednosti patří rychlost nasazení (do týdne) a dostupnost i pro středně velké firmy.

Napsala AI, editoval
Napsal
David

Mohlo by vás zajímat