BT olayları – ağ, hizmet ve BT altyapı arızaları – iş süreçlerini ciddi şekilde aksatabilir ve bir şirketin istikrarını tehlikeye atabilir. Teknolojik ilerleme ve uygun “koruma” riskleri önemli ölçüde azaltmasına rağmen, bu tür olayların meydana gelme olasılığını tamamen ortadan kaldırmak mümkün değildir.
ITSM uygulamalarının hayata geçirilmesi, olaylar üzerinde yönetilebilirliğin ve kontrolün sağlanmasında önemli bir rol oynar ve yalnızca ortaya çıkan arızaların hızlı bir şekilde çözülmesine değil, aynı zamanda bunların BT altyapısının istikrarını iyileştirmek için kullanılmasına da olanak tanır.
Bu makalede, olay yönetiminin ne olduğu ve BT hizmetlerinin istikrarlı bir şekilde çalışmasını sağlamada oynadığı rol hakkında ayrıntılı bilgi vereceğiz. Olay türlerini, bunların işlenmesini ve önceliklendirilmesini ele alacağız. Önemli olayların ele alınmasına özellikle dikkat edeceğiz.
Olay yönetimi nedir?
Olay yönetimi, BT ekipleri tarafından hizmet kalitesini veya hizmet performansını etkileyebilecek beklenmedik iş kesintilerine yanıt vermek ve bunları ele almak için kullanılan bir süreçtir. Amacı, normal BT hizmet operasyonlarını hızlı bir şekilde geri yükleyerek olayların olumsuz etki düzeyini azaltmaktır. Olay yönetimi, BT hizmet ve desteğinin tüm yönlerini yönetmek için entegre bir yaklaşım sağlamak üzere temel ITSM süreçlerinin bir parçasıdır.
“Olaylar, kuruluşlar için geçici kesinti süresinden veri kaybına kadar çok sayıda soruna neden olabilir. Doğru yaklaşımla olay yönetimi, olayların hizmetlerde en az kesinti ile hızlı bir şekilde çözülmesini sağlar ve kuruluşların gelecekteki kesintilere karşı daha hazırlıklı olmalarını sağlar.”
– Andrey Vishnyakov, SimpleOne İş Ürün Direktörü, ITIL® SL, MP, Uzman.
ITIL Olay Yönetimi
Bilgi Teknolojisi Altyapı Kütüphanesi (ITIL), BT hizmet yönetimi (ITSM) kapsamında olay yönetimi için kapsamlı bir dizi en iyi uygulama sunan uluslararası kabul görmüş bir en iyi uygulamalar setidir. ITIL’in yapılandırılmış yaklaşımını takip ederek kuruluşlar, BT hizmetlerinin iş ihtiyaçları ile açıkça uyumlu olmasını sağlarken olayları hızlı bir şekilde yönetebilirler. Olay yönetimi, bir hizmet sağlayıcının en önemli uygulamalarından biri olan hizmet desteğinin temel bir bileşenidir.
Tipik Olay Yönetim Süreci
Çoğu durumda, olay yönetimi süreci aşağıdaki adımları içerir:
- Tanımlama. Olay olarak sınıflandırılabilecek olayların tespit edilmesi ve tanımlanması. Bilgi kullanıcılardan veya izleme sistemlerinden gelebilir.
- Kayıt. Tanımlamanın ardından, belgeleme ve verilerin birleştirilmesine olanak sağlamak için olay, olay yönetim sistemine kaydedilmelidir.
- Sınıflandırma. Bu adımda, olayın nasıl ele alınması gerektiğini belirlemek için olay kategorize edilir. Sınıflandırma, yardım masası bilgisinin yönetilmesine ve olayın çözülmesi için bir strateji oluşturulmasına yardımcı olur.
- Önceliklendirme. Şirketin iş süreçleri üzerindeki etki derecesine ve olayın aciliyetine bağlı olarak, olay önceliklendirilir, bu da kaynakları önce en kritik durumları ele almak için tahsis etmenizi sağlar.
- Birincil olay teşhisi. Hızlı bir çözümün mümkün olup olmadığını veya tırmanmanın gerekli olup olmadığını belirlemek için olayın değerlendirilmesini içerir.
- Olay Eskalasyonu. Bir olay ilk destek hattında “çözülemezse” veya acil müdahale gerektiriyorsa, bir sonraki hatta yükseltilir.
- Olayların araştırılması ve çözüm bulunması. Olayın nedenlerini analiz etmek ve bir yönetim stratejisi geliştirmek de dahil olmak üzere olayı yönetmenin en iyi yolunu bulmak.
- Olayları çözme ve BT hizmetinin normal çalışmasını geri yükleme. Çözüm bulunduktan sonra, şirketin hizmetlerinin başarılı bir şekilde geri yüklendiğini doğrulamak için uygulanması ve ardından test edilmesi gerçekleştirilir.
Bu adımlar, olay yönetimine yapılandırılmış ve tutarlı bir yaklaşım sağlar, iş üzerindeki etkiyi en aza indirir ve BT hizmetlerinin hızlı bir şekilde geri yüklenmesine yardımcı olur.
Bir sonraki bölümde olay tanımlama, günlüğe kaydetme ve önceliklendirme adımlarını daha derinlemesine inceleyeceğiz.
Olayların tanımlanması ve önceliklendirilmesi
Çoğu zaman, olayları tespit etmenin iki yolu vardır:
- Kullanıcı şikayetleri
Olay bilgilerinin en yaygın kaynağı BT hizmetleri kullanıcılarından gelen raporlardır. Kullanıcılar sorunları self-servis portalı, e-posta, telefon görüşmeleri veya sohbet botları gibi çeşitli kanallar aracılığıyla bildirebilir.
- Altyapı Olayları
İkinci kaynak ise altyapı düzeyinde tespit edilen olaylardır. Bunlar BT hizmetlerinin kullanılabilirliğini, performansını ve çalışmasını takip eden otomatik izleme sistemleri tarafından tespit edilir. Buna ek olarak, olaylar BT uzmanları tarafından bağımsız olarak da kaydedilebilir.
Bir olay herhangi bir kaynaktan kaydedildikten sonra, bir sonraki adım onu önceliklendirmektir. Bunu yapmak için Etki/ Aciliyet matrisi kullanılır:
- Etki seviyesi (Etki) – olayın iş süreçleri ve kullanıcılar üzerindeki etki derecesi. Genellikle bir BT uzmanı tarafından etkilenen sistem ve hizmetlerin kapsamı ve kritikliğinin değerlendirilmesine dayalı olarak belirlenir.
- Urgency – Bir olayın ne kadar hızlı çözülmesi gerektiğinin ölçüsü. Kullanıcı tarafından talep oluşturulurken kesintinin boyutu dikkate alınarak belirlenir.
- Yetkilendirme
Bu parametrelere dayanarak, olayın nihai önceliği önceden belirlenmiş kurallara göre hesaplanır, buna göre daha fazla eylem planlanır ve bunların işlenmesi için gerçekleştirilir. Genellikle 3-4 seviyeli bir ölçek kullanılır, örneğin:
- Düşük öncelik:
Acil müdahale olmadan çözülebilecek, minimum etki ve aciliyete sahip olaylar. Bu tür olaylara müdahale, düzenli bir bakım programına göre gerçekleşir.
- Orta öncelikli:
Orta şiddetteki olaylar bazı işlevleri veya hizmetleri sınırlar, ancak bir bütün olarak işletme üzerinde küçük bir etkiye sahiptir. Bu tür olaylara müdahale, tam sistem işlevselliğini geri kazandırmak için zamanında planlanır ve yürütülür.
- Yüksek öncelik:
Önemli sistemlerin, hizmetlerin kullanılamamasına yol açan, birçok kullanıcıyı etkileyen ve işletmeyi doğrudan tehdit eden kritik olaylar olan büyük olaylar (Major Incidents) kategorisini ayrıca ayırt etmek gerekir. Maksimum etki, aciliyet ve öncelik ile karakterize edilirler ve özel eskalasyon ve çözüm prosedürleri gerektirirler.
Olay Yöneticisi, önemli olayların ele alınması da dahil olmak üzere olay yönetimi süreciyle ilgili tüm prosedürlerin kaliteli bir şekilde yerine getirilmesinden sorumludur. Bir olayın önemli olup olmadığını belirleyen genellikle bu uzmandır.
“Bir olayın bir kuruluşun normal operasyonları üzerindeki maksimum etkisi göz önüne alındığında, çözümü hızlandırmak ve iş etkisini en aza indirmek ve hizmet kullanılabilirliğini yeniden sağlamak için genel uygulamaya göre özel bir müdahale prosedürü gereklidir. Büyük bir olayı, yüksek önceliğe sahip olmasına rağmen kuruluşun iş süreçleri üzerinde daha az etkisi olan ve ek kaynakları harekete geçirmeye gerek kalmadan standart operasyonel müdahale prosedürleri dahilinde çözülen normal bir olaydan ayıran şey budur.”
– Andrey Vishnyakov, SimpleOne İş Ürün Direktörü, ITIL® SL, MP, Uzman.
Bir kuruluşun amacı, önemli olaylara müdahale etmek için etkili ve duyarlı bir plana sahip olmaktır. Önemli olayların ele alınması prosedürü aşağıdaki hedeflere ulaşmayı amaçlamaktadır:
- Prosedürün yanlışlıkla tetiklenmesi riskini azaltmak için potansiyel olarak önemli olayların önemli olarak kategorize edilmesini sağlamak;
- Önemli bir olayı hızla ele almak ve sonuçlarını en aza indirmek için gerekli tüm kurumsal ve teknik kaynakların derhal dahil edilmesini sağlamak;
- Önemli bir olayın nedenlerini analiz etme sürecini başlatın;
- Benzer önemli olayların tekrarlanma olasılığını en aza indirmek, olay, değişiklik ve sorun yönetimi alanında ITSM süreçlerini iyileştirmek
Önemli olaylar için ısınma seansları
Talep işlemeyi kullanan geleneksel olay yönetimi modelinde, biletler birkaç seviyeden geçer: L1, L2, L3. Bu model, yanıt sürelerini uzatan ve biletlerin aktarılmasına neden olan kuyruklar yaratır ve her grubun çalışmasının önemli bir bileşeninin kaybına neden olur. Karmaşık sistemlerde ve arızalarda, biletin doğru uygulayıcılara ulaşması gecikir. Sonuç, uzun yanıt süreleri ve kullanıcı memnuniyetsizliğidir. Bu durumda, swarming’e geçmelisiniz.
Swarming, soruna en hızlı çözümü sağlamanıza ve görevin sorunsalıyla ilgili tüm olası uzmanları çevrimiçi modda (swarming-session) dahil etmenize olanak tanıyan bir kaynak eskalasyon tekniğidir. Durumu teşhis etme sürecinde, soruna uygun bir çözüm bulunana kadar yalnızca gerekli uzmanlar ortak çalışmaya katılmaya devam eder.
Olay Yöneticisi sürü oturumunun etkin bir şekilde yürütülmesini sağlar, doğru uzmanların katılımını koordine eder, engelleri ve bunların çözümü için gereksinimleri belirler. Swarming katılımcıları (uzmanlıkları önemli olayın alanıyla ilgiliyse) önemli olayları çözmek için gerekli bilgileri sağlayarak aktif bir şekilde işbirliği yaparlar. Eğer bir katılımcının uzmanlığı eldeki görev için gerekli değilse, toplantıyı terk etme hakkına sahiptir.
SimpleOne ITSM sistemi sayesinde, doğrudan önemli olay formundan bir swarming oturumu düzenlemek mümkündür. Sonuç olarak, Telegram’da otomatik olarak önemli olaylar için bir grup oluşturulur ve burada sistemin kullanıcısı olmayan katılımcılar da eklenebilir. Katılımcılara ek olarak, olay formunda meydana gelen tüm önemli değişiklikler hakkında bilgi gönderecek olan bir yönlendirici bot gruba zaten eklenmiştir.
SimpleOne ITSM
SimpleOne ITSM, ITIL en iyi uygulamalarına uygun olarak tasarlanmış bir BT süreç otomasyon sistemidir. Bu araç, iş süreçlerini etkin bir şekilde otomatikleştirerek ve BT Departmanı ile Hizmet Masasının çalışma kalitesini artırarak BT hizmet sunumunun kalitesini önemli ölçüde artırır.
Sistem, olayların erken tespit edilmesine, hızlı ve etkili bir şekilde ortadan kaldırılmasına ve iş süreçleri üzerindeki etkinin en aza indirilmesine yardımcı olur. Olaylar önem derecelerine göre kategorize edilir ve önceliğe göre yönetilir, bu da hizmetlerin sürekli ve kaliteli bir şekilde işlemesini sağlar.
Sonuç
Olay yönetimi tüm kuruluşlar için gerekli olsa da, iş süreçlerinin bir parçası olarak teknolojiyi aktif olarak kullanan şirketler için özellikle önemlidir. Günümüz dünyasında neredeyse tüm kuruluşlar bir dereceye kadar teknolojiye güvenmektedir. Bu nedenle, olay yönetimi bir şirketin sorunsuz çalışması için gereklidir. Etkili bir olay yönetimi süreci çeşitli şekillerde yardımcı olur: olayların operasyonlar üzerindeki etkisini azaltır, kuruluşun genel verimliliğini artırır ve beklenmedik durumlara yanıt verme ve en iyi çözümü bulma becerisini geliştirir.