Os incidentes de TI – falhas na rede, nos serviços e na infraestrutura de TI – podem interromper seriamente os processos de negócios e comprometer a estabilidade de uma empresa. Apesar do fato de que o progresso tecnológico e a “proteção” adequada reduzem significativamente os riscos, é impossível eliminar completamente a possibilidade de tais incidentes.
A implementação das práticas de ITSM desempenha um papel importante para garantir a capacidade de gerenciamento e o controle dos incidentes, permitindo não apenas resolver rapidamente as falhas emergentes, mas também usá-las para melhorar a estabilidade da infraestrutura de TI.
Neste artigo, entraremos em detalhes sobre o que é o gerenciamento de incidentes e a função que ele desempenha para garantir a operação estável dos serviços de TI. Consideraremos os tipos de incidentes, seu processamento e priorização. Daremos atenção especial ao tratamento de incidentes significativos.
O que é gerenciamento de incidentes?
O gerenciamento de incidentes é um processo usado pelas equipes de TI para responder e tratar de interrupções inesperadas nos negócios que podem afetar a qualidade do serviço ou o desempenho do serviço. Seu objetivo é reduzir o nível de impacto negativo dos incidentes, restaurando rapidamente as operações normais dos serviços de TI. O gerenciamento de incidentes faz parte dos principais processos de ITSM para fornecer uma abordagem integrada ao gerenciamento de todos os aspectos do serviço e do suporte de TI.
“Os incidentes podem causar uma série de problemas para as organizações, desde o tempo de inatividade temporário até a perda de dados. Com a abordagem correta, o gerenciamento de incidentes garante que os incidentes sejam resolvidos rapidamente com o mínimo de interrupção dos serviços e permite que as organizações estejam mais preparadas para futuras interrupções”,
– comentou Andrey Vishnyakov, diretor de produtos comerciais da SimpleOne, ITIL® SL, MP, Expert.
Gerenciamento de incidentes da ITIL
A Information Technology Infrastructure Library (ITIL) é um conjunto de práticas recomendadas reconhecido internacionalmente que oferece um conjunto abrangente de práticas recomendadas para o gerenciamento de incidentes no gerenciamento de serviços de TI (ITSM). Seguindo a abordagem estruturada da ITIL, as organizações podem gerenciar rapidamente os incidentes e, ao mesmo tempo, garantir que os serviços de TI estejam claramente alinhados às necessidades dos negócios. O gerenciamento de incidentes é um componente essencial do suporte a serviços, uma das práticas mais importantes de um provedor de serviços.
Processo típico de gerenciamento de incidentes
Na maioria dos casos, o processo de gerenciamento de incidentes inclui as seguintes etapas:
- Identificação. Detecção e identificação de eventos que podem ser classificados como incidentes. As informações podem vir de usuários ou de sistemas de monitoramento.
- Registro. Após a identificação, o incidente deve ser registrado no sistema de gerenciamento de incidentes para permitir a documentação e a consolidação dos dados.
- Classificação. Nessa etapa, o incidente é categorizado para determinar como ele deve ser tratado. A classificação ajuda a gerenciar o conhecimento do help desk e a formar uma estratégia para resolver o incidente.
- Priorização. Com base no grau de impacto nos processos de negócios da empresa e na urgência do incidente, o incidente é priorizado, o que permite que você aloque recursos para lidar primeiro com as situações mais críticas.
- Diagnóstico de incidente primário. Inclui uma avaliação do incidente para determinar se é possível uma resolução rápida ou se é necessário um escalonamento.
- Aumento do incidente. Se um incidente não puder ser “resolvido” na primeira linha de suporte ou exigir intervenção urgente, ele será escalado para a próxima linha.
- Investigar e encontrar uma solução para incidentes. Encontrar a melhor maneira de gerenciar o incidente, incluindo a análise das causas do incidente e o desenvolvimento de uma estratégia de gerenciamento.
- Resolver incidentes e restaurar a operação normal do serviço de TI. Depois que a solução é encontrada, sua implementação e os testes subsequentes são realizados para confirmar a restauração bem-sucedida dos serviços da empresa.
Essas etapas fornecem uma abordagem estruturada e consistente para o gerenciamento de incidentes, minimizam o impacto nos negócios e ajudam na rápida restauração dos serviços de TI.
Na próxima seção, vamos nos aprofundar nas etapas de identificação, registro e priorização de incidentes.
Identificação e priorização de incidentes
Na maioria das vezes, há duas maneiras de identificar incidentes:
- Reclamações de usuários
A fonte mais comum de informações sobre incidentes são os relatórios dos usuários dos serviços de TI. Os usuários podem relatar problemas por meio de uma variedade de canais, como um portal de autoatendimento, e-mail, chamadas telefônicas ou chatbots.
- Incidentes de infraestrutura
A segunda fonte são os incidentes detectados no nível da infraestrutura. Eles são detectados por sistemas de monitoramento automatizados que rastreiam a disponibilidade, o desempenho e a operação dos serviços de TI. Além disso, os incidentes podem ser registrados de forma independente pelos profissionais de TI.
Depois que um incidente é registrado de qualquer fonte, a próxima etapa é priorizá-lo. Para isso, é usada a matriz de impacto/urgência:
- Nível de impacto (Impact) – o grau de impacto que o incidente tem sobre os processos de negócios e os usuários. Geralmente determinado por um especialista em TI com base em uma avaliação do escopo e da criticidade dos sistemas e serviços afetados.
- Urgência – Uma medida da rapidez com que um incidente precisa ser resolvido. Ela é definida pelo usuário ao criar a solicitação, levando em conta a extensão da interrupção.
- Autorização
Com base nesses parâmetros, a prioridade final do incidente é calculada de acordo com regras predeterminadas, segundo as quais outras ações são planejadas e executadas para seu processamento. Normalmente, é usada uma escala de 3 a 4 níveis, por exemplo:
- Baixa prioridade:
Incidentes com impacto e urgência mínimos que podem ser resolvidos sem intervenção urgente. A resposta a esses eventos ocorre de acordo com um cronograma de manutenção regular.
- Prioridade média:
Os incidentes de gravidade moderada limitam algumas funções ou serviços, mas têm um pequeno impacto nos negócios como um todo. A resposta a esses incidentes é planejada e executada em tempo hábil para restaurar a funcionalidade total do sistema.
- Alta prioridade:
É necessário distinguir separadamente a categoria de incidentes graves (Major Incidents) – eventos críticos que levam à indisponibilidade dos principais sistemas e serviços, afetando muitos usuários e ameaçando diretamente os negócios. Eles são caracterizados por impacto máximo, urgência e prioridade, e exigem procedimentos especiais de escalonamento e resolução.
O gerente de incidentes é responsável pelo cumprimento de qualidade de todos os procedimentos relacionados ao processo de gerenciamento de incidentes, inclusive o tratamento de incidentes significativos. Geralmente, é esse especialista que determina se um incidente é significativo.
“Dado o impacto máximo de um incidente nas operações normais de uma organização, é necessário um procedimento de resposta dedicado em relação à prática geral para agilizar a resolução e minimizar o impacto nos negócios, bem como restaurar a disponibilidade do serviço. É isso que distingue um incidente grave de um incidente normal, que, embora possa ter alta prioridade, tem menos impacto sobre os processos de negócios da organização e é resolvido dentro dos procedimentos de resposta operacional padrão sem a necessidade de mobilizar recursos adicionais”.
– comentou Andrey Vishnyakov, diretor de produtos comerciais da SimpleOne, ITIL® SL, MP, Expert.
O objetivo de uma organização é ter um esquema eficaz e ágil para responder a incidentes significativos. O procedimento para lidar com incidentes significativos visa a atingir os seguintes objetivos:
- Garantir que os incidentes potencialmente significativos sejam categorizados como significativos, a fim de reduzir o risco de o procedimento ser falsamente acionado;
- Garantir o envolvimento imediato de todos os recursos organizacionais e técnicos necessários para tratar rapidamente de um incidente significativo e minimizar suas consequências;
- Iniciar o processo de análise das causas de um incidente significativo;
- Minimizar a probabilidade de recorrência de incidentes significativos semelhantes, melhorar os processos de ITSM na área de gerenciamento de incidentes, mudanças e problemas
Sessões de aquecimento para incidentes significativos
No modelo tradicional de gerenciamento de incidentes que usa o processamento de solicitações, os tíquetes passam por vários níveis: L1, L2, L3. Esse modelo cria filas que prolongam os tempos de resposta e resultam na transferência de tíquetes, resultando na perda de um componente importante do trabalho de cada grupo. Em sistemas complexos e falhas, o tíquete demora a chegar aos executores certos. O resultado final são longos tempos de resposta e insatisfação do usuário. Nesse caso, você deve mudar para o swarming.
O swarming é uma técnica de escalonamento de recursos que permite que você forneça a solução mais rápida para o problema, além de envolver todos os possíveis especialistas relacionados à problemática da tarefa no modo on-line (swarming-session). No processo de diagnóstico da situação, somente os especialistas necessários continuam a participar do trabalho conjunto até que seja encontrada uma solução adequada para o problema.
O gerente de incidentes garante a condução eficaz da sessão de swarming, coordena o envolvimento dos especialistas certos, identifica os obstáculos e os requisitos para sua solução. Os participantes do swarming (se seus conhecimentos estiverem relacionados à área do incidente significativo) colaboram ativamente fornecendo as informações necessárias para resolver os incidentes significativos. Se a experiência de um participante não for necessária para a tarefa em questão, ele tem o direito de deixar a reunião.
Graças ao sistema SimpleOne ITSM, é possível organizar uma sessão de swarming diretamente do formulário de incidente significativo. Como resultado, um grupo para incidentes significativos é formado automaticamente no Telegram, onde os participantes que não são usuários do sistema também podem ser adicionados. Além dos participantes, um bot roteador já foi adicionado ao grupo, que enviará informações sobre todas as alterações importantes que ocorreram no formulário de incidente.
SimpleOne ITSM
O SimpleOne ITSM é um sistema de automação de processos de TI projetado de acordo com as práticas recomendadas da ITIL. Essa ferramenta aprimora significativamente a qualidade da prestação de serviços de TI, automatizando com eficácia os processos de negócios e melhorando a qualidade do trabalho do departamento de TI e da central de serviços.
O sistema ajuda na detecção precoce de incidentes e em sua eliminação rápida e eficaz, o que ajuda a minimizar o impacto nos processos comerciais. Os incidentes são categorizados com base nos níveis de gravidade e gerenciados de acordo com a prioridade, o que garante o funcionamento contínuo e de qualidade dos serviços.
Conclusão
Embora o gerenciamento de incidentes seja necessário para todas as organizações, ele é especialmente importante para as empresas que usam ativamente a tecnologia como parte de seus processos de negócios. No mundo de hoje, quase todas as organizações dependem da tecnologia em algum grau. Portanto, o gerenciamento de incidentes é essencial para o bom funcionamento de uma empresa. Um processo eficaz de gerenciamento de incidentes ajuda de várias maneiras: reduz o impacto dos incidentes nas operações, aumenta a eficiência geral da organização e melhora a capacidade de responder a situações inesperadas e encontrar a melhor solução.