10 Melhores práticas para lidar com grandes incidentes na TI

Os grandes incidentes afetam as organizações, grandes e pequenas, sem exceção. Os grandes incidentes como acidentes no servidor de transação bancária, falhas no software de check-in aéreos e falhas no mercado de ações tem um impacto adverso sobre os clientes. Sob tais circunstâncias, help desks são sobrecarregados com chamados, levando ao pânico e caos. Torna-se uma corrida contra o tempo encontrar uma solução, e cada hora de interrupção pode ser traduzida em milhares, se não milhões de dólares perdidos. Muitos técnicos de TI se encontram frequentemente atendendo chamadas e respondendo a e-mails ao invés de tentar encontrar uma solução. O que é preciso para manter a cabeça fria e orientar a sua organização para sair dessa situação? Siga estas 10 melhores práticas para lidar com incidentes graves que surgem em seu caminho.

Defina claramente um incidente grave

Quando um problema causa um impacto enorme no negócio em vários utilizadores, você pode classificá-lo como um grande incidente. É aquele que obriga a organização a se desviar do gerenciamento de  processos de incidentes existentes. Normalmente, os incidentes de alta prioridade são erroneamente percebidos como grandes incidentes. Isto é provavelmente devido à ausência de orientações claras ITIL. Portanto, para evitar qualquer confusão, é necessário definir um incidente grave claramente com base em fatores como urgência, impacto e gravidade.

Tenha fluxos de trabalho exclusivos

A implementação de um fluxo de trabalho robusto ajuda a restaurar um serviço interrompido rapidamente. Fluxos de trabalho separados para grandes incidentes ajudam na resolução perfeita. Concentre-se em automatizar e simplificar o seguinte quando você formular um fluxo de trabalho para grandes incidentes.

  • Identificar o incidente grave
  • Comunicar às partes interessadas impactadas
  • Atribuir as pessoas certas
  • Acompanhar o incidente importante durante todo o seu ciclo de vida
  • Escalação perante violação de SLAs
  • Resolução e encerramento
  • Geração e análise de relatórios

Escolha os recursos adequados

Certifique-se de que seus melhores recursos estão trabalhando nos grandes incidentes. Além disso, defina claramente as suas funções e responsabilidades por causa do alto impacto que esses incidentes tem nos negócios. Você poderia ter um recurso dedicado ou uma equipe temporária, dependendo de quantas vezes ocorrem incidentes graves. Algumas organizações têm uma grande equipe de incidente dedicada, dirigido por um grande gerente de incidentes, ao passo que outros têm, uma equipa dinâmica ad hoc que tem especialistas de vários departamentos. Seu principal objetivo deve ser o de manter seus recursos envolvidos e evitar o conflito de tempo e prioridades.

Treine seu pessoal e equipe-os com as ferramentas certas

Você não sabe quando um incidente grave pode atacar seu TI, mas o primeiro passo para lidar com ele é estar preparado. Divida a sua equipa principal de gerenciamento de incidentes em subequipes e treine-os para gerenciamento de grandes incidentes. Atribuia responsabilidades pelo mapeamento de competências e exigências. Testes de simulação executados em uma base regular para identificar os pontos fortes, avaliar o desempenho, e colmatar as lacunas quando necessário. Isso também ajudaria a sua equipe a lidar com o stress e estarem preparadso quando enfrentarem cenários em tempo real. Equipe sua equipe com as ferramentas certas, como smartphones e tablets  para que eles trabalhem de qualquer lugar durante uma emergência.

Configure rigorosos SLAs e escalações hierárquicas

Defina SLAs rigorosos para grandes incidentes. Configure o SLA de resposta e de resolução separados com pontos de escalação clara para qualquer violação do processo. Além disso, siga um processo de escalonamento manual, se o técnico atribuído não tem o conhecimento para resolver o incidente. Além disso, garanta que um técnico de backup esteja sempre disponível.

Mantenha as partes interessadas informada

Durante todo o ciclo de vida dos grandes incidentes, envie anúncios, notificações e atualizações de status para as partes interessadas. Anúncios no portal de auto-serviço irão impedir que os usuários finais abram tickets duplicados e sobrecarreguem o help desk. Também envie atualizações de hora em hora ou a cada 2 horas durante um tempo de inatividade do serviço causados ​​por grandes incidentes. Tenha uma linha dedicada para responder a incidentes graves imediatamente e oferecça apoio às partes interessadas. Use o meio mais rápido de comunicação, tais como chamadas telefônicas, chat ao vivo em vez de confiar apenas no e-mail.

Amarre os grandes incidentes com outros processos do ITIL

Depois que um grande incidente for resolvido, execute uma análise de causa raiz, usando métodos de gerenciamento de problemas. Em seguida, implemente mudanças em toda a organização para prevenir a ocorrência de incidentes semelhantes no futuro, seguindo o processo de gestão de mudança. Acelere todo o incidente, problema, e mude processo de gestão, fornecendo informações detalhadas sobre os ativos envolvidos usando gestão de ativos.

Melhore sua base de conhecimento

Formule modelos simples para artigos da base de conhecimento que capture detalhes críticos tais como o tipo de incidente grave com o qual o artigo se relaciona, o último problema resolvido usando o artigo, o proprietário do artigo, e os recursos que seriam necessários para implementar a solução. Crie e acompanhe soluções separadamente para grandes incidentes para que você possa acessá-los rapidamente com muito pouco esforço.

Revise e gere relatório sobre incidentes graves

Documente e analise todos os grandes incidentes, de modo que você possa identificar áreas de melhoria. Isto ajudará a sua equipe lidar eficientemente com problemas semelhantes no futuro. Além disso, gere relatórios importantes específicos de incidentes para análise, avaliação e tomada de decisão. Você pode gerar os seguintes relatórios para ajudar na tomada de decisão eficiente.

1) Número de acidentes importantes abertos e fechados a cada mês
2) O tempo médio de resolução para incidentes graves
3) Percentagem de causa de indisponibilidade de incidentes graves
4) Os problemas e as alterações ligadas à grandes incidentes

Documente processos para incidentes graves para melhoria contínua de serviço

Uma das melhores práticas é documentar os principais processos e fluxos de trabalho de incidentes para referência. Isso pode capturar detalhes como número de pessoas envolvidas, assim como suas funções e responsabilidades, canais de comunicação, ferramentas utilizadas para a correção, fluxos de trabalho de escalonamento e aprovação, e a estratégia global junto com as métricas de linha de base para a resposta e resolução. A gestão deve avaliar os processos em uma base regular para verificar se os níveis de desempenho direcionados ao gerenciamento de grandes incidentes foram atendidos. Isso pode ajudar a corrigir falhas e servem para a melhoria contínua dos serviços.

Grandes incidentes são inevitáveis ​​e cada um é uma experiência de aprendizagem para sua equipe. Aderir a estas práticas pode ser o primeiro passo para dominar a arte de lidar com incidentes graves. A ferramenta ideal para realizar todo esse gerenciamento é ServiceDesk Plus. O time da ACSoftware terá o prazer de lhe apresentar essa e outras ferramentas.

ACSoftware / Figo Software seu Distribuidor e Revenda ManageEngine no Brasil
Fone (11) 4063 1007 – Vendas (11) 4063 9639

Deixe um comentário

Blog ACSoftware - ManageEngine