Disponibilidade, confiabilidade e sustentabilidade


Este é um artigo voltada para conceitos da biblioteca da ITIL, referente ao post, estamos falando de métricas do serviço que são apresentadas dentro do processo de Gestão da Disponibilidade, na etapa de Desenho de Serviços da ITIL.

A seguir o conceito de cada um deles, um exemplo e a forma de cálculo. Por ultimo, uma comparação entre eles em uma tabela de resumo.

Disponibilidade do serviço

Conceito: habilidade de um serviço de TI ou item de configuração de desempenhar a sua função acordada quando requerida.

Forma de calculo: Subtrair o downtime (tempo em que ficou parado) do tempo total acordado do serviço e dividir pelo mesmo tempo acordado total do serviço.

Disponibilidade = Tempo acordado do serviço – tempo que o serviço ficou indisponível / Tempo acordado do serviço.

Ex: Disponibilidade = 500h – 10h / 500h = 0.98 = 98%.

Aspectos importantes: um aspecto relevante é que a métrica de disponibilidade deve estar bem definida entre você e seu cliente. Caso contrário, a entrega da disponibilidade pode ser interpretada de maneiras distintas por ambas as partes.

Um exemplo é a abertura de um incidente para a central de serviços por conta da “lentidão” de um sistema. Digamos que, neste cenário, o incidente em questão foi registrado por que o usuário do sistema está levando cerca de 15 segundos para “logar”. Este evento pode ser considerado como indisponibilidade do serviço? Você registraria o incidente?

E se você faz uma manutenção preventiva em um serviço, precisando interrompê-lo por 15 minutos. É considerado indisponibilidade?

Respostas a estas perguntas só podem ser dadas se você tiver pontuado no acordo de nível de serviços com o cliente, questão como: performance requerida para o serviço e como serão tratadas mudanças programadas. Dito de outra forma, você precisa definir o que é disponibilidade e indisponibilidade.

Confiabilidade do serviço

Conceito: uma medida do tempo em que um serviço de TI ou item de configuração pode executar a sua função acordada sem interrupção.

Quanto maior o tempo em que o serviço funciona sem apresentar uma falha, maior é o nível de confiabilidade deste serviço.

Dica: lembre-se sempre que serviço confiável é aquele livre de falhas.
Forma de calculo : geralmente medida como TMEF (Tempo Médio Entre Falhas) ou TMEIS (Tempo Médio Entre Incidentes do Serviço).

Calculando o TMEF

Para calcular o TMEF, basta dividir o tempo total de uptime, pela quantidade de intervalos de uptimes. Exemplo: se 4 incidentes de 2,5 horas ocorreram em um serviço acordado para funcionar 100 horas, significa que o uptime total é de 90 (já que 90 = 100 – 4*(2,5) ). Considerando-se 6 o número de períodos de uptimes, o TMEF = 90/6 = 15 horas.

Calculando o TMEIS

Basta dividir o tempo total do serviço pelo número de falhas. Ex: se 5 incidentes ocorreram em um serviço que funciona por 500 horas, a confiabilidade é de 100 horas.

Aspectos importantes : a confiabilidade é um critério que também ajuda a medir a disponibilidade de um serviço, mas podemos notar que as métricas são distintas: um serviço com alto nível de disponibilidade pode apresentar baixos níveis de confiabilidade e vice-versa. Manter um acordo com o prestador de serviço em relação somente à disponibilidade pode não ser suficiente.

Ex: imaginemos que um sistema apresentou 30 interrupções de 1 segundo cada. O nível de confiabilidade acordado era de 200 horas e por conta das interrupções resultou em um nível de 100 horas. Considerando-se que o tempo total de limite de downtime acordado é de 02 horas, ele cumpriu a disponibilidade requerida, mas não a confiabilidade.

Sustentabilidade

Conceito: uma medida de quão rápido e eficaz um serviço de TI ou outro item de configuração pode ser restaurado à operação normal após uma falha. A sustentabilidade é frequentemente medida e reportada como TMPRS (Tempo Médio Para Restaurar o Serviço).

Calculando o TMPRS: basta somar os tempos em que todos os incidentes foram fechados e dividir pelo número de incidentes. TMPRS = downtime / número de incidentes. Ex: se o o serviço ficou parado durante 10 horas em um mês em que 2 incidentes ocorreram, o TMRS é de 5 horas.

Aspectos importante: assim como a confiabilidade este é distinto e não substituível. Em outras palavras, o que tentando afirmar é que cobrir o serviço com acordos para a disponibilidade e confiabilidade ainda não é o suficiente, pois a sustentabilidade deve ser também acordada.

Imaginem que o mesmo sistema ilustrado no item anterior fique disponível de maneira interrupta por todo o mês. No ultimo dia deste mês, entretanto, ocorre uma parada que demora 12 horas para ser recuperada. Pode ser que este tempo (12 horas), quando subtraído do tempo total do serviço resulte em um percentual que atenda ao tempo de disponibilidade acordado mas não a sustentabilidade, pois os impactos para 12 horas de parada do serviço não podem ser mitigados pela área de negócio.

Fonte:  Fernando Palma – Portal GSTI

Leia Tambem : KPI – Nível de Serviço

1 thoughts on “Disponibilidade, confiabilidade e sustentabilidade

  1. Pingback: Indicadores de Desempenho | Gestão em TI

Deixe um comentário