TRANSLATE:
header_logo
Login
INFORMAÇÃO, CONHECIMENTO E TECNOLOGIAS
Como lidar com uma interrupção de serviço de TI
Nasdaq e Intermedia estão entre as mais recentes empresas a sofrerem longas falhas no serviço. Eventualmente, a mesma coisa vai acontecer com você
Claramente, não foram boas semanas para a Nasdaq. Primeiro a bolsa teve as negociações interrompidas por mais de três horas no dia 22 de agosto, por conta de uma "série de eventos tecnológicos", vários deles provocados por problemas de conexão com a Nasdaq OMX, a companhia que opera a bolsa. Na quarta-feira, 4 de setembro, um novo problema tirou o sistema do ar por seis minutos. Apesar de ter envolvido o mesmo sistema, a Nasdaq atribuiu o incidente a uma "falha de memória em um servidor back-end".

Também não foi um grande retorno do feriado do Dia do Trabalho para Intermedia , um dos maiores fornecedores mundiais de serviços Microsoft Exchange. Em 03 de setembro, um dia depois de um fim de semana prolongado nos Estados Unidos, o provedor ficou fora do ar por cinco horas, tornando e-mails inacessíveis.

Como diz um famoso ditado popular, em relação ao políticos: "Nunca deixe uma boa crise ir para o lixo." Há lições que os líderes de TI podem aprender com as interrupções de serviços dessas empresas. Aqui estão quatro pontos aos quais você deveria prestar atenção.


1. Teste regularmente para planejar ações pós-desastres

Desastres acontecem. Pessoas constumam argumentar que você deve ser mais positivo sobre suas operações e suas implementações. Mas mesmo convicto de ter feito o melhor, esteja certo também de que os sistemas vão falhar e cair. Não é uma questão de se - é uma questão de quando. Entenda o que uma interrupção pode provocar, como afetará diferentes partes do seu negócio, o que precisa acontecer para que ocorram e o que você precisará fazer para controná-las e minimizá-las.

Grande parte desse planejamento de desastres depende do tipo de serviço prestado. Se você é um CIO que suporta um serviço de e-mail para 100 mil empregados, o seu plano de catástrofe terá um aspecto diferente daquele de uma equipe técnica responsável pos sistemas que atendem 500 mil clientes externos.

Saiba os custos de mitigação, bem como os custos de backup e dos sistemas de espera. Investigue como os serviços de computação em nuvem, como a Amazon Web Services e Windows Azure, podem ajudar a tornar uma situação inatividade um pouco mais suportável, graças à capacidade de girar serviços sob demanda, quando você precisar deles, e fechá-los uma vez que sua situação melhorou.

Finalmente, coloque no seu calendário, com regularidade, a realização de "falhas simuladas". Além de revisar seu plano de continuidade de negócios pelo menos uma vez por ano, você deve praticá-lo no mínimo com a mesma frequência.

Trace os caminhos a serem percorridos por todos os envolvidos em uma determinada falha e escreva as responsabilidades de cada um. Aproveite a oportunidade para envolver todas as partes interessadas, sem a pressão de uma queda real. Dessa forma, o plano será bem conhecido quando o inevitável acontecer.

A tecnologia serve para suportar as políticas para recuperação de desastres, mas não constitui, por si só, uma solução isolada. Os gestores precisam ter em mente que a estratégia para gerenciar esse tipo de problema deve ser um processo contínuo, o qual deve garantir uma atualização constante das iniciativas e necessita ser testado de forma regular.

É importante periodicamente atualizar a análise de impacto para os negócios e o levantamento de riscos como parte da estratégia específica para recuperação de desastres. Essa postura proativa, mais do que preparar a empresa para possíveis problemas, tende a economizar um dinheiro substancial das organizações em longo prazo. E as empresas que adotam esse modelo conseguem substituir o termo ‘recuperação de desastres’ por ‘continuidade dos serviços de TI’.


2. Isolar suas comunicações a partir de sua Plataforma de Serviços

Colocar seus telefones, e-mail, mensagens instantâneas e comunicação em tempo real ali no seu centro de dados super-rápido, junto com os serviços que você oferece, parece fazer sentido.

Na maioria das vezes, pode funcionar bem - mas até mesmo um administrador júnior pode ver o problema desta configuração. Uma vez que a conectividade de rede é interrompida no centro de dados, por qualquer razão, você está frito. Você não pode se comunicar. Seu serviço cai. Os clientes ficam com raiva. Os funcionários não podem trabalhar.

Se você é responsável por um site de comércio eletrônico, e não puder concluir o pagamento das encomendas, via cartões de crédito ou débito, as receitas vão evaporar. Se os clientes não puderem telefonar para colocar seus pedidos há risco não só de perder a ordem como o cliente também.

A falha na Intermedia é um bom exemplo. O CEO Phil Koen observa que, como os sistemas de comunicação da empresa residem nos mesmos data centers que ficaram inacessíveis, a capacidade da sempresa de se comunicar com os clientes e parceiros também foi interrompida.

Essa é uma maneira rápida de ver os seus clientes correrem para os concorrentes. Para uma empresa que se orgulha em oferecer serviços hospedados tolerantes a falhas, foi um tremendo erro, tanto na sua topologia de serviço e como na sua capacidade de lidar com uma interrupção. Não cometa o mesmo erro.


3. Comunicar, comunicar e comunicar

Em caso de dúvida, comunicar-se um pouco mais. A tentação durante uma interrupção é se concentrar em resolver o problema com praticamente todos os recursos que você pode reunir para a tarefa. Não se esqueça que existem outros interessados ​​na questão, independente do fato de sua queda ser interna, externa ou ambas.

Se você executa um serviço para os clientes, eles esperam - e merecem - saber o que está acontecendo e receber um tempo estimado para restabelecimento do serviço. (Tempo estimado para restabelecimento do serviço ", por sinal, significa" meia hora "ou" ao meio-dia ", e não" em breve "ou" logo que possível "). Enquanto isso, se você tiver uma falha em um sistema interno, especialmente um sistema crítico para os negócios, então você precisa enviar atualizações para as partes afetadas, assim que entender que há um problema e, em seguida, em intervalos regulares, frequentes, até que o problema seja resolvido.

A comunicação não pode ser tardia. Ele deve ser uma alta prioridade - perdendo apenas para a resolução da falha. Não torne uma situação ruim ainda pior, criando um vácuo de informação.

Entre os principais passos recomendados estão o mapeamento de quais plataformas sociais já são usadas por funcionários, clientes e outras partes interessadas e o uso dessas plataformas durante os esforços de gerenciamento de incidentes e crises; o uso das mídias sociais não só para comunicações durante um desastre, mas para reunir informações e apoio de recursos externos que podem ajudar a garantir a resiliência dos negócios em curso. Os profissionais de gestão de continuidade dos negócios devem começar a avaliação das oportunidades de mídia social imediatamente - e também os riscos.


4. Testes seus backups de vez em quando

Sistemas de backup raramente partilham as mesmas especificações que os sistemas primários. Muitos sistemas de backup são mais levemente equipados, porque eles não serão usados ​​com muita freqüência. Estas decisões, não raro, podem assombrá-lo. Como esses sistemas geralmente são usados apenas sob estresse, podem falhar na hora H se não forem permanentemente testados.

Agende horários para mover sua carga regular para os seus sistemas de backup. Use-os muitas vezes ainda que você esteja confiante em sua capacidade de serviço se algo correr mal com os seus sistemas primários.


Fonte: Revista CIO - por Jonathan Hassell
Apoio:
xhl


sicredi
Blog
A tecnologia pode ajudar a sustentabilidade do sistema de saúde do Brasil
A discussão de compliance e ética no CQH 2018
Destaques
2019 - Concursos para obtenção de título de especialista em medicina preventiva e certificado de área de atuação em administração em saúde
CQH: Hospital Regional de Presidente Prudente recebe selo
Em 25/10/2018, o Hospital Policlin de Taubaté recebeu selo do Programa CQH
Santa Casa de Limeira recebe Selo de Conformidade do Programa CQH
CQH 2019 - XX CONGRESSO BRASILEIRO DE QUALIDADE EM SERVIÇOS DA SAÚDE e III CONGRESSO BRASILEIRO DE MEDICINA PREVENTIVA E DE ADMINISTRAÇÃO EM SAÚDE
Haino Burmester é homenageado por trabalho à frente do CQH
Mais Recentes
COMUNICAÇÃO 08/08/19
BURNOUT 06/08/19
Assembleia dos Hospitais Participantes do CQH - 23/08/2019 26/07/19
CORAGEM 26/07/19
LIDERES TÍMIDOS 22/07/19
BOAS PRÁTICAS NA GESTÃO DE PESSOAS 22/07/19
GOVERNANÇA CORPORATIVA 22/07/19
Mais Lidas
1Manual de Indicadores de Enfermagem NAGEH 2012
2Rumo à Excelência: Critérios para avaliação do desempenho e diagnóstico organizacional
3CQH - Roteiro de Visitas
43º Caderno de Indicadores CQH - 2009
5Manual de Gestão Hospitalar
6Por que e como aderir ao Programa CQH
7Acreditação hospitalar: um movimento inexorável?
8Prêmio Nacional da Gestão em Saúde - Ciclo 2015-2016: Regulamento e Instruções para Candidatura
9Manual de Gestão Hospitalar do CQH
10Manual de Gestão - Organização, Processos e Práticas de Liderança