O gerenciamento de desempenho envolve a otimização do tempo de resposta de serviço de rede e o gerenciamento da uniformidade e da qualidade para serviços de rede gerais e individuais. O serviço mais importante é a necessidade de medir o tempo de resposta do usuário/aplicação. Para a maioria dos usuários, o tempo de resposta é o fator fundamental de sucesso do desempenho. Esta variável dá forma à percepção de sucesso de rede dos seus usuários e dos administradores de aplicativos.
O planejamento de capacidade é o processo pelo qual você determina os requisitos para futuros recursos de rede para evitar um impacto no desempenho ou na disponibilidade em aplicativos críticos para os negócios. Na área de planejamento de capacidade, a linha de base da rede (CPU, memória, buffers, octetos de entrada/saída, etc.) pode afetar o tempo de resposta. Portanto, lembre-se de que os problemas de desempenho geralmente se correlacionam com a capacidade. Em redes, isso é geralmente largura de banda e dados que devem aguardar em filas antes de poderem ser transmitidos pela rede. Em aplicativos de voz, esse tempo de espera quase certamente afeta os usuários porque fatores como atraso e instabilidade afetam a qualidade da chamada de voz.
Outra questão importante que complica o gerenciamento de desempenho é que, embora a alta disponibilidade de rede seja essencial para redes de grandes empresas e provedores de serviços, a tendência é buscar ganhos econômicos de curto prazo sob o risco de custos (muitas vezes imprevistos) mais altos a longo prazo. Durante cada ciclo de orçamento, os administradores de rede e o pessoal de implementação de projetos lutam para encontrar um equilíbrio entre desempenho e implementação rápida. Além disso, os administradores de rede enfrentam desafios que incluem o rápido desenvolvimento de produtos para atender a janelas de mercado estreitas, tecnologias complexas, consolidação de negócios, mercados concorrentes, tempo de inatividade não programado, falta de experiência e ferramentas muitas vezes insuficientes.
À luz desses desafios, como o desempenho se encaixa na estrutura de gerenciamento de rede? A função principal de um sistema de gerenciamento de rede ideal é otimizar os recursos operacionais de uma rede. Depois que você aceitar isso como o objetivo final do gerenciamento de rede, o foco do gerenciamento de rede é manter a operação de rede com desempenho máximo.
Um sistema de gerenciamento de rede ideal inclui estas operações principais:
Informa o operador sobre a deterioração iminente do desempenho.
Oferece roteamento e soluções alternativas fáceis quando ocorre deterioração ou falha no desempenho.
Fornece as ferramentas para identificar as causas da deterioração ou falha do desempenho.
Serve como a estação principal para resiliência e sobrevivência da rede.
Comunica o desempenho em tempo real.
Com base nessa definição de um sistema ideal, o gerenciamento de desempenho se torna essencial para o gerenciamento da rede. Esses problemas de gerenciamento de desempenho são críticos:
Desempenho do usuário
Desempenho dos aplicativos
Planejamento de capacidade
Gerenciamento pró-ativo de falhas
É importante observar que, com aplicativos mais novos, como voz e vídeo, o desempenho é a principal variável para o sucesso e, se você não conseguir um desempenho consistente, o serviço é considerado de baixo valor e falha. Em outros casos, os usuários simplesmente sofrem de desempenho variável com intervalos intermitentes de aplicativos que reduzem a produtividade e a satisfação do usuário.
Este documento detalha os problemas mais críticos de gerenciamento de desempenho, que incluem fatores críticos de sucesso, indicadores-chave de desempenho e um mapa de processos de alto nível para gerenciamento de desempenho. Ele também discute os conceitos de disponibilidade, tempo de resposta, precisão, utilização e planejamento de capacidade e inclui uma breve discussão sobre o papel da análise proativa de falhas no gerenciamento de desempenho e no sistema de gerenciamento de rede ideal.
Os fatores críticos de sucesso identificam os requisitos para as melhores práticas de implementação. Para se qualificar como um fator crítico de sucesso, um processo ou procedimento deve melhorar a disponibilidade ou a ausência do procedimento deve diminuir a disponibilidade. Além disso, o fator crítico de sucesso deve ser mensurável para que a empresa possa determinar a extensão de seu sucesso.
Observação: consulte Indicadores de Gerenciamento de Desempenho para obter informações detalhadas.
Estes são os fatores críticos de sucesso para o gerenciamento de desempenho:
Colete uma linha de base para dados de rede e de aplicativos.
Realize uma análise de e-mail na rede e nos aplicativos.
Executar relatórios de exceção para problemas de capacidade.
Determine a sobrecarga de gerenciamento de rede para todos os serviços de gerenciamento de rede propostos ou potenciais.
Analise as informações de capacidade.
Analise periodicamente as informações de capacidade da rede e dos aplicativos, bem como a linha de base e a exceção.
Ter procedimentos de atualização ou ajuste configurados para lidar com problemas de capacidade em uma base reativa e de longo prazo.
Os indicadores de desempenho fornecem o mecanismo pelo qual uma organização pode medir fatores críticos de sucesso. Os indicadores de desempenho para planejamento de desempenho incluem:
Documentar os objetivos comerciais do gerenciamento de rede. Isso pode ser um conceito formal de operações para gerenciamento de rede ou uma declaração menos formal dos recursos e objetivos exigidos.
Crie objetivos detalhados e mensuráveis de nível de serviço.
Forneça a documentação dos contratos de nível de serviço com gráficos ou tabelas que mostrem o sucesso ou a falha de como esses contratos são cumpridos ao longo do tempo.
Colete uma lista de variáveis para a linha de base, como intervalo de sondagem, sobrecarga de gerenciamento de rede incorrida, possíveis limites de disparo, se a variável é usada como disparador para uma armadilha e análise de tendências usada em relação a cada variável.
Tenha uma reunião periódica que analise a análise da linha de base e das tendências.
Ter uma metodologia de análise de e-mail documentada. Isso deve incluir modelagem e verificação, quando aplicável.
Quando os limiares forem excedidos, desenvolva documentação sobre a metodologia usada para aumentar os recursos da rede. Um item a ser documentado é a linha de tempo necessária para colocar uma largura de banda WAN adicional e uma tabela de custos.
Estas etapas fornecem um fluxo de processo de alto nível para o gerenciamento de desempenho:
Antes de definir as variáveis detalhadas de desempenho e capacidade de uma rede, você deve examinar o conceito geral de operação para gerenciamento de rede dentro da sua organização. Quando você define esse conceito geral, ele fornece uma base de negócios na qual você pode criar definições precisas dos recursos desejados em sua rede. Se você não desenvolver um conceito operacional de gerenciamento de rede, ele pode levar a uma falta de metas ou metas que mudam constantemente devido às demandas dos clientes.
Normalmente, você produz o conceito de gerenciamento de rede de operações como a primeira etapa na fase de definição do sistema do programa de gerenciamento de rede. O objetivo é descrever as características gerais do sistema desejadas do ponto de vista operacional. O uso deste documento é coordenar os objetivos comerciais gerais (não quantitativos) de operações de rede, engenharia, projeto, outras unidades de negócios e os usuários finais. O foco deste documento é formar as atividades de planejamento operacional de longo alcance para gerenciamento e operação de rede. Também fornece orientações para o desenvolvimento de toda a documentação de definição subsequente, como contratos de nível de serviço. Obviamente, este conjunto inicial de definições não pode focar-se demasiado estritamente na gestão de problemas específicos de rede, mas nos itens que sublinham a importância para a organização em geral e em relação aos custos que devem ser geridos também. Alguns objetivos são:
Identificar essas características essenciais para o uso eficiente da infraestrutura de rede.
Identificar os serviços/aplicativos suportados pela rede.
Iniciar o gerenciamento de serviços de ponta a ponta.
Iniciar métricas baseadas em desempenho para melhorar o serviço geral.
Colete e distribua informações de gerenciamento de desempenho.
Oferecer suporte à avaliação estratégica da rede com feedback dos usuários.
Em outras palavras, o conceito de operações de gerenciamento de rede deve se concentrar nos objetivos organizacionais gerais e na sua filosofia para atingir esses objetivos. Os principais ingredientes consistem em definições de nível mais alto da missão, objetivos da missão, metas do sistema, envolvimento organizacional e filosofia operacional geral.
Como gerente de rede, você está em posição de unificar as expectativas de desempenho frequentemente inconsistentes dos usuários. Por exemplo, se o principal requisito para a rede for a transferência de arquivos grandes de um local para outro, você deve se concentrar no alto throughput e menos nos tempos de resposta dos usuários interativos. Tenha cuidado para não limitar sua visão de desempenho a menos que considere uma variedade de problemas. Por exemplo, ao testar uma rede, observe os níveis de carga usados. A carga é frequentemente baseada em pacotes muito pequenos e o throughput em pacotes muito grandes. Qualquer um desses testes de desempenho pode produzir uma imagem muito positiva, mas, com base na carga de tráfego da rede, os testes podem não apresentar uma imagem verdadeira do desempenho. Estude o desempenho da rede sob tantas condições possíveis de carga de trabalho quanto possível e o desempenho documentado.
Além disso, embora muitas organizações de gerenciamento de rede tenham técnicas de alarme eficazes para notificar os técnicos sobre uma falha de dispositivo, é muito mais difícil definir e implementar um processo de avaliação para o desempenho de aplicativo de ponta a ponta. Portanto, enquanto o centro de operações de rede (NOC) pode responder rapidamente a um roteador ou switch inoperante, as condições de rede que podem comprometer o desempenho da rede e afetar a percepção do usuário podem passar despercebidas facilmente até que essa percepção se torne negativa. Por mais difícil que seja, esse segundo processo pode proporcionar um benefício imenso para a organização empresarial e o gerenciamento de rede.
Finalmente, certifique-se de não criar expectativas irrealistas sobre o desempenho da sua rede. Geralmente, são criadas expectativas irrealistas quando você não entende os detalhes dos protocolos de rede ou dos aplicativos. Frequentemente, o desempenho ruim não é a falha da rede, mas sim o resultado de um design de aplicativo ruim. A única maneira de documentar e medir o desempenho do aplicativo é ter uma linha de base do desempenho da rede antes da instalação do aplicativo.
A primeira etapa do gerenciamento de desempenho, planejamento contínuo de capacidade e projeto de rede é definir os recursos e/ou serviços necessários. Essa etapa exige que você compreenda aplicativos, fluxos de tráfego básicos, contagens de usuários e locais e serviços de rede necessários. O primeiro uso dessas informações é determinar a importância da aplicação para os objetivos organizacionais. Você também pode aplicar essas informações para criar uma base de conhecimento para uso no projeto lógico a fim de entender os requisitos de largura de banda, interface, conectividade, configuração e dispositivo físico. Esta etapa inicial permite que os arquitetos de rede criem um modelo de sua rede.
Crie objetivos de escalabilidade da solução para ajudar os engenheiros de rede a projetar redes que atendam aos requisitos de crescimento futuros e para garantir que os projetos propostos não tenham restrições de recursos devido ao crescimento ou extensão da rede. As restrições de recursos podem incluir:
Tráfego geral
Volume
Número de rotas
Número de circuitos virtuais
Contagens de vizinhos
Domínios de broadcast
Throughput do dispositivo
Capacidade de mídia
Os planejadores de rede devem determinar a vida útil necessária do projeto, as extensões esperadas ou os locais necessários durante a vida útil do projeto, o volume de novos usuários e o volume ou a alteração de tráfego esperado. Esse plano ajuda a garantir que a solução proposta atenda aos requisitos de crescimento durante a vida útil projetada do projeto.
Quando você não investiga a escalabilidade da solução, pode ser forçado a implementar grandes mudanças de projeto reativas. Essa alteração de design pode incluir hierarquia adicional, atualizações de mídia ou atualizações de hardware. Em organizações que dependem de ciclos orçamentários bastante precisos para as principais compras de hardware, essas mudanças podem ser um grande inibidor para o sucesso geral. Em termos de disponibilidade, as redes podem experimentar limitações inesperadas de recursos que causam períodos de indisponibilidade e medidas reativas.
A interoperabilidade e o respectivo teste podem ser fundamentais para o sucesso de novas implantações de solução. A interoperabilidade pode se referir a diferentes fornecedores de hardware, topologias ou soluções diferentes que devem se unir durante ou após uma implementação de rede. Os problemas de interoperabilidade podem incluir a sinalização de hardware através da pilha de protocolos para problemas de roteamento ou transporte. Problemas de interoperabilidade podem ocorrer antes, durante ou após a migração de uma solução de rede. O planejamento da interoperabilidade deve incluir conectividade entre dispositivos diferentes e problemas de topologia que podem ocorrer durante as migrações.
A comparação de soluções é a prática na qual você compara diferentes designs em potencial em relação a outras práticas de requisitos de soluções. Essa prática ajuda a garantir que a solução seja a mais adequada para um ambiente específico e que o viés pessoal não conduza ao processo de projeto. A comparação pode incluir diferentes fatores, como custo, resiliência, disponibilidade, risco, interoperabilidade, gerenciabilidade, escalabilidade e desempenho. Tudo isso pode ter um efeito maior na disponibilidade de rede geral, depois que o projeto for implementado. Você também pode comparar mídia, hierarquia, redundância, protocolos de roteamento e recursos semelhantes. Crie um gráfico com fatores no eixo X e soluções potenciais na ajuda do eixo Y para resumir comparações de soluções. A comparação detalhada da solução em um ambiente de laboratório também ajuda a investigar objetivamente novas soluções e recursos em relação aos diferentes fatores de comparação.
Como parte do conceito de operações de gerenciamento de rede, é essencial definir as metas para a rede e os serviços suportados de uma forma que todos os usuários possam entender. As atividades que se seguem ao desenvolvimento do conceito operacional são muito influenciadas pela qualidade desse documento.
Essas são as metas de desempenho padrão:
Tempo de resposta
Utilização
Transferência
Capacidade (taxa de transferência máxima)
Embora essas medidas possam ser triviais para uma LAN simples, elas podem ser muito difíceis em uma rede de campus comutada ou em uma rede corporativa de vários fornecedores. Quando você usa um conceito bem pensado de plano de operações, cada uma das metas de desempenho é definida de forma mensurável. Por exemplo, o tempo mínimo de resposta do aplicativo "x" é de 500 Ms ou menos durante o horário comercial máximo. Isso define as informações para identificar a variável, a forma de mensurá-la e o período do dia em que o aplicativo de gerenciamento de rede deve se concentrar.
Os objetivos de disponibilidade definem o nível de serviço ou os requisitos de nível de serviço para um serviço de rede. Isso ajuda a garantir que a solução atenda aos requisitos de disponibilidade final. Defina diferentes classes de serviço para uma organização específica e detalhe os requisitos de rede para cada classe que são apropriados ao requisito de disponibilidade. Diferentes áreas da rede também podem exigir diferentes níveis de disponibilidade. Um objetivo de maior disponibilidade pode exigir maior redundância e procedimentos de suporte. Quando você define um objetivo de disponibilidade para um serviço de rede específico e mede a disponibilidade, sua organização de rede pode entender os componentes e os níveis de serviço necessários para alcançar os SLAs projetados.
Defina os objetivos de gerenciabilidade para garantir que o gerenciamento geral da rede não caia da funcionalidade de gerenciamento. Para definir os objetivos de gerenciabilidade, você deve entender o processo de suporte e as ferramentas de gerenciamento de rede associadas à sua organização. Os objetivos de capacidade de gerenciamento devem incluir o conhecimento sobre como as novas soluções se encaixam no suporte atual e no modelo de ferramentas com referências a eventuais diferenças ou novos requisitos. Isso é essencial para a disponibilidade da rede, pois a capacidade de oferecer suporte a novas soluções é fundamental para o sucesso da implantação e para atender às metas de disponibilidade.
Os objetivos de capacidade de gerenciamento devem descobrir todas as informações importantes de MIB ou ferramentas de rede necessárias para suportar uma rede em potencial, o treinamento necessário para suportar o novo serviço de rede, os modelos de equipe para o novo serviço e quaisquer outros requisitos de suporte. Frequentemente, essas informações não são descobertas antes da implantação e a disponibilidade geral sofre como resultado da falta de recursos atribuídos para suportar o novo projeto de rede.
Os SLAs de desempenho e as métricas ajudam a definir e medir o desempenho de novas soluções de rede para garantir que elas atendam aos requisitos de desempenho. O desempenho da solução proposta pode ser medido com ferramentas de monitoramento de desempenho ou com um ping simples na infraestrutura de rede proposta. Os SLAs de desempenho devem incluir o volume médio de tráfego esperado, o volume de pico de tráfego, o tempo médio de resposta e o tempo máximo de resposta permitido. Essas informações podem ser usadas posteriormente na seção de validação da solução e, por fim, ajudam a determinar o desempenho e a disponibilidade necessários da rede.
Um aspecto importante do projeto de rede é quando você define o serviço para usuários ou clientes. As empresas chamam esses contratos de nível de serviço, enquanto os provedores de serviços se referem a ele como gerenciamento de nível de serviço. Geralmente, o gerenciamento de nível de serviço inclui definições para tipos de problemas e gravidade e responsabilidades do help desk, como caminho de encaminhamento e tempo antes do encaminhamento em cada nível de suporte, tempo para iniciar o trabalho no problema e tempo para fechar os alvos com base na prioridade. Outros fatores importantes são o serviço fornecido na área de planejamento de capacidade, gerenciamento pró-ativo de falhas, notificação de gerenciamento de alterações, limiares, critérios de atualização e substituição de hardware.
Quando as empresas não definem os níveis de serviço antecipadamente, fica difícil melhorar ou obter os requisitos de recursos identificados posteriormente. Também fica difícil entender quais recursos adicionar para ajudar a suportar a rede. Em muitos casos, esses recursos são aplicados somente depois que problemas são descobertos.
O gerenciamento de desempenho é um termo abrangente que incorpora a configuração e a medição de áreas de desempenho distintas. Esta seção descreve estes seis conceitos de gerenciamento de desempenho:
A maioria das intranets corporativas tem largura de banda suficiente. No entanto, sem dados adequados, talvez você não possa descartar o congestionamento da rede como um contribuinte para o desempenho ruim do aplicativo. Uma das pistas para congestionamento ou erros é se o desempenho ruim é intermitente ou dependente da hora do dia. Um exemplo dessa condição é quando o desempenho é adequado tarde da noite, mas muito lento de manhã e durante o horário comercial máximo.
Depois de definir o conceito de operações de gerenciamento de rede e definir os dados de implementação necessários, é necessário coletar esses dados ao longo do tempo. Esse tipo de coleção é a base da linha de base da rede.
Executar uma linha de base da rede atual antes da implantação de uma nova solução (alteração de aplicativo ou IOS) e após a implantação para medir as expectativas definidas para a nova solução. Essa linha de base ajuda a determinar se a solução atende aos objetivos de desempenho e disponibilidade e avalia a capacidade. Um relatório de linha de base típico de roteador/switch inclui problemas de capacidade relacionados à CPU, memória, gerenciamento de buffer, utilização de link/mídia e throughput. Há outros tipos de dados básicos que você também pode incluir, com base nos objetivos definidos no conceito de operações. Por exemplo, uma linha de base de disponibilidade demonstra maior estabilidade/disponibilidade do ambiente de rede. Faça uma comparação de linha de base entre ambientes antigos e novos para verificar os requisitos da solução.
Outra linha de base especializada é a linha de base do aplicativo, que é valiosa quando você tende os requisitos de rede do aplicativo. Essas informações podem ser usadas para fins de cobrança e/ou orçamento no ciclo de atualização. As linhas de base de aplicativos também podem ser importantes na área de disponibilidade de aplicativos em relação aos serviços preferenciais ou às qualidades de serviço por aplicativo. As informações da linha de base do aplicativo consistem principalmente na largura de banda usada por aplicativos por período de tempo. Alguns aplicativos de gerenciamento de rede também podem definir a linha de base do desempenho dos aplicativos. Uma divisão do tipo de tráfego (Telnet ou FTP) também é importante para o planejamento. Em algumas organizações, as áreas mais críticas da rede com restrição de recursos são monitoradas para os principais palestrantes. Os administradores de rede podem usar essas informações para orçar, planejar ou ajustar a rede. Ao ajustar a rede, você pode modificar parâmetros de qualidade de serviço ou de fila para o serviço ou aplicativo de rede.
Uma das principais métricas usadas pelos gerentes de rede é a disponibilidade. Disponibilidade é a medida do tempo durante o qual um sistema ou aplicativo de rede está disponível para um usuário. Do ponto de vista da rede, a disponibilidade representa a confiabilidade dos componentes individuais em uma rede.
Por exemplo, para medir a disponibilidade, você pode coordenar as chamadas telefônicas do help desk com as estatísticas coletadas dos dispositivos gerenciados. No entanto, as ferramentas de disponibilidade não podem determinar todos os motivos da falha.
A redundância de rede é outro fator a ser considerado ao medir a disponibilidade. A perda de redundância indica degradação do serviço em vez de falha total da rede. O resultado pode ser um tempo de resposta mais lento e uma perda de dados devido a pacotes descartados. Também é possível que os resultados apareçam nas outras áreas de medição de desempenho, como utilização e tempo de resposta.
Por fim, se você entregar em um SLA, deve levar em conta as interrupções programadas. Essas interrupções podem ser o resultado de movimentações, adições e alterações, desligamentos de instalações ou outros eventos que você não deseja relatar. Esta não é apenas uma tarefa difícil, mas também pode ser uma tarefa manual.
O tempo de resposta da rede é o tempo necessário para o tráfego trafegar entre dois pontos. Os tempos de resposta mais lentos do que o normal, vistos através de uma comparação de linha de base ou que excedem um limite, podem indicar congestionamento ou uma falha na rede.
O tempo de resposta é a melhor medida do uso da rede do cliente e pode ajudá-lo a avaliar a eficácia da sua rede. Não importa qual seja a origem da resposta lenta, os usuários ficam frustrados como resultado do tráfego atrasado. Em redes distribuídas, muitos fatores afetam o tempo de resposta, como:
Congestionamento de rede
Menos que a rota desejada para o destino (ou nenhuma rota)
Dispositivos de rede subalimentados
Falhas de rede, como uma tempestade de broadcast
Erros de ruído ou CRC
Nas redes que empregam enfileiramento relacionado à QoS, a medição do tempo de resposta é importante para determinar se os tipos de tráfego corretos se movem pela rede conforme esperado. Por exemplo, quando você implementa tráfego de voz sobre redes IP, os pacotes de voz devem ser entregues no tempo e em uma taxa constante para manter uma boa qualidade de voz. Você pode gerar tráfego classificado como tráfego de voz para medir o tempo de resposta do tráfego como ele aparece para os usuários.
Você pode medir o tempo de resposta para ajudar a resolver as batalhas entre servidores de aplicativos e gerentes de rede. Geralmente, os administradores de rede são considerados culpados quando um aplicativo ou servidor parece estar lento. O administrador de rede deve provar que a rede não é o problema. A coleta de dados de tempo de resposta fornece um meio indiscutível para provar ou desprovar que a rede é a fonte de problemas de aplicativos.
Sempre que possível, você deve medir o tempo de resposta como ele aparece para os usuários. Um usuário percebe a resposta como o tempo desde quando pressiona Enter ou clica em um botão até que a tela seja exibida. Esse tempo decorrido inclui o tempo necessário para que cada dispositivo de rede, a estação de trabalho do usuário e o servidor de destino processem o tráfego.
Infelizmente, a medição nesse nível é quase impossível devido ao número de usuários e à falta de ferramentas. Além disso, quando você incorpora o tempo de resposta do usuário e do servidor, ele oferece pouco valor ao determinar o crescimento futuro da rede ou a solução de problemas na rede.
Você pode usar os dispositivos e servidores de rede para medir o tempo de resposta. Você também pode usar ferramentas como o ICMP para medir transações, embora não leve em conta atrasos introduzidos em um sistema à medida que as camadas superiores o processam. Essa abordagem resolve o problema do conhecimento do desempenho da rede.
Em um nível simplista, você pode cronometrar a resposta a pings da estação de gerenciamento de rede para pontos-chave na rede, como uma interface de mainframe, ponto final de uma conexão de provedor de serviços ou endereços IP de usuário-chave, para medir o tempo de resposta. O problema com esse método é que ele não reflete exatamente a percepção do usuário do tempo de resposta entre sua máquina e a máquina de destino. Ele simplesmente coleta informações e relata o tempo de resposta do ponto de vista da estação de gerenciamento de rede. Esse método também mascara problemas de tempo de resposta salto a salto em toda a rede.
Uma alternativa à pesquisa centralizada no servidor é distribuir o esforço mais perto da origem e do destino que você deseja simular para medir. Use pesquisas de gerenciamento de rede distribuídas e implemente a funcionalidade Cisco IOS Service Assurance Agent (SAA). Você pode ativar o SAA nos roteadores para medir o tempo de resposta entre um roteador e um dispositivo de destino, como um servidor ou outro roteador. Você também pode especificar uma porta TCP ou UDP, que força o tráfego a ser encaminhado e direcionado da mesma maneira que o tráfego simulado.
Com a integração de voz, vídeo e dados em redes multisserviço, os clientes implementam a priorização de QoS em suas redes. A medição simples de ICMP ou UDP não reflete com precisão o tempo de resposta, pois diferentes aplicativos recebem prioridades diferentes. Além disso, com a comutação de tag, o roteamento de tráfego pode variar com base no tipo de aplicativo contido em um pacote específico. Assim, um ping ICMP pode receber prioridades diferentes em como cada roteador lida com ele e pode receber rotas diferentes e menos eficientes.
Nesse caso, a única maneira de medir o tempo de resposta é gerar tráfego que se assemelhe ao aplicativo específico ou à tecnologia de interesse. Isso força os dispositivos de rede a lidarem com o tráfego como fariam com o tráfego real. Talvez você consiga atingir esse nível com SAA ou por meio do uso de testadores com reconhecimento de aplicativos de terceiros.
A precisão é a medida do tráfego da interface que não resulta em erros e pode ser expressa em termos de uma porcentagem que compara a taxa de sucesso à taxa total de pacotes durante um período de tempo. Primeiro, você deve medir a taxa de erro. Por exemplo, se dois de cada 100 pacotes resultarem em erro, a taxa de erro seria 2% e a taxa de precisão seria 98%.
Com as tecnologias de rede anteriores, especialmente na área ampla, um certo nível de erros era aceitável. No entanto, com as redes de alta velocidade e os serviços de WAN atuais, a transmissão é consideravelmente mais precisa e as taxas de erro estão próximas de zero, a menos que haja um problema real. Algumas causas comuns de erros de interface incluem:
Fiação fora de especificação
Interferência elétrica
Hardware ou software defeituosos
Use uma taxa de precisão menor para acionar uma investigação mais detalhada. Você pode descobrir que uma interface específica apresenta problemas e decide que os erros são aceitáveis. Nesse caso, você deve ajustar o limite de precisão para esta interface para refletir onde a taxa de erro é inaceitável. A taxa de erro inaceitável pode ter sido relatada em uma linha de base anterior.
As variáveis descritas nesta tabela são usadas em fórmulas de precisão e taxa de erro:
Notação | Descrição |
---|---|
NDICerrosIn | O delta (ou diferença) entre dois ciclos de pesquisa que coletam o objeto ifInErrors snmp, que representa a contagem de pacotes de entrada com um erro. |
PktsND | O delta entre dois ciclos de pesquisa que coletam o objeto ifInUcastPkts snmp, que representa a contagem de pacotes unicast de entrada. |
PktsNUseND | O delta entre os dois ciclos de sondagem que coletam o objeto ifInNUcastPkts snmp, que representa a contagem de pacotes não unicast de entrada (multicast e broadcast). |
A fórmula para a taxa de erro é geralmente expressa em porcentagem:
Taxa de erro = NDIR (ifInErrors) *100
—
(NDIR seInUcastPkts + (ifInNUcastPkts)
Observe que erros de saída não são considerados nas fórmulas de taxa de erro e precisão. Isso ocorre porque um dispositivo nunca deve colocar pacotes com erros na rede, e as taxas de erro da interface de saída nunca devem aumentar. Portanto, o tráfego de entrada e os erros são as únicas medidas de interesse para erros e precisão de interface.
A fórmula de precisão pega a taxa de erro e a subtrai de 100 (novamente, na forma de porcentagem):
Precisão = 100 - (erros ifIn) *100
—
(NDIR ifInUcastPkts + (ifInNUcastPkts)
Essas fórmulas refletem erros e precisão em termos de contadores genéricos de interface MIB II (RFC 2233). O resultado é expresso em termos de uma porcentagem que compara erros ao total de pacotes vistos e enviados. A taxa de erro resultante é subtraída de 100, o que produz a taxa de precisão. Uma taxa de precisão de 100% é perfeita.
Como as variáveis MIB II são armazenadas como contadores, você deve fazer dois ciclos de pesquisa e calcular a diferença entre os dois (daí o Delta usado na equação).
A utilização mede o uso de um determinado recurso ao longo do tempo. A medida é geralmente expressa na forma de uma percentagem em que a utilização de um recurso é comparada com a sua capacidade operacional máxima. Por meio de medidas de utilização, você pode identificar congestionamento (ou congestionamento potencial) em toda a rede. Você também pode identificar recursos subutilizados.
A utilização é a principal medida para determinar o quanto estão cheios os tubos de rede (links). Meça a CPU, a interface, o enfileiramento e outras medidas de capacidade relacionadas ao sistema para determinar a extensão em que os recursos do sistema de rede são consumidos.
A alta utilização não é necessariamente ruim. A baixa utilização pode indicar fluxos de tráfego em locais inesperados. À medida que as linhas se tornam superutilizadas, os efeitos podem se tornar significativos. A superutilização ocorre quando há mais tráfego enfileirado para passar por uma interface do que ele pode lidar. Saltos repentinos na utilização de recursos podem indicar uma condição de falha.
Quando uma interface fica congestionada, o dispositivo de rede deve armazenar o pacote em uma fila ou descartá-lo. Se um roteador tentar armazenar um pacote em uma fila completa, o pacote será descartado. Os pacotes descartados resultam quando o tráfego é encaminhado de uma interface rápida para uma interface mais lenta. Isso é indicado na fórmula Q = u / (1-u) em que u é a utilização e Q é a profundidade média da fila (tráfego aleatório assumido). Portanto, altos níveis de utilização em enlaces resultam em altas profundidades médias de filas, o que é uma latência previsível se você souber o tamanho do pacote. Alguns dos fornecedores de relatórios de rede indicam que você pode solicitar menos largura de banda e pagar menos pela sua WAN. No entanto, as implicações de latência aparecem quando você executa links de WAN com 95% de utilização. Além disso, à medida que as redes são migradas para VoIP, os administradores de rede podem precisar alterar suas políticas e executar links de WAN com aproximadamente 50% de utilização.
Quando um pacote é descartado, o protocolo da camada superior pode forçar uma retransmissão do pacote. Se vários pacotes forem descartados, pode ocorrer excesso de tráfego de nova tentativa. Esse tipo de reação pode resultar em backups em dispositivos mais abaixo da linha. Para resolver esse problema, você pode definir diferentes graus de limiares.
A medida principal usada para a utilização da rede é a utilização da interface. Use as fórmulas descritas nesta tabela com base no fato da conexão que você mede ser half duplex ou full duplex:
Notação | Descrição |
---|---|
DIRemOctetos | O delta (ou diferença) entre dois ciclos de pesquisa que coletam o objeto ifInOctets snmp, que representa a contagem de octetos de entrada de tráfego. |
OctetosEXTND | O delta entre dois ciclos de pesquisa que coletam o objeto ifOutOctets snmp que representa a contagem de octetos de saída de tráfego. |
ifSpeed | A velocidade da interface conforme relatado no objeto snmp ifSpeed. Observe que seSpeed não refletir com precisão a velocidade de uma interface WAN. |
As conexões LAN compartilhadas tendem a ser half-duplex principalmente porque a detecção de contenção exige que um dispositivo ouça antes de transmitir. As conexões WAN são normalmente full duplex porque a conexão é ponto a ponto; ambos os dispositivos podem transmitir e receber ao mesmo tempo, pois sabem que há apenas um outro dispositivo que compartilha a conexão.
Como as variáveis MIB II são armazenadas como contadores, você deve fazer dois ciclos de pesquisa e calcular a diferença entre os dois (daí o Delta usado na equação).
Para mídia half duplex, use esta fórmula para utilização da interface:
(NDIR seInOctetos + ifOutOctets) * 8 * 100
—
(número de segundos em ∆) * ifSpeed
Para mídia full-duplex, o cálculo de utilização é mais complexo. Por exemplo, com uma conexão serial T-1 completa, a velocidade da linha é de 1,544 Mbps. Isso significa que uma interface T-1 pode receber e transmitir 1,544 Mbps para uma possível largura de banda combinada de 3,088 Mbps.
Ao calcular a largura de banda da interface para conexões full-duplex, você pode usar esta fórmula na qual você pega o maior dos valores in e out e gera uma porcentagem de utilização:
max(NDIR ifInOctets, (DIR ifOutOctets) * 8 * 100
—
(número de segundos em ∆) * ifSpeed
No entanto, esse método oculta a utilização da direção que tem o menor valor e fornece resultados menos precisos. Um método mais preciso é medir a utilização de entrada e a utilização de saída separadamente, como:
Utilização de entrada = NDIR ifInOctets *8 * 100
—
(número de segundos em ∆) * ifSpeed
E
Utilização de Saída NDIC = ifOutOctets *8 * 100
—
(número de segundos em ∆) * ifSpeed
Embora essas fórmulas sejam um pouco simplificadas, elas não levam em consideração a sobrecarga associada a um protocolo específico. Existem fórmulas mais precisas para lidar com os aspectos exclusivos de cada protocolo. Como exemplo, o RFC 1757 contém fórmulas de utilização Ethernet que levam em consideração a sobrecarga de pacotes. No entanto, a equipe de alta disponibilidade descobriu que as fórmulas gerais apresentadas aqui podem ser usadas de forma confiável nas interfaces LAN e WAN na maioria dos casos.
Como mencionado anteriormente, o planejamento de capacidade é o processo no qual você determina os prováveis requisitos futuros de recursos de rede para evitar um impacto no desempenho ou na disponibilidade em aplicativos críticos para a empresa. Consulte o Gerenciamento de Capacidade e Desempenho: White Paper de Melhores formas de aprendizado para obter informações mais detalhadas sobre este tópico.
A análise proativa de falhas é essencial para o gerenciamento de desempenho. O mesmo tipo de dados coletados para gerenciamento de desempenho pode ser usado para análise de falhas proativa. No entanto, a temporização e o uso desses dados são diferentes entre o gerenciamento pró-ativo de falhas e o gerenciamento de desempenho.
O gerenciamento pró-ativo de falhas é a forma como o sistema de gerenciamento de rede ideal pode atingir as metas que você determinou. A relação com o gerenciamento de desempenho é através da linha de base e das variáveis de dados que você usa. O gerenciamento pró-ativo de falhas integra eventos personalizados, um mecanismo de correlação de eventos, tíquetes de problemas e a análise estatística dos dados de linha de base para unir falhas, desempenho e gerenciamento de alterações em um sistema de gerenciamento de rede ideal e eficaz.
Quando a pesquisa de dados de desempenho é normalmente realizada a cada 10, 15 ou mesmo 30 minutos, o reconhecimento de uma condição de falha deve estar em um intervalo de tempo muito menor. Um método de gerenciamento de falhas pró-ativo é o uso de alarmes RMON e grupos de eventos. Você pode definir limites em seus dispositivos que não são pesquisados por dispositivos externos para que os limiares sejam muito menores. Outro método, que não é abordado neste documento, é o uso de um sistema de gerenciamento distribuído que permite a pesquisa em um nível local com agregação de dados em um gerente de gerentes.
Limiar é o processo no qual você define pontos de interesse em fluxos de dados específicos e gera eventos quando os limites são disparados. Use seus dados de desempenho de rede para definir esses limiares.
Existem vários tipos diferentes de limiares, alguns dos quais são mais aplicáveis a certos tipos de dados. Os limites são aplicáveis apenas a dados numéricos, portanto, converta qualquer dado textual em valores numéricos discretos. Mesmo que você não saiba todas as sequências de texto possíveis para um objeto, ainda poderá enumerar as strings "interessantes" e atribuir todas as outras strings a um valor definido.
Há duas classes de limites para as duas classes de dados numéricos: contínuo e discreto. Limites contínuos se aplicam a dados contínuos ou de séries de tempo, como dados armazenados em contadores ou medidores SNMP. Os limiares discretos aplicam-se a objetos enumerados ou a quaisquer dados numéricos discretos. Os objetos booleanos são valores enumerados com dois valores: verdadeiro ou falso. Dados discretos também podem ser chamados de dados de eventos porque os eventos marcam a transição de um valor para o próximo.
Limites contínuos podem disparar eventos quando o objeto da série de tempo cruza o valor especificado do limite. O valor do objeto aumenta acima do limite ou cai abaixo dele. Também pode ser útil estabelecer limiares separados, ascendentes e descendentes. Essa técnica, conhecida como mecanismo de histerese, ajuda a reduzir o número de eventos gerados por essa classe de dados. O mecanismo de histerese trabalha para reduzir o volume de eventos gerados por limiares em dados de séries temporais de variação rápida. Este mecanismo pode ser utilizado com qualquer técnica de limiar nos dados das séries cronológicas.
O volume de eventos é reduzido por um alarme que é gerado para rastrear o valor de um objeto. Limites de elevação e queda são atribuídos a esse alarme. O alarme só é disparado quando o limite de aumento é ultrapassado. Quando esse limite for ultrapassado, um alarme crescente não será gerado novamente até que o limite de queda seja ultrapassado. E o mesmo mecanismo impede a geração de limiares em queda até que o limiar em ascensão seja novamente ultrapassado. Esse mecanismo pode reduzir drasticamente o volume de eventos e não elimina as informações necessárias para determinar se há uma falha.
Os dados das séries cronológicas podem ser representados como contadores, em que cada novo ponto de dados é adicionado à soma dos pontos de dados anteriores, ou como um medidor, em que os dados são representados como uma taxa durante um intervalo de tempo. Há duas formas diferentes de limites contínuos aplicáveis a cada tipo de dados: limiares absolutos contínuos e limiares relativos contínuos. Use limiares contínuos absolutos com medidores e limites contínuos relativos com contadores.
Para determinar os valores de limite para sua rede, faça o seguinte:
Selecione os objetos.
Selecione os dispositivos e as interfaces.
Determine os valores de limite para cada objeto ou tipo de objeto/interface.
Determine a gravidade do evento gerado por cada limiar.
É necessário um bom trabalho para determinar que limites usar em quais objetos (e para quais dispositivos e interfaces). Felizmente, se você coletou uma linha de base de dados de desempenho, já fez uma quantidade significativa desse trabalho. Além disso, o NSA e o programa de serviço de alta disponibilidade (HAS) podem fazer recomendações que o ajudam a definir objetos e criar intervalos. No entanto, você deve adaptar essas recomendações para sua rede específica.
Como você coletou dados de desempenho para a rede, o programa HAS recomenda que você agrupe suas interfaces por categorias. Isso simplifica a definição de limites porque talvez seja necessário determinar limites para o tipo de mídia de cada categoria em vez de para cada dispositivo e objeto nesse dispositivo. Por exemplo, você gostaria de definir limiares diferentes para redes Ethernet e FDDI. Normalmente, pensa-se que você pode executar redes FDDI com uma utilização mais próxima de 100% do que um segmento Ethernet compartilhado. No entanto, a Ethernet full-duplex pode ser executada muito mais perto da utilização de 100% porque não está sujeita a colisões. Talvez você queira definir seus limites para colisões muito baixos para links full-duplex porque você nunca deve ver uma colisão.
Você também pode considerar a combinação da importância da interface e a categoria/gravidade do tipo de limite. Use esses fatores para definir a prioridade do evento e, portanto, a importância do evento e sua atenção pela equipe de operações de rede.
O agrupamento e a categorização de dispositivos e interfaces de rede não podem ser sobrevalorizados. Quanto mais você for capaz de agrupar e categorizar, mais fácil você pode integrar os eventos de limite à sua plataforma de gerenciamento de rede. Use a linha de base como o principal recurso para essas informações. Consulte o Gerenciamento de Capacidade e Desempenho: White Paper de Melhores formas de aprendizado para obter mais informações.
A organização deve ter um sistema de gerenciamento de rede implementado que seja capaz de detectar os valores de limite definidos e gerar relatórios sobre os valores de períodos especificados. Use um sistema de gerenciamento de rede RMON que possa arquivar mensagens de limite em um arquivo de log para análise diária ou uma solução de banco de dados mais completa que permita pesquisas de exceções de limite para um determinado parâmetro. As informações devem ser disponibilizadas continuamente à equipe e ao gerente de operações de rede. A implementação do gerenciamento de rede deve incluir a capacidade de detectar falhas ou rastreamentos de software/hardware, confiabilidade da interface, CPU, utilização de enlace, perda de fila ou buffer, volume de broadcast, transições de portadora e reinicializações de interface.
Uma área final de gerenciamento pró-ativo de falhas que se sobrepõe ao gerenciamento de desempenho são as métricas de operações de rede. Essas métricas fornecem dados valiosos para aprimoramento do processo de gerenciamento de falhas. No mínimo, essas métricas devem incluir uma análise de todos os problemas que ocorreram durante um determinado período. A discriminação deve incluir informações como:
Número de problemas que ocorrem por prioridade de chamada
Tempo mínimo, máximo e médio para fechar em cada prioridade
Divisão de problemas por tipo de problema (hardware, travamento de software, configuração, energia, erro do usuário)
Análise do tempo para fechar para cada tipo de problema
Disponibilidade por grupo de disponibilidade ou SLA
Com que frequência você atendeu ou perdeu os requisitos de SLA
O help desk geralmente tem um sistema de relatórios com a capacidade de gerar métricas ou relatórios. Outro meio de coletar esses dados é o uso de uma ferramenta de monitoramento de disponibilidade. As métricas gerais devem ser disponibilizadas mensalmente. A melhoria do processo com base na discussão deve ser implementada para melhorar os requisitos do contrato de nível de serviço perdidos ou para melhorar a forma como certos tipos de problema são tratados.
Os indicadores de desempenho oferecem o mecanismo pelo qual uma organização mede os fatores de sucesso importantes.
Este documento pode ser um conceito formal de operações para gerenciamento de rede ou uma declaração menos formal dos recursos e objetivos exigidos. No entanto, o documento deve auxiliar o gerente de rede à medida que ele mede o sucesso.
Este documento é a estratégia de gerenciamento de rede da organização e deve coordenar os objetivos comerciais gerais (não quantitativos) de operações de rede, engenharia, projeto, outras unidades de negócios e os usuários finais. Esse foco permite que a organização forme atividades de planejamento de longo alcance para gerenciamento e operação de rede, o que inclui o processo de orçamento. Também fornece orientação para a aquisição de ferramentas e o caminho de integração necessário para atingir os objetivos de gerenciamento de rede, como SLAs.
Este documento estratégico não pode concentrar-se demasiado na gestão de problemas de rede específicos, mas sim nos itens importantes para a organização global, que incluem questões orçamentais. Por exemplo:
Identificar um plano abrangente com metas alcançáveis.
Identifique cada serviço/aplicativo comercial que requer suporte de rede.
Identifique as métricas baseadas em desempenho necessárias para medir o serviço.
Planeje a coleta e a distribuição dos dados da métrica de desempenho.
Identificar o suporte necessário para avaliação da rede e feedback do usuário.
Têm objetivos de nível de serviço documentados, detalhados e mensuráveis.
Para documentar corretamente os SLAs, você deve definir totalmente as métricas de objetivo de nível de serviço. Esta documentação deve estar disponível aos usuários para avaliação. Ele fornece o loop de feedback para garantir que a organização de gerenciamento de rede continue a medir as variáveis necessárias para manter o nível do contrato de serviço.
Os SLAs são documentos "vivos" porque o ambiente empresarial e a rede são dinâmicos por natureza. O que funciona hoje para medir um SLA pode se tornar obsoleto amanhã. Somente quando eles instituem um loop de feedback dos usuários e agem com base nessas informações as operações de rede podem manter os números de alta disponibilidade exigidos pela organização.
Essa lista inclui itens como intervalo de sondagem, sobrecarga de gerenciamento de rede incorrido, possíveis limites de disparo, se a variável é usada como um disparador para uma armadilha e análise de tendências usada em relação a cada variável.
Essas variáveis não se limitam às métricas necessárias para os objetivos de nível de serviço mencionados acima. Devem incluir, no mínimo, estas variáveis: integridade do roteador, integridade do switch, informações de roteamento, dados específicos da tecnologia, utilização e atraso. Essas variáveis são pesquisadas periodicamente e armazenadas em um banco de dados. Os relatórios podem então ser gerados com base nesses dados. Esses relatórios podem auxiliar as operações de gerenciamento de rede e a equipe de planejamento das seguintes maneiras:
Problemas reativos podem ser resolvidos com mais rapidez com um banco de dados histórico.
O relatório de desempenho e o planejamento de capacidade exigem esse tipo de dados.
Os objetivos do nível de serviço podem ser medidos em relação a ele.
O pessoal de gerenciamento de rede deve realizar reuniões para passar periodicamente por relatórios específicos. Isso fornece feedback adicional, bem como uma abordagem proativa para possíveis problemas na rede.
Essas reuniões devem incluir pessoal operacional e de planejamento. Isso oferece uma oportunidade para que os planejadores recebam análise operacional dos dados de linha de base e de tendência. Também coloca a equipe operacional "em loop" para algumas das análises de planejamento.
Outro tipo de item a ser incluído nessas reuniões são os objetivos de nível de serviço. À medida que se aproximam limiares objetivos, o pessoal de gestão da rede pode tomar medidas para evitar a ausência de um objetivo e, em alguns casos, estes dados podem ser utilizados como justificação orçamental parcial. Os dados podem mostrar onde os objetivos de nível de serviço serão violados se não forem tomadas as medidas adequadas. Além disso, uma vez que estes objetivos foram identificados pelos serviços e aplicações empresariais, são mais fáceis de justificar numa base financeira.
Realize essas análises a cada duas semanas e realize uma reunião analítica mais completa a cada seis a doze semanas. Essas reuniões permitem que você aborde problemas de curto e longo prazo.
Uma análise de e-mail envolve modelagem e verificação de soluções. Antes de adicionar uma nova solução à rede (um novo aplicativo ou uma alteração na versão do Cisco IOS), documente algumas das alternativas.
A documentação dessa análise inclui as principais questões, a metodologia, os conjuntos de dados e os arquivos de configuração. O ponto principal é que a análise de e-mail é um experimento que outra pessoa deve ser capaz de recriar com as informações fornecidas no documento.
Essa documentação inclui largura de banda de WAN adicional e uma tabela de custos que ajuda a aumentar a largura de banda para um tipo específico de link. Essas informações ajudam a empresa a perceber quanto tempo e dinheiro custam para aumentar a largura de banda. A documentação formal permite que os especialistas em desempenho e capacidade descubram como e quando aumentar o desempenho, bem como a linha de tempo e os custos de tal empreendimento.
Analise periodicamente esta documentação, talvez como parte da análise de desempenho trimestral, para garantir que ela se mantenha atualizada.
A única maneira de atingir os objetivos do sistema de gerenciamento de rede ideal é integrar ativamente os componentes do gerenciamento de desempenho ao sistema. Esse objetivo deve incluir o uso de métricas de disponibilidade e tempo de resposta vinculadas a um sistema de notificação quando os limites forem excedidos. Ele teria que incluir o uso de uma linha de base para o planejamento de capacidade que teria links para um modelo heurístico para provisionamento e geração de relatórios de exceção. Ele pode ter um mecanismo integrado de modelagem ou simulação que permite que o modelo seja atualizado em tempo real e fornece um nível de planejamento e solução de problemas por meio de simulações de software.
Embora grande parte desse sistema possa parecer um ideal impossível de ser alcançado, cada um dos componentes está disponível atualmente. Além disso, as ferramentas para integrar esses componentes também existem em programas como o MicroMuse. Devemos continuar a trabalhar em direção a este ideal, pois ele é hoje mais realista do que nunca.
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
02-Dec-2013 |
Versão inicial |