Cluster de Failover do Microsoft Windows Server 2008

este modelo avalia o status e o desempenho geral de um Cluster de Failover do Microsoft Windows 2008 recuperando informações de contadores de desempenho e do Log de Eventos do sistema Windows. Para obter mais informações, consulte o seguinte artigo da Microsoft: http://technet.microsoft.com/en-us/library/cc720058%28WS.10%29.aspx.

pré-requisitos

acesso WMI ao servidor de destino.

Credenciais

Administrador do Windows no servidor de destino.

todos os monitores de Log de Eventos do Windows devem retornar valores zero. Valores retornados diferentes de zero indicam uma anormalidade. Examinar os arquivos de log do sistema Windows deve fornecer informações relativas ao problema. Informações detalhadas sobre esses eventos podem ser encontradas aqui: http://technet.microsoft.com/en-us/library/dd353290 (WS.10).aspx.

monitores de componentes

Clique aqui para obter uma visão geral sobre modelos de monitor de aplicativos SAM e monitores de componentes. Os modelos Sam API Poller também estão disponíveis.

você precisa definir limites para contadores de acordo com seu ambiente. Recomenda-se monitorar contadores por algum período de tempo para entender os intervalos de valores potenciais e, em seguida, definir os limites de acordo.

serviço: Windows Time

este monitor retorna o uso da CPU e da memória do serviço Windows Time. Este serviço mantém a sincronização de data e hora em todos os clientes e servidores da rede. Se este serviço for interrompido, a sincronização de data e hora não estará disponível. Se este serviço estiver desativado, quaisquer serviços que dependam explicitamente dele não serão iniciados.

serviço: Serviço de Cluster

este monitor retorna o uso da CPU e da memória do serviço de Cluster. Esse serviço permite que os servidores trabalhem juntos como um cluster para manter aplicativos baseados em servidor altamente disponíveis, independentemente de falhas individuais de componentes. Se este serviço for interrompido, o agrupamento não estará disponível. Se este serviço estiver desativado, quaisquer serviços que dependam explicitamente dele não serão iniciados.

reconexões de rede: Contagem de reconexão

Este monitor retorna o número de vezes que os nós se reconectaram.

o campo da instância é específico da instalação. Você precisa especificar o nome do host do nó do cluster (por exemplo: node1). Por padrão, este Monitor de componentes está desativado e só deve ser ativado para fins de solução de problemas.

reconexões de rede: Comprimento Normal da fila de mensagens

Este monitor retorna o número de mensagens normais que estão na fila esperando para serem enviadas. Normalmente, esse número é 0, mas se a conexão TCP quebrar, você pode observar que está subindo até que a conexão TCP seja restabelecida e possamos enviar todos eles.

o campo da instância é específico da instalação. Você precisa especificar o nome do host do nó do cluster (por exemplo: node1). Por padrão, este Monitor de componentes está desativado e só deve ser ativado para fins de solução de problemas.

reconexões de rede: Comprimento Da Fila de mensagens urgentes

Este monitor retorna o número de mensagens urgentes que estão na fila esperando para serem enviadas. Normalmente, esse número é 0, mas se a conexão TCP quebrar, você poderá observá-lo subindo até que a conexão TCP seja restabelecida, permitindo assim que todas as mensagens sejam enviadas.

o campo da instância é específico da instalação. Você precisa especificar o nome do host do nó do cluster (por exemplo: node1). Por padrão, este Monitor de componentes está desativado e só deve ser ativado para fins de solução de problemas.

mensagens pendentes

este monitor retorna o número de mensagens pendentes do cluster MRR. O valor retornado deve estar próximo de zero.

Gerenciador de Controle de Recursos: Grupos Online

Este monitor retorna o número de grupos de recursos de cluster nesse nó. O valor retornado deve estar acima de zero em todos os momentos.

Gerenciador de controle de recursos: processos RHS

Este monitor retorna o número de processos do subsistema host de recursos em execução (rhs.exe). O valor retornado deve estar acima de zero em todos os momentos.

Gerenciador de controle de recursos: RHS reinicia

Este monitor retorna o número de processo de subsistema de host de recursos (rhs.exe) reinicia.

por padrão, este monitor de componente está desativado e só deve ser ativado para fins de solução de problemas.

recursos: Falha de recurso

este monitor retorna o número de falhas de recurso. O valor retornado deve ser o mais baixo possível.

recursos: violação de acesso de falha de recurso

Este monitor retorna o número de falhas de recurso causadas por violação de acesso. O valor retornado deve ser o mais baixo possível.

por padrão, este monitor de componente está desativado e só deve ser ativado para fins de solução de problemas.

Resources: Resource Failure Deadlock

este monitor retorna o número de falhas de recursos causadas por deadlock. Os Deadlocks geralmente são causados pelo recurso que leva muito tempo para executar certas operações. O valor retornado deve ser o mais baixo possível.

por padrão, este monitor de componente está desativado e só deve ser ativado para fins de solução de problemas.

Cópia de segurança e Restaurar Problemas de Funcionalidade

Este monitor retorna o número de eventos que ocorrem quando:

    • A operação de backup para os dados de configuração do cluster foi anulada porque o quórum do cluster ainda não foi atingido;
    • a solicitação de restauração para os dados de configuração do cluster falhou durante o estágio” pré-restauração “ou” pós-restauração”.

tipo de Evento: Erro. Identificação do evento: 1541, 1542, 1543.

verifique as seguintes pré-condições para se certificar de que foram atendidas e, em seguida, tente novamente a operação de backup ou restauração:

    • o cluster deve alcançar quorum. Em outras palavras, nós suficientes devem estar em execução e se comunicando (talvez com um disco de testemunha ou compartilhamento de arquivo de testemunha, dependendo da configuração do quorum) que o cluster alcançou a maioria, ou seja, quorum.
    • a conta usada pela pessoa que executa o backup deve estar no grupo Administradores locais em cada servidor em cluster e deve ser uma conta de domínio ou deve ter sido delegada à autoridade equivalente.
    • durante uma restauração, o software de restauração deve obter acesso exclusivo ao banco de dados de configuração de cluster em um determinado nó. Se outro software tiver acesso( alças abertas para o banco de dados), a restauração não poderá ser executada.

Cluster de Problemas de Conectividade de Rede

Este monitor retorna o número de eventos que ocorrem quando:

  • A interface de rede de Cluster para alguns nó de cluster em um especial da rede falhou;
  • A rede de Cluster é particionado e alguns anexado nós de cluster de failover não podem se comunicar uns com os outros através da rede;
  • A rede de Cluster é baixo;
  • O endereço IP de Cluster falha de recurso ficar online;
  • tentativa de usar IPv4 para um adaptador de rede especial falhou.

tipo de Evento: aviso e erro. ID do evento: 1127, 1129, 1130, 1360, 1555.

execute o Assistente validar uma configuração, selecionando apenas os testes de rede. Verifique também os dispositivos de rede (Adaptadores, Cabos, hubs, switches, etc) e a configuração do quorum.

Compare as propriedades do recurso de endereço IP com as propriedades da rede correspondente para garantir que as informações de rede e sub-rede correspondam. Se este for um recurso IPv6, certifique-se de que a rede de cluster para este recurso tenha pelo menos um prefixo IPv6 que não seja link-local ou túnel.

Inicialização do Serviço de Cluster Problemas

Este monitor retorna o número de eventos que ocorrem quando:

  • O serviço de Cluster sofreu um erro fatal inesperado;
  • O serviço de Cluster foi interrompido devido a falta de conectividade com outros nós do cluster;
  • O serviço de Cluster foi interrompido para evitar uma inconsistência no cluster de failover;
  • O recurso de Cluster do subsistema de host (RHS) parou inesperadamente;
  • O recurso de Cluster foi paralisado ou travado;
  • O serviço de Cluster encontrou um problema inesperado e será encerrado;
  • O serviço de Cluster tem impedido próprio da partida neste nó. (Este nó não tem a cópia mais recente dos dados de configuração do cluster.)
  • o mecanismo de associação detectou que o processo de arbitragem para o dispositivo de quorum parou.

tipo de Evento: Erro. ID do evento: 1000, 1006, 1073, 1146, 1230, 1556, 1561, 1178.

existem várias causas relacionadas a software ou hardware que podem impedir que o serviço de Cluster seja iniciado em um nó. Às vezes, o serviço de Cluster pode reiniciar com sucesso depois de ter sido interrompido por uma dessas causas. Revise os logs de eventos para obter indicações do problema.

verifique o hardware e a configuração da rede. Use o Assistente validar uma configuração para revisar a configuração de rede.

Verifique para ver qual DLL de recurso está causando o problema e relate o problema ao fornecedor do recurso. Considere configurar o recurso para ser executado em seu próprio Monitor de recursos. Observe que, embora um problema com uma DLL de recurso não interrompa a execução do serviço de Cluster, ele pode impedir que outras DLLs de recursos sejam executadas, a menos que o recurso seja executado em seu próprio Monitor de recursos.

tente iniciar o serviço de Cluster em todos os outros nós do cluster. Se o serviço de Cluster puder ser iniciado em um nó com a cópia mais recente dos dados de configuração do cluster, o nó que anteriormente não pôde ser iniciado provavelmente poderá obter a cópia mais recente e, em seguida, ingressar no cluster com sucesso.

Volume Compartilhado do Cluster de Problemas de Funcionalidade

Este monitor retorna o número de eventos que ocorrem quando:

  • O Volume Compartilhado de Cluster não está disponível neste nó;
  • O Volume de Cluster Compartilhado não é mais diretamente acessível a partir deste nó de cluster;
  • O serviço de Cluster falha ao criar os Volumes Compartilhados do Cluster raiz do diretório;
  • O serviço de Cluster falha ao definir as permissões (ACL) em Volumes Compartilhados do Cluster diretório raiz;
  • o volume compartilhado do Cluster não está mais acessível a partir deste nó do cluster;
  • o serviço de Cluster falhou ao criar um token de identidade do cluster para Volumes Compartilhados do Cluster.

tipo de Evento: Erro. ID do evento: 5120, 5121, 5123, 5134, 5135, 5142, 5200.

Revise eventos relacionados à comunicação com o volume.

Verifique a configuração de armazenamento e rede.

Verifique a criação e as permissões da pasta Cluster shared Volumes.

Verifique a comunicação entre controladores de domínio e nós.

Cluster de Armazenamento de Problemas de Funcionalidade

Este monitor retorna o número de eventos que ocorrem quando:

  • O Cluster de recurso de Disco Físico não pode ser colocado on-line porque o disco associado não pôde ser encontrado;
  • Enquanto o recurso de disco que estava sendo colocado on-line, o acesso a um ou mais volumes falhou com um erro;
  • O sistema de arquivos para uma ou mais partições no disco para o recurso pode ser danificado;
  • O recurso de disco de Cluster indica a corrupção do volume específico;
  • o recurso de disco do Cluster contém um ponto de montagem inválido.

tipo de Evento: Erro. ID do evento: 1034, 1035, 1037, 1066, 1208.

confirme se o disco afetado está disponível.

verifique o hardware de armazenamento subjacente e confirme se o dispositivo está sendo apresentado corretamente aos nós do cluster.

Se você tiver problemas com partições no disco ou corrupção, recomendamos que você execute o Chkdsk para que ele possa corrigir quaisquer problemas com o sistema de arquivos.

Confirmar que o disco montado é configurado de acordo com as seguintes diretrizes:

discos de Cluster só pode ser montado em discos de cluster (não discos locais);

montado e o disco é montado deve ser parte de um mesmo serviço ou aplicativo em cluster. Eles não podem estar em dois serviços ou aplicativos clusterizados diferentes e não podem estar no pool geral de armazenamento disponível no cluster.

Cluster Witness problemas

este monitor retorna o número de eventos que ocorrem quando:

  • O serviço de Cluster falha ao atualizar os dados de configuração do cluster sobre o recurso de testemunha, devido ao recurso de inacessibilidade;
  • O serviço de Cluster detectado um problema com o recurso de testemunha;
  • O recurso de Testemunha de Compartilhamento de falha de um periódico de verificação de integridade;
  • O recurso de Testemunha de Compartilhamento não conseguiu chegar online;
  • O recurso de Testemunha de Compartilhamento de falha para arbitrar para o compartilhamento de arquivos específico;
  • O nó com falha para formar um cluster, pois a testemunha não estava acessível.

tipo de Evento: Erro. ID do evento: 1557, 1558, 1562, 1563, 1564, 1573.

confirme a acessibilidade da testemunha visualizando a configuração do quorum de um cluster de failover e o status de um disco de testemunha.

Configuração de Disponibilidade de Problemas

Este monitor retorna o número de eventos que ocorrem quando:

  • A configuração de cluster de banco de dados não pôde ser carregado ou descarregado;
  • O serviço de cluster não é iniciado devido a tentativas de leitura de dados de configuração.

tipo de Evento: Erro. ID do evento: 1057, 1090, 1574, 1575, 1593.

quando a configuração do cluster em um nó está ausente ou corrompida, o serviço de Cluster não pode carregar a configuração e, portanto, não pode iniciar. Sempre que possível, o serviço de Cluster obterá a configuração de cluster mais recente de outros nós no cluster. Certifique-se de que outros nós sejam iniciados. Se o único nó ou nós que podem ser iniciados parecem ter um banco de dados de configuração de cluster ausente ou corrompido, você provavelmente precisará restaurar um dos nós de um backup do Estado do sistema. (Para um nó de cluster de failover, o backup do Estado do sistema inclui a configuração do cluster.) Às vezes, quando o nó tenta descarregar o banco de dados de configuração do cluster, a ação não é totalmente concluída. Tente parar e reiniciar o serviço de Cluster. Se isso não for bem-sucedido, reinicie o sistema operacional no nó afetado.

Namespace DFS Disponibilidade de Recursos, Problemas de

Este monitor retorna o número de eventos que ocorrem quando:

  • A criação de espaço de nomes DFS raiz falhou com o erro;
  • A ressincronização de raiz de DFS de destino falhou com o erro;
  • o recurso de compartilhamento de arquivos de cluster para Namespace DFS não pode ser colocado online devido a erro.

tipo de Evento: Erro. ID do evento: 1138, 1141, 1142.
Verifique a configuração do namespace DFS.

Configurações criptografadas para recurso de Cluster não puderam ser aplicadas

Este monitor retorna o número de eventos quando as configurações criptografadas para um recurso de cluster não puderam ser aplicadas com sucesso ao contêiner neste nó.

tipo de Evento: Erro. ID do evento: 1121.

Feche qualquer aplicativo que possa ter um identificador aberto no ponto de verificação do registro indicado pelo evento. Isso permitirá que a chave do registro seja replicada conforme configurada com as propriedades do recurso. Se necessário, entre em contato com o fornecedor do aplicativo sobre esse problema. Você pode usar um utilitário chamado Handle com a opção-a para visualizar os handles no registro.

Falha ao formar Cluster

Este monitor retorna o número de Eventos de cluster com Falha ao formar.

tipo de Evento: Erro. ID do evento: 1092, 1009.

você pode corrigir esse problema reiniciando o serviço de Cluster.

Recurso de Compartilhamento de Arquivo Disponibilidade Problemas

Este monitor retorna o número de eventos que ocorrem quando:

  • O Compartilhamento de Arquivo de Cluster não pode ser colocado on-line por causa de um compartilhamento de arquivo não pôde ser criado;
  • A obtenção de informações para uma partilha específica retornou um código de erro;
  • A obtenção de informações para uma partilha específica indicou que o compartilhamento não existe;
  • A Criação de um compartilhamento de arquivo falhou devido a um erro;
  • o recurso de compartilhamento de arquivos do Cluster detectou conflitos de pastas compartilhadas;
  • o recurso do servidor de arquivos do Cluster falhou em uma verificação de integridade porque algumas de suas pastas compartilhadas estavam inacessíveis.

tipo de Evento: aviso e erro. ID do evento: 1053, 1054, 1055, 1068, 1560, 1585, 1586, 1587, 1588.

confirme se o compartilhamento existe e se as permissões permitem o acesso ao compartilhamento.

se possível, determine se o caminho para o compartilhamento foi alterado. Nesse caso, recrie o compartilhamento com o nome correto.

visualize todos os recursos na instância do servidor de arquivos em cluster para garantir que eles estejam online e revise as dependências entre os recursos. Reconfigure conforme necessário para corrigir quaisquer problemas.

certifique-se de que duas pastas compartilhadas não tenham o mesmo nome de compartilhamento.

Verifique a acessibilidade da pasta compartilhada e o estado do serviço do servidor.

Aplicação Genérica não Pode ser colocado Online

Este monitor retorna o número de eventos que ocorrem quando um aplicativo genérico não pode ser colocado on-line durante uma tentativa de criar o processo devido a; o aplicativo não está presente neste nó, um nome de caminho incorreto ou um nome binário incorreto.

tipo de Evento: Erro. ID do evento: 1039.

Confirmar que os seguintes são verdadeiras para o aplicativo usado pelo cluster de Aplicação Genérica instância:

  • O aplicativo é totalmente instalado em todos os nós que são possíveis proprietários do recurso de Aplicativo Genérico;
  • A configuração para o recurso de Aplicativo Genérico especifica a aplicação correta e o caminho;
  • a configuração do recurso de aplicativo Genérico especifica os parâmetros e configurações apropriados para replicação do registro.

Recurso de Serviço Genérico Problemas de Disponibilidade

Este monitor retorna o número de eventos que ocorrem quando:

  • O serviço genérico não está instalado ou o serviço especificado nome é inválido;
  • especificados parâmetros de serviço genérico pode ser inválido;
  • O serviço genérico falha com um erro.

tipo de Evento: Erro. ID do evento: 1040, 1041, 1042.

confirme se o serviço correto está especificado na configuração do recurso de serviço genérico e confirme se o serviço está totalmente instalado em todos os nós que são possíveis proprietários do recurso.

Verifique a operação do serviço e examine o log de eventos do aplicativo.

problemas de disponibilidade de recursos de endereço IP

este monitor retorna o número de eventos que ocorrem quando:

  • o recurso de endereço IP do Cluster não pode ser colocado online porque o valor da máscara de sub-rede é inválido;
  • O endereço IP do Cluster de recurso não pode ser colocado on-line porque o valor de endereço é inválido;
  • Os dados de configuração para o adaptador de rede correspondente para a interface de rede de cluster não pôde ser determinado;
  • O endereço IP do Cluster de recurso não pode ser colocado on-line por causa de um endereço IP duplicado foi detectado na rede;
  • O endereço IP do Cluster de recurso não pode ser colocado on-line por causa de registo do WINS;
  • A concessão do endereço IP associado com o endereço IP de cluster recurso tenha expirado ou prestes a expirar e, atualmente, não pode ser renovado;
  • IPv6 Tunnel recurso de endereço não conseguiu chegar online, porque não depende de um Endereço IP (IPv4) recurso;
  • A rede de Cluster associado dependente endereço IP (IPv4) recurso não oferece suporte a encapsulamento ISATAP.

tipo de Evento: Erro. ID do evento: 1046, 1047, 1048, 1049, 1078, 1242, 1361, 1363.

verifique as propriedades de endereço, sub-rede e rede do recurso de endereço IP.

se o recurso for um recurso de endereço de túnel IPv6, verifique se ele depende de pelo menos um recurso de endereço IP (IPv4). Verifique também se a rede suporta tunelamento do Protocolo de endereçamento automático de túnel (ISATAP) Intra-Site.

se o recurso de endereço IP parecer configurado corretamente, verifique a condição dos adaptadores de rede e outros componentes de rede usados pelo cluster.

conectividade de rede e problemas de configuração

este monitor retorna o número de eventos que ocorrem quando:

  • O Serviço de Cluster foi possível acessar a placa de rede ou o nó de cluster não tem conectividade de rede;
  • O nó de Cluster não tem conectividade de rede;
  • O nó de Cluster perdeu toda a conectividade de rede;
  • A activação pós-falha de cluster virtual adaptador falhou ao inicializar o adaptador de miniporta.

tipo de Evento: Erro. ID do evento: 1289, 1553, 1554, 4871.

corrija quaisquer problemas com os adaptadores de rede físicos e o adaptador virtual de cluster. Se uma alteração anterior na configuração estiver interferindo na função do adaptador virtual do cluster, pode ser necessário reinstalar o recurso de cluster de failover no nó. Além disso, use o Assistente validar uma configuração para revisar a configuração de rede.

Node Failed to Join Cluster

este monitor retorna o número de eventos que ocorrem quando o nó não conseguiu se juntar ao cluster de failover devido a um erro.

tipo de Evento: Erro. ID do evento: 1070.

você pode corrigir esse problema reiniciando o serviço de Cluster.

Problemas com o Serviço de Cluster

Este monitor retorna o número de eventos que ocorrem quando:

  • O recurso de cluster do serviço ou aplicativo em Cluster falhou;
  • O serviço de Cluster falha ao colocar o serviço ou aplicativo em Cluster completamente on-line ou off-line e um ou mais recursos podem estar em um estado de falha.

tipo de Evento: aviso e erro. ID do evento: 1039, 1205.

verifique e corrija quaisquer problemas com o aplicativo ou serviço associado ao recurso.

verifique e corrija quaisquer problemas com cabos ou dispositivos relacionados ao cluster.

ajuste as propriedades do recurso na configuração do cluster, especialmente o valor do tempo limite pendente para o recurso. Esse valor deve permitir tempo suficiente para que o aplicativo ou serviço associado seja iniciado.
verifique o estado de todos os recursos no serviço ou aplicativo em cluster.

o Quorum foi perdido

este monitor retorna o número de eventos que ocorrem quando o serviço de Cluster é desligado porque o quorum foi perdido.

tipo de Evento: Erro. identificacao: 1177.

isso pode ocorrer quando a conectividade de rede é perdida entre alguns ou todos os nós no cluster, ou o disco de testemunha falha. Também pode ocorrer se você fizer uma alteração na configuração do cluster, como aumentar o número de nós, quando o número de nós atualmente on-line é muito pequeno para obter quorum na nova configuração. Execute o Assistente validar uma configuração, selecionando apenas os testes de rede. Verifique também os dispositivos de rede (Adaptadores, Cabos, hubs, switches, etc.) e configuração do quorum.

o ponto de verificação do registro não pôde ser restaurado para a chave do registro

Este monitor retorna o número de eventos que ocorrem quando o ponto de verificação do Registro para o recurso de Cluster não pôde ser restaurado para uma chave de registro.

tipo de Evento: Erro. ID do evento: 1024.

Feche qualquer aplicativo que possa ter um identificador aberto no ponto de verificação do registro indicado pelo evento. Isso permitirá que a chave do registro seja replicada conforme configurada com as propriedades do recurso. Se necessário, entre em contato com o fornecedor do aplicativo sobre esse problema. Você pode usar um utilitário chamado Handle com a opção-a para visualizar os handles no registro.

o sistema não está sendo responsivo

Este monitor retorna o número de eventos que ocorrem quando o adaptador virtual do cluster de Failover perdeu o contato com o processo.

tipo de Evento: Erro. ID do evento: 4869, 4870.

Write a Comment

O seu endereço de email não será publicado.