Cluster di failover Microsoft Windows Server 2008

Questo modello valuta lo stato e le prestazioni complessive di un cluster di failover Microsoft Windows 2008 recuperando informazioni dai contatori delle prestazioni e dal registro eventi di sistema di Windows. Per ulteriori informazioni, fare riferimento al seguente articolo Microsoft: http://technet.microsoft.com/en-us/library/cc720058%28WS.10%29.aspx.

Prerequisiti

Accesso WMI al server di destinazione.

Credenziali

Amministratore di Windows sul server di destinazione.

Tutti i monitor del registro eventi di Windows dovrebbero restituire valori zero. Valori restituiti diversi da zero indicano un’anomalia. L’esame dei file di registro di sistema di Windows dovrebbe fornire informazioni relative al problema. Informazioni dettagliate su questi eventi possono essere trovate qui: http://technet.microsoft.com/en-us/library/dd353290(WS.10).aspx.

Monitor componenti

Fare clic qui per una panoramica sui modelli SAM application monitor e sui monitor componenti. Sono disponibili anche modelli SAM API Poller.

È necessario impostare le soglie per i contatori in base al proprio ambiente. Si consiglia di monitorare i contatori per un certo periodo di tempo per comprendere gli intervalli di valori potenziali e quindi impostare le soglie di conseguenza.

Servizio: Windows Time

Questo monitor restituisce l’utilizzo della CPU e della memoria del servizio Windows Time. Questo servizio mantiene la sincronizzazione di data e ora su tutti i client e server della rete. Se il servizio viene arrestato, la sincronizzazione di data e ora non sarà disponibile. Se questo servizio è disabilitato, tutti i servizi che dipendono esplicitamente da esso non verranno avviati.

Servizio: Servizio Cluster

Questo monitor restituisce l’utilizzo della CPU e della memoria del servizio Cluster. Questo servizio consente ai server di lavorare insieme come un cluster per mantenere le applicazioni basate su server altamente disponibili, indipendentemente dagli errori dei singoli componenti. Se questo servizio viene arrestato, il clustering non sarà disponibile. Se questo servizio è disabilitato, tutti i servizi che dipendono esplicitamente da esso non verranno avviati.

Riconnessioni di rete: Conteggio riconnessione

Questo monitor restituisce il numero di volte in cui i nodi si sono riconnessi.

Il campo istanza è specifico per l’installazione. È necessario specificare il nome host del nodo cluster (ad esempio: node1). Per impostazione predefinita, questo monitor componenti è disabilitato e deve essere abilitato solo per scopi di risoluzione dei problemi.

Riconnessioni di rete: lunghezza normale della coda dei messaggi

Questo monitor restituisce il numero di messaggi normali che si trovano nella coda in attesa di essere inviati. Normalmente questo numero è 0, ma se la connessione TCP si interrompe, si potrebbe osservare che sta salendo fino a quando la connessione TCP non viene ripristinata e possiamo inviarli tutti.

Il campo istanza è specifico per l’installazione. È necessario specificare il nome host del nodo cluster (ad esempio: node1). Per impostazione predefinita, questo monitor componenti è disabilitato e deve essere abilitato solo per scopi di risoluzione dei problemi.

Riconnessioni di rete: Lunghezza della coda dei messaggi urgenti

Questo monitor restituisce il numero di messaggi urgenti che si trovano nella coda in attesa di essere inviati. Normalmente questo numero è 0, ma se la connessione TCP si interrompe, si potrebbe osservare che sale fino a quando la connessione TCP non viene ripristinata, consentendo in tal modo l’invio di tutti i messaggi.

Il campo istanza è specifico per l’installazione. È necessario specificare il nome host del nodo cluster (ad esempio: node1). Per impostazione predefinita, questo monitor componenti è disabilitato e deve essere abilitato solo per scopi di risoluzione dei problemi.

Messaggi in sospeso

Questo monitor restituisce il numero di messaggi in sospeso MRR del cluster. Il valore restituito dovrebbe essere vicino a zero.

Resource Control Manager: Groups Online

Questo monitor restituisce il numero di gruppi di risorse cluster online su questo nodo. Il valore restituito deve essere sempre superiore a zero.

Resource Control Manager: Processi RHS

Questo monitor restituisce il numero di processi di sottosistema host di risorse (rhs) in esecuzione.exe). Il valore restituito deve essere sempre superiore a zero.

Resource Control Manager: RHS Riavvia

Questo monitor restituisce il numero di resource host subsystem process (rhs).exe) si riavvia.

Per impostazione predefinita, questo monitor componenti è disabilitato e deve essere abilitato solo per scopi di risoluzione dei problemi.

Risorse: Errore di risorsa

Questo monitor restituisce il numero di errori di risorsa. Il valore restituito dovrebbe essere il più basso possibile.

Risorse: Violazione dell’accesso alle risorse

Questo monitor restituisce il numero di errori delle risorse causati dalla violazione dell’accesso. Il valore restituito dovrebbe essere il più basso possibile.

Per impostazione predefinita, questo monitor componenti è disabilitato e deve essere abilitato solo per scopi di risoluzione dei problemi.

Risorse: Resource Failure Deadlock

Questo monitor restituisce il numero di errori di risorse causati da deadlock. I deadlock sono solitamente causati dalla risorsa che impiega troppo tempo per eseguire determinate operazioni. Il valore restituito dovrebbe essere il più basso possibile.

Per impostazione predefinita, questo monitor componenti è disabilitato e deve essere abilitato solo per scopi di risoluzione dei problemi.

Problemi di funzionalità di backup e ripristino

Questo monitor restituisce il numero di eventi che si verificano quando:

    • L’operazione di backup per i dati di configurazione del cluster è stata interrotta perché il quorum per il cluster non è ancora stato raggiunto;
    • La richiesta di ripristino per i dati di configurazione del cluster non è riuscita durante la fase di” pre-ripristino “o” post-ripristino”.

Tipo di evento: Errore. ID evento: 1541, 1542, 1543.

Verificare la presenza delle seguenti pre-condizioni per accertarsi che siano state soddisfatte, quindi riprovare l’operazione di backup o ripristino:

    • Il cluster deve raggiungere il quorum. In altre parole, un numero sufficiente di nodi deve essere in esecuzione e comunicare (forse con un disco witness o una condivisione di file witness, a seconda della configurazione del quorum) che il cluster ha raggiunto la maggioranza, cioè il quorum.
    • L’account utilizzato dalla persona che esegue il backup deve essere nel gruppo Amministratori locali su ciascun server cluster e deve essere un account di dominio o deve essere stata delegata l’autorità equivalente.
    • Durante un ripristino, il software di ripristino deve ottenere l’accesso esclusivo al database di configurazione del cluster su un determinato nodo. Se un altro software ha accesso (maniglie aperte al database), il ripristino non può essere eseguito.

Cluster Problemi di Connettività di Rete

Questo monitor restituisce il numero di eventi che si verificano quando:

  • interfaccia di rete Del Cluster per cluster nodo in una rete speciale fallito;
  • La rete di Cluster è partizionato e alcuni allegati nodi del cluster di failover non possono comunicare tra loro attraverso la rete;
  • Il Cluster di rete;
  • La risorsa indirizzo IP del Cluster non è riuscito a venire online;
  • Tentativo di utilizzare IPv4 per una scheda di rete speciale non riuscito.

Tipo di evento: Avviso ed errore. ID evento: 1127, 1129, 1130, 1360, 1555.

Eseguire la procedura guidata Convalida configurazione, selezionando solo i test di rete. Controllare anche i dispositivi di rete (adattatori, cavi, hub, switch, ecc) e la configurazione del quorum.

Confrontare le proprietà della risorsa Indirizzo IP con le proprietà della rete corrispondente per garantire che le informazioni di rete e sottorete corrispondano. Se si tratta di una risorsa IPv6, assicurarsi che la rete cluster per questa risorsa abbia almeno un prefisso IPv6 che non sia link-local o tunnel.

Servizio Cluster Problemi di Avvio

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Il servizio Cluster verificato un errore irreversibile imprevisto;
  • Il servizio Cluster è stata interrotta a causa di incompleta connettività con altri nodi del cluster;
  • Il servizio Cluster è stato arrestato per impedire un’incoerenza all’interno del cluster di failover;
  • Il sottosistema RHS (Cluster Resource host Subsystem) si è arrestato in modo imprevisto;
  • La risorsa Cluster si è arrestata in modo anomalo o in deadlock;
  • Il servizio Cluster ha riscontrato un problema imprevisto e verrà arrestato;
  • Il servizio Cluster si è impedito di avviarsi su questo nodo. (Questo nodo non ha l’ultima copia dei dati di configurazione del cluster.)
  • Il motore di appartenenza ha rilevato che il processo di arbitrato per il dispositivo quorum è in fase di stallo.

Tipo di evento: Errore. ID evento: 1000, 1006, 1073, 1146, 1230, 1556, 1561, 1178.

Esistono varie cause correlate al software o all’hardware che possono impedire l’avvio del servizio Cluster su un nodo. A volte il servizio Cluster può essere riavviato correttamente dopo che è stato interrotto da una di queste cause. Esaminare i registri eventi per le indicazioni del problema.

Controllare l’hardware di rete e la configurazione. Utilizzare la procedura guidata Convalida configurazione per esaminare la configurazione di rete.

Controlla quale DLL di risorse sta causando il problema e segnala il problema al fornitore della risorsa. Considerare la possibilità di configurare la risorsa per l’esecuzione nel proprio Monitor risorse. Si noti che mentre un problema con una DLL di risorse non interrompe l’esecuzione del servizio Cluster, può impedire l’esecuzione di altre DLL di risorse a meno che la risorsa non venga eseguita nel proprio Monitor risorse.

Provare ad avviare il servizio Cluster su tutti gli altri nodi del cluster. Se il servizio Cluster può essere avviato su un nodo con l’ultima copia dei dati di configurazione del cluster, il nodo che in precedenza non poteva essere avviato sarà probabilmente in grado di ottenere l’ultima copia e quindi unirsi al cluster con successo.

Volumi Condivisi del Cluster Problemi di Funzionalità

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Il Cluster Shared Volume non è più disponibile su questo nodo;
  • Cluster Shared Volume non è più accessibile direttamente da questo nodo di cluster;
  • Il servizio Cluster non è riuscito a creare Volumi Condivisi del Cluster directory root;
  • Il servizio Cluster non è riuscito a impostare i permessi (ACL) sui Volumi Condivisi del Cluster directory principale;
  • Il Volume condiviso Cluster non è più accessibile da questo nodo cluster;
  • Il servizio Cluster non è riuscito a creare un token di identità cluster per i volumi condivisi Cluster.

Tipo di evento: Errore. ID evento: 5120, 5121, 5123, 5134, 5135, 5142, 5200.

Rivedere gli eventi relativi alla comunicazione con il volume.

Controllare lo storage e la configurazione di rete.

Controlla la creazione e le autorizzazioni della cartella Cluster Shared Volumes.

Controllare la comunicazione tra controller di dominio e nodi.

Cluster di Storage Problemi di Funzionalità

Questo monitor restituisce il numero di eventi che si verificano quando:

  • La risorsa Disco Fisico del Cluster non può essere portato in linea perché il disco associato non può essere trovato;
  • Mentre la risorsa disco veniva portato in linea, l’accesso a uno o più volumi non riuscita con errore;
  • Il file system per una o più partizioni sul disco per la risorsa potrebbe essere danneggiato;
  • La risorsa disco del Cluster indica il danneggiamento del volume specifico;
  • La risorsa disco Cluster contiene un punto di montaggio non valido.

Tipo di evento: Errore. ID evento: 1034, 1035, 1037, 1066, 1208.

Confermare che il disco interessato sia disponibile.

Controllare l’hardware di archiviazione sottostante e verificare che il dispositivo venga presentato correttamente ai nodi del cluster.

In caso di problemi con le partizioni sul disco o di danneggiamento, si consiglia di eseguire Chkdsk in modo che possa correggere eventuali problemi con il file system.

Confermare che il disco montato sia configurato secondo le seguenti linee guida:

I dischi in cluster possono essere montati solo su dischi in cluster (non su dischi locali);

Il disco montato e il disco su cui è montato devono far parte dello stesso servizio o applicazione in cluster. Non possono essere in due servizi o applicazioni cluster diversi e non possono essere nel pool generale di storage disponibile nel cluster.

Problemi Cluster Witness

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Il servizio Cluster non sono riuscito ad aggiornare i dati di configurazione del cluster sulla testimonianza di risorse a causa delle risorse inaccessibilità;
  • Il servizio Cluster rilevato un problema con la testimonianza di risorse;
  • Condivisione di File di risorse fallito un periodico controllo sanitario;
  • Condivisione di File di risorse non è riuscito a venire on-line;
  • Condivisione di File di risorse non è riuscito ad arbitrare specifica per la condivisione di file;
  • Il nodo non è riuscito a formare un cluster in quanto il testimone non era accessibile.

Tipo di evento: Errore. ID evento: 1557, 1558, 1562, 1563, 1564, 1573.

Conferma l’accessibilità di witness visualizzando la configurazione del quorum di un cluster di failover e lo stato di un disco witness.

Problemi di disponibilità della configurazione

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Impossibile caricare o scaricare il database di configurazione del cluster;
  • Impossibile avviare il servizio cluster a causa di tentativi falliti di lettura dei dati di configurazione.

Tipo di evento: Errore. ID evento: 1057, 1090, 1574, 1575, 1593.

Quando la configurazione del cluster su un nodo è mancante o danneggiata, il servizio Cluster non può caricare la configurazione e quindi non può essere avviato. Ove possibile, il servizio Cluster otterrà l’ultima configurazione del cluster da altri nodi del cluster. Assicurarsi che vengano avviati altri nodi. Se l’unico nodo o i nodi che possono essere avviati sembrano avere un database di configurazione cluster mancante o danneggiato, probabilmente sarà necessario ripristinare uno dei nodi da un backup dello stato del sistema. (Per un nodo cluster di failover, il backup dello stato del sistema include la configurazione del cluster.) A volte quando il nodo tenta di scaricare il database di configurazione del cluster, l’azione non viene completata completamente. Provare ad arrestare e riavviare il servizio Cluster. Se questo non riesce, riavviare il sistema operativo sul nodo interessato.

Problemi di disponibilità delle risorse dello spazio dei nomi DFS

Questo monitor restituisce il numero di eventi che si verificano quando:

  • La creazione di DFS namespace root non è riuscita con errore;
  • La risincronizzazione di DFS root target non è riuscita con errore;
  • La risorsa di condivisione file cluster per lo spazio dei nomi DFS non può essere portata online a causa di un errore.

Tipo di evento: Errore. ID evento: 1138, 1141, 1142.
Controlla la configurazione dello spazio dei nomi DFS.

Impossibile applicare le impostazioni crittografate per la risorsa cluster

Questo monitor restituisce il numero di eventi quando le impostazioni crittografate per una risorsa cluster non possono essere applicate correttamente al contenitore su questo nodo.

Tipo di evento: Errore. ID evento: 1121.

Chiudere qualsiasi applicazione che potrebbe avere un handle aperto al checkpoint del registro indicato dall’evento. Ciò consentirà la replica della chiave di registro come configurata con le proprietà della risorsa. Se necessario, contattare il fornitore dell’applicazione in merito a questo problema. È possibile utilizzare un’utilità chiamata Handle con l’opzione-a per visualizzare gli handle nel registro.

Creazione del cluster non riuscita

Questo monitor restituisce il numero di eventi del cluster non riusciti.

Tipo di evento: Errore. ID evento: 1092, 1009.

È possibile correggere questo problema riavviando il servizio Cluster.

Risorsa Condivisione File di Problemi di Disponibilità

Questo monitor restituisce il numero di eventi che si verificano quando:

  • La Condivisione di File del Cluster non può essere portato in linea a causa di una condivisione di file non può essere creato;
  • Il reperimento di informazioni per una specifica azione restituito un codice di errore;
  • Il reperimento di informazioni per una specifica azione indicato che la quota non esiste;
  • La Creazione di una condivisione di file non riuscita a causa di un errore;
  • La risorsa condivisione file Cluster ha rilevato conflitti di cartelle condivise;
  • La risorsa file server Cluster non è riuscita a eseguire un controllo dello stato perché alcune delle sue cartelle condivise erano inaccessibili.

Tipo di evento: Avviso ed errore. ID evento: 1053, 1054, 1055, 1068, 1560, 1585, 1586, 1587, 1588.

Confermare che la condivisione esiste e che le autorizzazioni consentono l’accesso alla condivisione.

Se possibile, determinare se il percorso della condivisione è stato modificato. In tal caso, ricreare la condivisione con il nome corretto.

Visualizzare tutte le risorse nell’istanza del file server in cluster per assicurarsi che siano in linea e rivedere le dipendenze tra le risorse. Riconfigurare se necessario per correggere eventuali problemi.

Assicurarsi che non ci siano due cartelle condivise con lo stesso nome di condivisione.

Controllare l’accessibilità della cartella condivisa e lo stato del servizio Server.

Impossibile portare online un’applicazione generica

Questo monitor restituisce il numero di eventi che si verificano quando un’applicazione generica non può essere portata online durante un tentativo di creare il processo a causa di; l’applicazione non è presente su questo nodo, un nome di percorso errato o un nome binario errato.

Tipo di evento: Errore. ID evento: 1039.

verificare che le seguenti condizioni per l’applicazione utilizzata dal cluster Generica istanza di Applicazione:

  • L’applicazione è completamente installato su tutti i nodi che sono possibili proprietari dell’Applicazione Generica risorsa;
  • La configurazione per l’Applicazione Generica risorsa specifica la corretta applicazione e il percorso;
  • La configurazione per la risorsa Applicazione generica specifica i parametri e le impostazioni appropriati per la replica del registro di sistema.

Servizio Generico di Disponibilità di Risorse Problemi

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Il servizio generico non è installato o il servizio specificato il nome non è valido;
  • Il generico specificato i parametri del servizio potrebbe non essere valido;
  • Il servizio generico non riuscita con errore.

Tipo di evento: Errore. ID evento: 1040, 1041, 1042.

Confermare che il servizio corretto è specificato nella configurazione per la risorsa di servizio generica e confermare che il servizio è completamente installato su tutti i nodi che sono possibili proprietari della risorsa.

Controllare il funzionamento del servizio ed esaminare il registro eventi dell’applicazione.

Problemi di disponibilità delle risorse dell’indirizzo IP

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Impossibile portare online la risorsa Indirizzo IP del cluster perché il valore della subnet mask non è valido;
  • Impossibile portare online la risorsa indirizzo IP del Cluster perché il valore dell’indirizzo non è valido;
  • Non è stato possibile determinare i dati di configurazione per la scheda di rete corrispondente all’interfaccia di rete del cluster;
  • Non è possibile portare online la risorsa indirizzo IP del Cluster perché è stato rilevato un indirizzo IP duplicato sulla rete;
  • ;
  • Il lease dell’indirizzo IP associato con l’indirizzo IP del cluster resource è scaduto o sta per scadere, e attualmente non può essere rinnovato;
  • Il Tunnel IPv6 indirizzo della risorsa non riuscita perché non dipende da un Indirizzo IP (IPv4) risorsa;
  • La rete di Cluster associati con dipendenti indirizzo IP (IPv4) risorsa non supporta ISATAP.

Tipo di evento: Errore. ID evento: 1046, 1047, 1048, 1049, 1078, 1242, 1361, 1363.

Controllare l’indirizzo, la sottorete e le proprietà di rete della risorsa Indirizzo IP.

Se la risorsa è una risorsa indirizzo tunnel IPv6, assicurarsi che dipenda da almeno una risorsa Indirizzo IP (IPv4). Assicurarsi inoltre che la rete supporti il tunneling ISATAP (Automatic Tunnel Addressing Protocol) intra-Site.

Se la risorsa Indirizzo IP sembra configurata correttamente, verificare le condizioni delle schede di rete e degli altri componenti di rete utilizzati dal cluster.

Problemi di connettività e configurazione di rete

Questo monitor restituisce il numero di eventi che si verificano quando:

  • Il Servizio Cluster non è stato in grado di accedere alla scheda di rete o il nodo cluster non ha connettività di rete;
  • Il nodo Cluster non ha connettività di rete;
  • Il nodo Cluster ha perso tutta la connettività di rete;
  • L’adattatore virtuale del cluster di failover non è riuscito a inizializzare l’adattatore miniport.

Tipo di evento: Errore. ID evento: 1289, 1553, 1554, 4871.

Correggere eventuali problemi con le schede di rete fisiche e l’adattatore virtuale cluster. Se una modifica precedente nella configurazione interferisce con la funzione dell’adattatore virtuale del cluster, potrebbe essere necessario reinstallare la funzionalità di clustering di failover sul nodo. Inoltre, utilizzare la procedura guidata Convalida configurazione per esaminare la configurazione di rete.

Nodo non riuscito a unirsi al cluster

Questo monitor restituisce il numero di eventi che si verificano quando il nodo non è riuscito a unirsi al cluster di failover a causa di un errore.

Tipo di evento: Errore. ID evento: 1070.

È possibile correggere questo problema riavviando il servizio Cluster.

Problemi con il Servizio Cluster

Questo monitor restituisce il numero di eventi che si verificano quando:

  • La risorsa cluster in un Cluster di servizio o applicazione non è riuscita;
  • Il servizio Cluster non è riuscito a portare il servizio Cluster o l’applicazione completamente in linea o non in linea e una o più risorse possono essere in uno stato di errore.

Tipo di evento: Avviso ed errore. ID evento: 1039, 1205.

Controllare e correggere eventuali problemi con l’applicazione o il servizio associato alla risorsa.

Controllare e correggere eventuali problemi con cavi o dispositivi relativi al cluster.

Regolare le proprietà per la risorsa nella configurazione del cluster, in particolare il valore per il timeout in sospeso per la risorsa. Questo valore deve consentire un tempo sufficiente per l’avvio dell’applicazione o del servizio associato.
Controllare lo stato di tutte le risorse nel servizio o nell’applicazione cluster.

Il quorum è stato perso

Questo monitor restituisce il numero di eventi che si verificano quando il servizio Cluster viene arrestato perché il quorum è stato perso.

Tipo di evento: Errore. ID evento: 1177.

Ciò può verificarsi quando la connettività di rete viene persa tra alcuni o tutti i nodi del cluster o il disco witness fallisce. Può verificarsi anche se si apporta una modifica alla configurazione del cluster, ad esempio aumentando il numero di nodi, quando il numero di nodi attualmente in linea è troppo pochi per raggiungere il quorum nella nuova configurazione. Eseguire la procedura guidata Convalida una configurazione, selezionando solo i test di rete. Controllare anche i dispositivi di rete (adattatori, cavi, hub, switch, ecc.) e configurazione del quorum.

Impossibile ripristinare il checkpoint del registro di sistema nella chiave di registro

Questo monitor restituisce il numero di eventi che si verificano quando il checkpoint del registro di sistema per la risorsa Cluster non può essere ripristinato in una chiave di registro.

Tipo di evento: Errore. ID evento: 1024.

Chiudere qualsiasi applicazione che potrebbe avere un handle aperto al checkpoint del registro indicato dall’evento. Ciò consentirà la replica della chiave di registro come configurata con le proprietà della risorsa. Se necessario, contattare il fornitore dell’applicazione in merito a questo problema. È possibile utilizzare un’utilità chiamata Handle con l’opzione-a per visualizzare gli handle nel registro.

Il sistema non risponde

Questo monitor restituisce il numero di eventi che si verificano quando l’adattatore virtuale del cluster di failover ha perso il contatto con il processo.

Tipo di evento: Errore. ID evento: 4869, 4870.

Write a Comment

Il tuo indirizzo email non sarà pubblicato.