Microsoft Windows Server 2008 Failover Cluster

acest șablon evaluează starea și performanța generală a unui cluster de Failover Microsoft Windows 2008 prin preluarea informațiilor de la contoare de performanță și Jurnalul de evenimente de sistem Windows. Pentru mai multe informații, consultați următorul articol Microsoft: http://technet.microsoft.com/en-us/library/cc720058%28WS.10%29.aspx.

cerințe preliminare

acces WMI la serverul țintă.

acreditări

Administrator Windows pe serverul țintă.

toate monitoarele Jurnalului de evenimente Windows ar trebui să returneze valori zero. Valorile returnate, altele decât zero, indică o anomalie. Examinarea fișierele jurnal de sistem Windows ar trebui să furnizeze informații referitoare la problema. Informații detaliate despre aceste evenimente pot fi găsite aici: http://technet.microsoft.com/en-us/library/dd353290(WS.10).aspx.

monitoare componente

Faceți clic aici pentru o prezentare generală despre șabloanele SAM application monitor și monitoarele componente. Sam API Poller template-uri sunt de asemenea disponibile.

trebuie să setați praguri pentru contoare în funcție de mediul dvs. Se recomandă monitorizarea contoarelor pentru o anumită perioadă de timp pentru a înțelege intervalele de valori potențiale și apoi setați pragurile în consecință.

serviciu: Windows Time

acest monitor returnează utilizarea procesorului și a memoriei serviciului Windows Time. Acest serviciu menține sincronizarea datei și orei pe toți clienții și serverele din rețea. Dacă acest serviciu este oprit, sincronizarea datei și orei nu va fi disponibilă. Dacă acest serviciu este dezactivat, orice servicii care depind în mod explicit de acesta nu vor porni.

serviciu: Cluster Service

acest monitor returnează utilizarea procesorului și a memoriei serviciului Cluster. Acest serviciu permite serverelor să lucreze împreună ca un cluster pentru a menține aplicațiile bazate pe server foarte disponibile, indiferent de eșecurile componentelor individuale. Dacă acest serviciu este oprit, gruparea va fi indisponibilă. Dacă acest serviciu este dezactivat, orice servicii care depind în mod explicit de acesta nu vor porni.

reconectări rețea: număr de Reconectare

acest monitor returnează de câte ori nodurile s-au reconectat.

câmpul instanță este specific instalării. Trebuie să specificați numele de gazdă al nodului cluster (de exemplu: node1). În mod implicit, acest monitor component este dezactivat și ar trebui să fie activat numai în scopuri de depanare.

reconectări rețea: lungimea normală a cozii de mesaje

acest monitor returnează numărul de mesaje normale care se află în coada de așteptare pentru a fi trimise. În mod normal, acest număr este 0, dar dacă conexiunea TCP se rupe, este posibil să observați că se ridică până când conexiunea TCP este restabilită și le putem trimite pe toate.

câmpul instanță este specific instalării. Trebuie să specificați numele de gazdă al nodului cluster (de exemplu: node1). În mod implicit, acest monitor component este dezactivat și ar trebui să fie activat numai în scopuri de depanare.

reconectări rețea: lungimea cozii de mesaje urgente

acest monitor returnează numărul de mesaje urgente care se află în coada de așteptare pentru a fi trimise. În mod normal, acest număr este 0, dar dacă conexiunea TCP se rupe, este posibil să o observați urcând până când conexiunea TCP este restabilită, permițând astfel trimiterea tuturor mesajelor.

câmpul instanță este specific instalării. Trebuie să specificați numele de gazdă al nodului cluster (de exemplu: node1). În mod implicit, acest monitor component este dezactivat și ar trebui să fie activat numai în scopuri de depanare.

mesaje restante

acest monitor returnează numărul de mesaje restante MRR cluster. Valoarea returnată ar trebui să fie aproape de zero.

Resource Control Manager: grupuri online

acest monitor returnează numărul de grupuri de resurse cluster online pe acest nod. Valoarea returnată trebuie să fie peste zero în orice moment.

Resource Control Manager: procese RHS

acest monitor returnează numărul de procese subsistemului gazdă de resurse care rulează (rhs.exe). Valoarea returnată trebuie să fie peste zero în orice moment.

Resource Control Manager: RHS repornește

acest monitor returnează numărul de proces subsistem gazdă de resurse (rhs.exe) repornește.

în mod implicit, acest monitor component este dezactivat și ar trebui să fie activat numai în scopuri de depanare.

resurse: Eroare de resurse

acest monitor returnează numărul de erori de resurse. Valoarea returnată trebuie să fie cât mai mică posibil.

resurse: încălcarea accesului la eșecul resurselor

acest monitor returnează numărul de eșecuri ale resurselor cauzate de încălcarea accesului. Valoarea returnată trebuie să fie cât mai mică posibil.

în mod implicit, acest monitor component este dezactivat și ar trebui să fie activat numai în scopuri de depanare.

Resources: Resource Failure impas

acest monitor returnează numărul de eșecuri de resurse cauzate de impas. Blocajele sunt de obicei cauzate de faptul că resursa durează prea mult timp pentru a executa anumite operațiuni. Valoarea returnată trebuie să fie cât mai mică posibil.

în mod implicit, acest monitor component este dezactivat și ar trebui să fie activat numai în scopuri de depanare.

backup și restaurare probleme de funcționalitate

acest monitor returnează numărul de evenimente care apar atunci când:

    • operația de rezervă pentru datele de configurare a clusterului a fost anulată deoarece cvorumul pentru cluster nu a fost încă atins;
    • cererea de restaurare pentru datele de configurare a clusterului a eșuat în timpul etapei „pre-restaurare” sau „post-restaurare”.

tipul evenimentului: eroare. ID eveniment: 1541, 1542, 1543.

verificați următoarele condiții prealabile pentru a vă asigura că au fost îndeplinite, apoi încercați din nou operația de backup sau restaurare:

    • clusterul trebuie să atingă cvorumul. Cu alte cuvinte, suficiente noduri trebuie să ruleze și să comunice (poate cu un disc martor sau partajare de fișiere martor, în funcție de configurația cvorumului) că clusterul a obținut o majoritate, adică cvorum.
    • contul utilizat de persoana care efectuează copia de rezervă trebuie să fie în grupul administratori locali de pe fiecare server pus în cluster și trebuie să fie un cont de domeniu sau trebuie să fi fost delegată Autoritatea echivalentă.
    • în timpul unei restaurări, software-ul de restaurare trebuie să obțină acces exclusiv la baza de date de configurare a clusterului pe un nod dat. Dacă alt software are acces (mânere deschise la baza de date), restaurarea nu poate fi efectuată.

probleme de conectivitate în rețea Cluster

acest monitor returnează numărul de evenimente care apar atunci când:

  • interfața de rețea a clusterului pentru un nod de cluster dintr-o rețea specială a eșuat;
  • rețeaua de Cluster este partiționată și unele noduri de cluster de failover atașate nu pot comunica între ele prin rețea;
  • rețeaua de Cluster este dezactivată;
  • resursa adresei IP a clusterului nu a reușit;
  • încercarea de a utiliza IPv4 pentru un adaptor de rețea special a eșuat.

tipul evenimentului: avertizare și eroare. ID eveniment: 1127, 1129, 1130, 1360, 1555.

rulați Expertul validare configurare, selectând numai testele de rețea. De asemenea, verificați dispozitivele de rețea (Adaptoare, Cabluri, hub-uri, comutatoare etc.) și configurația cvorumului.

comparați proprietățile resursei adresei IP cu proprietățile rețelei corespunzătoare pentru a vă asigura că informațiile despre rețea și subrețea se potrivesc. Dacă aceasta este o resursă IPv6, asigurați-vă că rețeaua de cluster pentru această resursă are cel puțin un prefix IPv6 care nu este link-local sau tunel.

probleme de pornire a serviciului Cluster

acest monitor returnează numărul de evenimente care apar atunci când:

  • serviciul Cluster a suferit o eroare fatală neașteptată;
  • serviciul Cluster a fost oprit din cauza conectivității incomplete cu alte noduri de cluster;
  • serviciul Cluster a fost oprit pentru a preveni o inconsecvență în cluster-ul failover;
  • subsistemul gazdă de resurse Cluster (RHS) s-a oprit în mod neașteptat;
  • resursa Cluster fie s-a prăbușit, fie a fost blocată;
  • serviciul Cluster a întâmpinat o problemă neașteptată și va fi închis;
  • serviciul Cluster s-a împiedicat să pornească pe acest nod. (Acest nod nu are cea mai recentă copie a datelor de configurare cluster.)
  • motorul de membru a detectat că procesul de arbitraj pentru dispozitivul cvorumului a stagnat.

tipul evenimentului: eroare. ID eveniment: 1000, 1006, 1073, 1146, 1230, 1556, 1561, 1178.

există diverse cauze legate de software sau hardware care pot împiedica pornirea serviciului Cluster pe un nod. Uneori, serviciul Cluster poate reporni cu succes după ce a fost întrerupt de una dintre aceste cauze. Examinați jurnalele de evenimente pentru indicații ale problemei.

verificați hardware-ul și configurația rețelei. Utilizați Expertul validare configurare pentru a examina configurația rețelei.

verificați pentru a vedea ce DLL de resurse cauzează problema și raportați problema furnizorului de resurse. Luați în considerare configurarea resursei pentru a rula în propriul Monitor de resurse. Rețineți că, în timp ce o problemă cu un DLL de resurse nu se va opri serviciul de Cluster de la care rulează, se poate preveni alte DLL-uri de resurse de la care rulează excepția cazului în care resursa se execută în propriul Monitor de resurse.

încercați să porniți serviciul Cluster pe toate celelalte noduri din cluster. Dacă serviciul Cluster poate fi pornit pe un nod cu cea mai recentă copie a datelor de configurare a cluster-ului, atunci nodul care anterior nu a putut fi pornit va fi probabil capabil să obțină cea mai recentă copie și apoi să se alăture cluster-ului cu succes.

Cluster partajat probleme de funcționalitate volum

acest monitor returnează numărul de evenimente care apar atunci când:

  • volumul partajat Cluster nu mai este disponibil pe acest nod;
  • volumul partajat Cluster nu mai este accesibil direct din acest nod cluster;
  • serviciul Cluster nu a reușit să creeze directorul rădăcină Volume partajate Cluster;
  • serviciul Cluster nu a reușit să seteze permisiunile (ACL) în directorul rădăcină Volume partajate Cluster;
  • volumul partajat Cluster nu mai este accesibil din acest nod cluster;
  • serviciul Cluster nu a reușit să creeze un simbol de identitate cluster pentru volumele partajate Cluster.

tipul evenimentului: eroare. ID eveniment: 5120, 5121, 5123, 5134, 5135, 5142, 5200.

examinați evenimentele legate de comunicarea cu volumul.

verificați stocarea și configurația rețelei.

verificați crearea și permisiunile folderului Volume partajate în Cluster.

verificați comunicarea între controlerele de domeniu și noduri.

probleme de funcționalitate de stocare în Cluster

acest monitor returnează numărul de evenimente care apar atunci când:

  • resursa discului fizic Cluster nu poate fi adusă online deoarece discul asociat nu a putut fi găsit;
  • în timp ce resursa discului a fost adusă online, accesul la unul sau mai multe volume a eșuat cu o eroare;
  • sistemul de fișiere pentru una sau mai multe partiții de pe disc pentru resursă poate fi corupt;
  • resursa discului Cluster indică;
  • resursa discului Cluster conține un punct de montare nevalid.

tipul evenimentului: eroare. ID eveniment: 1034, 1035, 1037, 1066, 1208.

confirmați că discul afectat este disponibil.

verificați hardware-ul de stocare subiacent și confirmați că dispozitivul este prezentat corect nodurilor de cluster.

dacă aveți probleme cu partițiile de pe disc sau corupție, vă recomandăm să rulați Chkdsk, astfel încât să poată corecta orice probleme cu sistemul de fișiere.

confirmați că discul montat este configurat conform următoarelor instrucțiuni:

discurile grupate pot fi montate numai pe discuri grupate (nu pe discuri locale);

discul montat și discul pe care este montat trebuie să facă parte din același serviciu sau aplicație grupate. Ele nu pot fi în două servicii sau aplicații diferite grupate și nu pot fi în grupul general de stocare disponibil în cluster.

probleme Cluster martor

acest monitor returnează numărul de evenimente care au loc atunci când:

  • serviciul Cluster nu a reușit să actualizeze datele de configurare cluster pe resursa martor din cauza inaccesibilității resurselor;
  • serviciul Cluster detectat o problemă cu resursa martor;
  • resursa martor partajare de fișiere nu a reușit un control periodic de sănătate;
  • resursa martor partajare de fișiere nu a reușit să vină on-line;
  • resursa martor partajare de fișiere nu a reușit să arbitreze pentru partajarea de fișiere specifice;
  • nodul nu a reușit să formeze un cluster, deoarece martorul nu era accesibil.

tipul evenimentului: eroare. ID eveniment: 1557, 1558, 1562, 1563, 1564, 1573.

confirmați accesibilitatea martorilor vizualizând configurația cvorumului unui cluster failover și starea unui disc martor.

probleme de disponibilitate a configurației

acest monitor returnează numărul de evenimente care apar atunci când:

  • baza de date de configurare cluster nu a putut fi încărcată sau descărcată;
  • serviciul cluster nu poate porni din cauza încercărilor eșuate de citire a datelor de configurare.

tipul evenimentului: eroare. ID eveniment: 1057, 1090, 1574, 1575, 1593.

când configurația clusterului pe un nod lipsește sau este coruptă, serviciul Cluster nu poate încărca configurația și, prin urmare, nu poate porni. Acolo unde este posibil, serviciul Cluster va obține cea mai recentă configurație de cluster de la alte noduri din cluster. Asigurați-vă că alte noduri sunt pornite. Dacă singurul nod sau noduri care pot fi pornite par să aibă o bază de date de configurare a clusterului lipsă sau coruptă, va trebui probabil să restaurați unul dintre noduri dintr-o copie de rezervă a stării sistemului. (Pentru un nod de cluster failover, backup-ul de Stat al sistemului include configurația clusterului.) Uneori, când nodul încearcă să descarce baza de date de configurare a clusterului, acțiunea nu se finalizează complet. Încercați să opriți și să reporniți serviciul Cluster. Dacă acest lucru nu reușește, reporniți sistemul de operare pe nodul afectat.

probleme de disponibilitate a resurselor spațiului de nume DFS

acest monitor returnează numărul de evenimente care apar atunci când:

  • crearea DFS namespace root a eșuat cu eroare;
  • resincronizarea țintei rădăcină DFS a eșuat cu eroare;
  • resursa de partajare a fișierelor cluster pentru spațiul de nume DFS nu poate fi introdusă online din cauza unei erori.

tipul evenimentului: eroare. ID eveniment: 1138, 1141, 1142.
verificați configurația spațiului de nume DFS.

Setări criptate pentru resursa Cluster nu s-a putut aplica

acest monitor returnează numărul de evenimente când setările criptate pentru o resursă cluster nu au putut fi aplicate cu succes containerului de pe acest nod.

tipul evenimentului: eroare. ID eveniment: 1121.

Închideți orice aplicație care ar putea avea un mâner deschis la punctul de control al Registrului indicat de eveniment. Acest lucru va permite ca cheia de registry să fie reprodusă așa cum este configurată cu proprietățile resursei. Dacă este necesar, contactați furnizorul aplicației despre această problemă. Puteți utiliza un utilitar numit mâner cu opțiunea-a pentru a vizualiza mânerele în registru.

nu a reușit să formeze Cluster

acest monitor returnează numărul de evenimente nu a reușit să formeze cluster.

tipul evenimentului: eroare. ID eveniment: 1092, 1009.

este posibil să puteți corecta această problemă prin repornirea serviciului Cluster.

File Share resource Availability probleme

acest monitor returnează numărul de evenimente care apar atunci când:

  • partajarea de fișiere Cluster nu poate fi introdusă online deoarece nu a putut fi creată o partajare de fișiere;
  • preluarea informațiilor pentru o anumită partajare a returnat un cod de eroare;
  • preluarea informațiilor pentru o anumită partajare a indicat că partajarea nu există;
  • crearea unei partajări de fișiere a eșuat din cauza unei erori;
  • resursa de partajare a fișierelor Cluster a detectat conflicte de foldere partajate;
  • resursa serverului de fișiere Cluster nu a reușit o verificare de sănătate, deoarece unele dintre folderele sale partajate erau inaccesibile.

tipul evenimentului: avertizare și eroare. ID eveniment: 1053, 1054, 1055, 1068, 1560, 1585, 1586, 1587, 1588.

confirmați că partajarea există și că permisiunile permit accesul la partajare.

dacă este posibil, determinați dacă calea către partajare a fost modificată. Dacă da, recreați cota cu numele corect.

Vizualizați toate resursele din instanța serverului de fișiere pus în cluster pentru a vă asigura că acestea vin online și examinați dependențele dintre resurse. Reconfigurați după cum este necesar pentru a corecta orice probleme.

asigurați-vă că nu există două foldere partajate care să aibă același nume de partajare.

verificați accesibilitatea folderului partajat și starea serviciului Server.

aplicația generică nu a putut fi adusă Online

acest monitor returnează numărul de evenimente care apar atunci când o aplicație generică nu a putut fi adusă online în timpul unei încercări de a crea procesul datorită; aplicația nu este prezentă pe acest nod, un nume de cale incorect sau un nume binar incorect.

tipul evenimentului: eroare. ID eveniment: 1039.

confirmați că următoarele sunt adevărate pentru aplicația utilizată de instanța de aplicație generică grupată:

  • aplicația este complet instalată pe toate nodurile care sunt posibili proprietari ai resursei aplicației generice;
  • configurația resursei aplicației generice specifică aplicația și calea corectă;
  • configurația pentru resursa de aplicație generică specifică parametrii și setările corespunzătoare pentru replicarea registrului.

probleme de disponibilitate a resurselor de servicii generice

acest monitor returnează numărul de evenimente care apar atunci când:

  • serviciul generic fie nu este instalat, fie numele serviciului specificat este nevalid;
  • parametrii serviciului generic specificați pot fi nevalabili;
  • serviciul generic a eșuat cu o eroare.

tipul evenimentului: eroare. ID eveniment: 1040, 1041, 1042.

confirmați că serviciul corect este specificat în configurația pentru resursa serviciului Generic și confirmați că serviciul este complet instalat pe toate nodurile care sunt posibili proprietari ai resursei.

verificați funcționarea serviciului și examinați Jurnalul de evenimente al aplicației.

adresa IP probleme de disponibilitate a resurselor

acest monitor returnează numărul de evenimente care apar atunci când:

  • resursa de adresă IP Cluster nu poate fi adusă online deoarece valoarea măștii de subrețea este nevalidă;
  • resursa adresei IP a clusterului nu poate fi adusă online deoarece valoarea adresei este nevalidă;
  • datele de configurare pentru adaptorul de rețea corespunzător interfeței de rețea a clusterului nu au putut fi determinate;
  • resursa adresei IP a clusterului nu poate fi adusă online deoarece a fost detectată o adresă IP duplicată în rețea;
  • resursa adresei IP a clusterului nu poate fi adusă online deoarece wins registration;
  • închirierea adresei IP asociate resursei adresei IP a clusterului a expirat sau este pe cale să expire și în prezent nu poate fi reînnoită;
  • resursa adresei tunelului IPv6 nu a reușit să intre online, deoarece nu depinde de o resursă de adresă IP (IPv4);
  • rețeaua de Cluster asociată resursei adresei IP dependente (IPv4) nu acceptă tunelarea ISATAP.

tipul evenimentului: eroare. ID eveniment: 1046, 1047, 1048, 1049, 1078, 1242, 1361, 1363.

verificați proprietățile adresei, subrețelei și rețelei resursei adresei IP.

dacă resursa este o resursă de adresă tunel IPv6, asigurați-vă că aceasta depinde de cel puțin o resursă de adresă IP (IPv4). De asemenea, asigurați-vă că rețeaua acceptă tunelul Intra-Site Automatic Tunnel Addressing Protocol (ISATAP).

dacă resursa adresei IP pare să fie configurată corect, verificați starea adaptoarelor de rețea și a altor componente de rețea utilizate de cluster.

probleme de conectivitate și configurare a rețelei

acest monitor returnează numărul de evenimente care apar atunci când:

  • serviciul Cluster nu a putut accesa adaptorul de rețea sau nodul cluster nu are conectivitate la rețea;
  • nodul Cluster nu are conectivitate la rețea;
  • nodul Cluster a pierdut toată conectivitatea la rețea;
  • adaptorul virtual cluster failover nu a reușit să inițializeze adaptorul miniport.

tipul evenimentului: eroare. ID eveniment: 1289, 1553, 1554, 4871.

corectați orice probleme cu adaptoarele de rețea fizice și adaptorul virtual cluster. Dacă o modificare anterioară a configurației interferează cu funcția adaptorului virtual cluster, ar putea fi necesar să reinstalați caracteristica Failover clustering pe nod. De asemenea, utilizați Expertul validare configurare pentru a examina configurația rețelei.

nod nu a reușit să se alăture Cluster

acest monitor returnează numărul de evenimente care apar atunci când nodul nu a reușit să se alăture cluster failover din cauza unei erori.

tipul evenimentului: eroare. ID eveniment: 1070.

este posibil să puteți corecta această problemă prin repornirea serviciului Cluster.

probleme cu serviciul Cluster

acest monitor returnează numărul de evenimente care apar atunci când:

  • resursa cluster din serviciul sau aplicația cluster a eșuat;
  • serviciul Cluster nu a reușit să aducă serviciul sau aplicația Cluster complet online sau offline și una sau mai multe resurse pot fi într-o stare eșuată.

tipul evenimentului: avertizare și eroare. ID eveniment: 1039, 1205.

Verificați și corectați orice probleme cu aplicația sau serviciul asociat resursei.

Verificați și corectați orice probleme cu cablurile sau dispozitivele legate de cluster.

ajustați proprietățile resursei în configurația cluster, în special valoarea pentru Timeout-ul în așteptare pentru resursă. Această valoare trebuie să permită suficient timp pentru ca aplicația sau serviciul asociat să înceapă.
Verificați starea tuturor resurselor din serviciul sau aplicația grupată.

Cvorumul a fost pierdut

acest monitor returnează numărul de evenimente care au loc atunci când serviciul Cluster se închide deoarece cvorumul a fost pierdut.

tipul evenimentului: eroare. ID eveniment: 1177.

acest lucru se poate întâmpla atunci când conectivitatea la rețea se pierde între unele sau toate nodurile din cluster sau discul martor eșuează. De asemenea, poate apărea dacă efectuați o modificare în configurația clusterului, cum ar fi creșterea numărului de noduri, când numărul de noduri online în prezent este prea mic pentru a obține cvorum în noua configurație. Rulați Expertul validare configurare, selectând numai testele de rețea. De asemenea, verificați dispozitivele de rețea (Adaptoare, Cabluri, hub-uri, comutatoare etc.) și configurația cvorumului.

punctul de control al Registrului nu a putut fi restabilit la cheia de Registry

acest monitor returnează numărul de evenimente care apar atunci când punctul de control al Registrului pentru resursa Cluster nu a putut fi restabilit la o cheie de registry.

tipul evenimentului: eroare. ID eveniment: 1024.

Închideți orice aplicație care ar putea avea un mâner deschis la punctul de control al Registrului indicat de eveniment. Acest lucru va permite ca cheia de registry să fie reprodusă așa cum este configurată cu proprietățile resursei. Dacă este necesar, contactați furnizorul aplicației despre această problemă. Puteți utiliza un utilitar numit mâner cu opțiunea-a pentru a vizualiza mânerele în registru.

sistemul nu răspunde

acest monitor returnează numărul de evenimente care apar atunci când adaptorul virtual cluster failover a pierdut contactul cu procesul.

tipul evenimentului: eroare. ID eveniment: 4869, 4870.

Write a Comment

Adresa ta de email nu va fi publicată.