Clúster de conmutación por error de Microsoft Windows Server 2008

Esta plantilla evalúa el estado y el rendimiento general de un clúster de conmutación por error de Microsoft Windows 2008 recuperando información de los contadores de rendimiento y el Registro de eventos del sistema Windows. Para obtener más información, consulte el siguiente artículo de Microsoft: http://technet.microsoft.com/en-us/library/cc720058%28WS.10%29.aspx.

Requisitos previos

Acceso WMI al servidor de destino.

Credenciales

Administrador de Windows en el servidor de destino.

Todos los monitores de registro de eventos de Windows deben devolver valores cero. Los valores devueltos que no sean cero indican una anomalía. El examen de los archivos de registro del sistema Windows debe proporcionar información relacionada con el problema. Puede encontrar información detallada sobre estos eventos aquí: http://technet.microsoft.com/en-us/library/dd353290(WS.10).aspx.

Monitores de componentes

Haga clic aquí para obtener información general sobre las plantillas de monitores de aplicaciones SAM y los monitores de componentes. Las plantillas de sondeo de API de SAM también están disponibles.

Debe establecer umbrales para los contadores de acuerdo con su entorno. Se recomienda supervisar los contadores durante un período de tiempo para comprender los rangos de valores potenciales y, a continuación, establecer los umbrales en consecuencia.

Servicio: Hora de Windows

Este monitor devuelve el uso de CPU y memoria del servicio de hora de Windows. Este servicio mantiene la sincronización de fecha y hora en todos los clientes y servidores de la red. Si se detiene este servicio, la sincronización de fecha y hora no estará disponible. Si este servicio está deshabilitado, cualquier servicio que dependa explícitamente de él no se iniciará.

Servicio: Servicio de clúster

Este monitor devuelve el uso de CPU y memoria del servicio de clúster. Este servicio permite que los servidores trabajen juntos como un clúster para mantener las aplicaciones basadas en servidores altamente disponibles, independientemente de los fallos de los componentes individuales. Si se detiene este servicio, la agrupación en clúster no estará disponible. Si este servicio está deshabilitado, cualquier servicio que dependa explícitamente de él no se iniciará.

Reconexiones de red: Recuento de reconectaciones

Este monitor devuelve el número de veces que los nodos se han reconectado.

El campo de instancia es específico de la instalación. Debe especificar el nombre de host del nodo del clúster (por ejemplo: node1). De forma predeterminada, este monitor de componentes está deshabilitado y solo debe habilitarse para solucionar problemas.

Reconexiones de red: Longitud normal de la cola de mensajes

Este monitor devuelve el número de mensajes normales que están en la cola esperando a ser enviados. Normalmente este número es 0, pero si la conexión TCP se rompe, puede observar que está subiendo hasta que se restablezca la conexión TCP y podamos enviarlos a todos.

El campo de instancia es específico de la instalación. Debe especificar el nombre de host del nodo del clúster (por ejemplo: node1). De forma predeterminada, este monitor de componentes está deshabilitado y solo debe habilitarse para solucionar problemas.

Reconexiones de red: Longitud de la cola de mensajes urgentes

Este monitor devuelve el número de mensajes urgentes que están en la cola esperando a ser enviados. Normalmente, este número es 0, pero si la conexión TCP se rompe, es posible que observe que sube hasta que se restablezca la conexión TCP, lo que permite enviar todos los mensajes.

El campo de instancia es específico de la instalación. Debe especificar el nombre de host del nodo del clúster (por ejemplo: node1). De forma predeterminada, este monitor de componentes está deshabilitado y solo debe habilitarse para solucionar problemas.

Mensajes pendientes

Este monitor devuelve el número de mensajes pendientes MRR de clúster. El valor devuelto debe ser cercano a cero.

Administrador de control de recursos: Grupos en línea

Este monitor devuelve el número de grupos de recursos de clúster en línea en este nodo. El valor devuelto debe estar por encima de cero en todo momento.

Administrador de control de recursos: Procesos RHS

Este monitor devuelve el número de procesos de subsistema de host de recursos en ejecución (rhs.exe). El valor devuelto debe estar por encima de cero en todo momento.

Administrador de control de recursos: RHS reinicia

Este monitor devuelve el número de procesos del subsistema de host de recursos (rhs.exe) se reinicia.

De forma predeterminada, este monitor de componentes está deshabilitado y solo debe habilitarse para solucionar problemas.

Recursos: Error de recursos

Este monitor devuelve el número de errores de recursos. El valor devuelto debe ser lo más bajo posible.

Recursos: Violación de acceso por error de recursos

Este monitor devuelve el número de errores de recursos causados por la violación de acceso. El valor devuelto debe ser lo más bajo posible.

De forma predeterminada, este monitor de componentes está deshabilitado y solo debe habilitarse para solucionar problemas.

Recursos: Bloqueo de fallos de recursos

Este monitor devuelve el número de fallos de recursos causados por el bloqueo de recursos. Los bloqueos se deben generalmente a que el recurso tarda demasiado en ejecutar ciertas operaciones. El valor devuelto debe ser lo más bajo posible.

De forma predeterminada, este monitor de componentes está deshabilitado y solo debe habilitarse para solucionar problemas.

Problemas de funcionalidad de copia de seguridad y restauración

Este monitor devuelve el número de eventos que se producen cuando:

    • Se ha cancelado la operación de copia de seguridad de los datos de configuración del clúster porque aún no se ha alcanzado el quórum para el clúster;
    • La solicitud de restauración de los datos de configuración del clúster ha fallado durante la etapa de «restauración previa» o «restauración posterior».

Tipo de evento: Error. ID de evento: 1541, 1542, 1543.

Compruebe las siguientes condiciones previas para asegurarse de que se han cumplido y, a continuación, vuelva a intentar la operación de copia de seguridad o restauración:

    • El grupo debe alcanzar quórum. En otras palabras, se deben estar ejecutando y comunicando suficientes nodos (tal vez con un disco testigo o un recurso compartido de archivos testigo, dependiendo de la configuración de quórum) para que el clúster haya alcanzado la mayoría, es decir, el quórum.
    • La cuenta utilizada por la persona que realiza la copia de seguridad debe estar en el grupo Administradores local de cada servidor en clúster y debe ser una cuenta de dominio o debe haber sido delegada la autoridad equivalente.
    • Durante una restauración, el software de restauración debe obtener acceso exclusivo a la base de datos de configuración del clúster en un nodo determinado. Si otro software tiene acceso (controladores abiertos a la base de datos), la restauración no se puede realizar.

Problemas de conectividad de red de clúster

Este monitor devuelve el número de eventos que se producen cuando:

  • Error de la interfaz de red de clúster para algún nodo de clúster en una red especial;
  • La red de clúster está dividida y algunos nodos de clúster de conmutación por error conectados no se pueden comunicar entre sí a través de la red;
  • La red de clúster está inactiva;
  • El recurso de dirección IP del clúster no pudo conectarse;
  • Falló el intento de usar IPv4 para un adaptador de red especial.

Tipo de evento: Advertencia y Error. ID de Evento: 1127, 1129, 1130, 1360, 1555.

Ejecute el Asistente Validar una configuración, seleccionando solo las pruebas de red. Compruebe también los dispositivos de red (adaptadores, cables, concentradores, conmutadores, etc.) y la configuración de quórum.

Compare las propiedades del recurso de dirección IP con las propiedades de la red correspondiente para asegurarse de que la información de la red y de la subred coincida. Si se trata de un recurso IPv6, asegúrese de que la red de clúster de este recurso tenga al menos un prefijo IPv6 que no sea local de enlace o túnel.

Problemas de inicio del servicio de clúster

Este monitor devuelve el número de eventos que se producen cuando:

  • El servicio de clúster sufrió un error fatal inesperado;
  • El servicio de clúster se detuvo debido a una conectividad incompleta con otros nodos de clúster;
  • El servicio de clúster se detuvo para evitar una incoherencia dentro del clúster de conmutación por error;
  • El subsistema de host de recursos de clúster (RHS) se detuvo inesperadamente;
  • El recurso de clúster se bloqueó o bloqueó;
  • El servicio de clúster se encontró con un problema inesperado y se apagará;
  • El servicio de clúster no se ha podido iniciar en este nodo. (Este nodo no tiene la copia más reciente de los datos de configuración del clúster.)
  • El motor de membresía detectó que el proceso de arbitraje para el dispositivo de quórum se ha estancado.

Tipo de evento: Error. ID de Evento: 1000, 1006, 1073, 1146, 1230, 1556, 1561, 1178.

Hay varias causas relacionadas con el software o el hardware que pueden impedir que el servicio de clúster se inicie en un nodo. A veces, el servicio de clúster puede reiniciarse correctamente después de que se haya interrumpido por una de esas causas. Revise los registros de eventos para obtener indicaciones del problema.

Compruebe el hardware y la configuración de la red. Utilice el Asistente para Validar una configuración para revisar la configuración de red.

Compruebe qué DLL de recurso está causando el problema e informe del problema al proveedor de recursos. Considere configurar el recurso para que se ejecute en su propio Monitor de recursos. Tenga en cuenta que, si bien un problema con una DLL de recursos no detendrá la ejecución del servicio de clúster, puede impedir que se ejecuten otras DLL de recursos a menos que el recurso se ejecute en su propio Monitor de recursos.

Intente iniciar el servicio de clúster en todos los demás nodos del clúster. Si el servicio de clúster se puede iniciar en un nodo con la copia más reciente de los datos de configuración del clúster, es probable que el nodo que no se pudo iniciar anteriormente pueda obtener la copia más reciente y luego unirse al clúster correctamente.

Problemas de funcionalidad de volumen compartido de clúster

Este monitor devuelve el número de eventos que se producen cuando:

  • El Volumen compartido de clúster ya no está disponible en este nodo;
  • El Volumen compartido de clúster ya no es accesible directamente desde este nodo de clúster;
  • El servicio de clúster no pudo crear el directorio raíz de Volúmenes compartidos de clúster;
  • El servicio de clúster no pudo establecer los permisos (ACL) en el directorio raíz de volúmenes compartidos de clúster;
  • El Volumen compartido de clúster ya no es accesible desde este nodo de clúster;
  • El servicio de clúster no pudo crear un token de identidad de clúster para volúmenes compartidos de clúster.

Tipo de evento: Error. ID de Evento: 5120, 5121, 5123, 5134, 5135, 5142, 5200.

Revise los eventos relacionados con la comunicación con el volumen.

Compruebe la configuración de almacenamiento y red.

Compruebe la creación y los permisos de carpetas de volúmenes compartidos de clúster.

Comprobar la comunicación entre los controladores de dominio y los nodos.

Problemas de funcionalidad de almacenamiento en clúster

Este monitor devuelve el número de eventos que se producen cuando:

  • El recurso de disco físico del clúster no se puede conectar porque no se pudo encontrar el disco asociado;
  • Mientras se conectaba el recurso de disco, el acceso a uno o más volúmenes falló con un error;
  • El sistema de archivos de una o más particiones del disco para el recurso puede estar dañado;
  • El recurso de disco del clúster indica daños para un volumen específico;
  • El recurso de disco del clúster contiene un punto de montaje no válido.

Tipo de evento: Error. ID de Evento: 1034, 1035, 1037, 1066, 1208.

Confirme que el disco afectado está disponible.

Compruebe el hardware de almacenamiento subyacente y confirme que el dispositivo se presenta correctamente en los nodos del clúster.

Si tiene problemas con particiones en el disco o daños, le recomendamos que ejecute Chkdsk para que pueda corregir cualquier problema con el sistema de archivos.

Confirme que el disco montado está configurado de acuerdo con las siguientes directrices:

Los discos en clúster solo se pueden montar en discos en clúster (no en discos locales);

El disco montado y el disco en el que se monta deben formar parte del mismo servicio o aplicación en clúster. No pueden estar en dos servicios o aplicaciones en clúster diferentes y no pueden estar en el grupo general de Almacenamiento Disponible en el clúster.

Problemas de testigos de clúster

Este monitor devuelve el número de eventos que se producen cuando:

  • El servicio de clúster no pudo actualizar los datos de configuración del clúster en el recurso testigo debido a la inaccesibilidad de los recursos;
  • El servicio de clúster detectó un problema con el recurso testigo;
  • El recurso Testigo del recurso Compartido de archivos falló una comprobación de estado periódica;
  • El recurso Testigo del recurso compartido de archivos no se conectó;
  • El recurso Testigo del recurso compartido de archivos no se arbitró para el recurso compartido de archivos específico;
  • El nodo no pudo formar un clúster porque el testigo no era accesible.

Tipo de evento: Error. ID de Evento: 1557, 1558, 1562, 1563, 1564, 1573.

Confirme la accesibilidad de testigos visualizando la configuración de quórum de un clúster de conmutación por error y el estado de un disco testigo.

Problemas de disponibilidad de configuración

Este monitor devuelve el número de eventos que se producen cuando:

  • La base de datos de configuración de clúster no se pudo cargar ni descargar;
  • El servicio de clúster no se puede iniciar debido a intentos fallidos de leer los datos de configuración.

Tipo de evento: Error. ID de Evento: 1057, 1090, 1574, 1575, 1593.

Cuando falta o está dañada la configuración del clúster en un nodo, el servicio de clúster no puede cargar la configuración y, por lo tanto, no se puede iniciar. Siempre que sea posible, el servicio de clúster obtendrá la configuración de clúster más reciente de otros nodos del clúster. Asegúrese de que se inicien otros nodos. Si el único nodo o nodos que se pueden iniciar parecen tener una base de datos de configuración de clúster faltante o dañada, es probable que necesite restaurar uno de los nodos desde una copia de seguridad del estado del sistema. (Para un nodo de clúster de conmutación por error, la copia de seguridad del estado del sistema incluye la configuración del clúster.) A veces, cuando el nodo intenta descargar la base de datos de configuración del clúster, la acción no se completa por completo. Intente detener y reiniciar el servicio de clúster. Si esto no tiene éxito, reinicie el sistema operativo en el nodo afectado.

Problemas de disponibilidad de recursos del espacio de nombres DFS

Este monitor devuelve el número de eventos que se producen cuando:

  • La creación de la raíz del espacio de nombres DFS falló con error;
  • La resincronización del destino raíz DFS falló con error;
  • El recurso compartido de archivos de clúster para el espacio de nombres DFS no se puede poner en línea debido a un error.

Tipo de evento: Error. ID de evento: 1138, 1141, 1142.
Compruebe la configuración del espacio de nombres DFS.

No se pudo aplicar la configuración cifrada de un recurso de clúster

Este monitor devuelve el número de eventos cuando la configuración cifrada de un recurso de clúster no se pudo aplicar correctamente al contenedor de este nodo.

Tipo de evento: Error. ID de evento: 1121.

Cierre cualquier aplicación que pueda tener un identificador abierto al punto de control del registro indicado por el evento. Esto permitirá replicar la clave del registro tal y como está configurada con las propiedades del recurso. Si es necesario, póngase en contacto con el proveedor de la aplicación sobre este problema. Puede usar una utilidad llamada Manejador con la opción-a para ver los manejadores en el registro.

No se pudo formar el clúster

Este monitor devuelve el número de eventos de clúster que no se pudieron formar.

Tipo de evento: Error. ID de evento: 1092, 1009.

Es posible que pueda corregir este problema reiniciando el servicio de clúster.

Problemas de disponibilidad de recursos compartidos de archivos

Este monitor devuelve el número de eventos que se producen cuando:

  • El recurso compartido de archivos de clúster no se puede poner en línea porque no se pudo crear un recurso compartido de archivos;
  • La recuperación de información para un recurso compartido específico devolvió un código de error;
  • La recuperación de información para un recurso compartido específico indicó que el recurso compartido no existe;
  • ;
  • El recurso compartido de archivos de clúster ha detectado conflictos de carpetas compartidas;
  • El recurso del servidor de archivos de clúster ha fallado en una comprobación de estado porque algunas de sus carpetas compartidas eran inaccesibles.

Tipo de evento: Advertencia y Error. ID de Evento: 1053, 1054, 1055, 1068, 1560, 1585, 1586, 1587, 1588.

Confirme que el recurso compartido existe y que los permisos permiten el acceso al recurso compartido.

Si es posible, determine si se ha cambiado la ruta al recurso compartido. Si es así, vuelva a crear el recurso compartido con el nombre correcto.

Vea todos los recursos de la instancia de servidor de archivos en clúster para asegurarse de que se están conectando y revise las dependencias entre los recursos. Reconfigure según sea necesario para corregir cualquier problema.

Asegúrese de que no haya dos carpetas compartidas con el mismo nombre compartido.

Compruebe la accesibilidad de carpetas compartidas y el Estado del servicio del servidor.

La aplicación genérica no se pudo poner en línea

Este monitor devuelve el número de eventos que ocurren cuando una aplicación genérica no se pudo poner en línea durante un intento de crear el proceso debido a; la aplicación no está presente en este nodo, un nombre de ruta incorrecto o un nombre binario incorrecto.

Tipo de evento: Error. ID de evento: 1039.

Confirme que lo siguiente es válido para la aplicación utilizada por la instancia de aplicación Genérica en clúster:

  • La aplicación está completamente instalada en todos los nodos que son posibles propietarios del recurso de aplicación Genérico;
  • La configuración del recurso de aplicación Genérico especifica la aplicación y la ruta de acceso correctas;
  • La configuración del recurso de aplicación genérico especifica los parámetros y la configuración adecuados para la replicación del registro.

Problemas de disponibilidad de Recursos de Servicio Genérico

Este monitor devuelve el número de eventos que se producen cuando:

  • El servicio genérico no está instalado o el nombre de servicio especificado no es válido;
  • Los parámetros de servicio genérico especificados pueden no ser válidos;
  • El servicio genérico falló con un error.

Tipo de evento: Error. ID de evento: 1040, 1041, 1042.

Confirme que el servicio correcto está especificado en la configuración para el recurso de servicio genérico y confirme que el servicio está completamente instalado en todos los nodos que sean posibles propietarios del recurso.

Compruebe el funcionamiento del servicio y examine el registro de eventos de la aplicación.

Problemas de disponibilidad de recursos de direcciones IP

Este monitor devuelve el número de eventos que se producen cuando:

  • El recurso de dirección IP del clúster no se puede poner en línea porque el valor de la máscara de subred no es válido;
  • El recurso de dirección IP del clúster no se puede conectar porque el valor de la dirección no es válido;
  • No se pudieron determinar los datos de configuración del adaptador de red correspondiente a la interfaz de red del clúster;
  • El recurso de dirección IP del clúster no se puede conectar porque se detectó una dirección IP duplicada en la red;
  • El recurso de dirección IP del clúster no se puede conectar porque el registro WINS;
  • El arrendamiento de la dirección IP asociada con el recurso de dirección IP del clúster ha caducado o está a punto de caducar y actualmente no se puede renovar;
  • El recurso de dirección de túnel IPv6 no se pudo conectar porque no depende de un recurso de dirección IP (IPv4);
  • La red de clúster asociada con el recurso de dirección IP dependiente (IPv4) no admite la tunelización ISATAP.

Tipo de evento: Error. ID de Evento: 1046, 1047, 1048, 1049, 1078, 1242, 1361, 1363.

Compruebe las propiedades de dirección, subred y red del recurso de dirección IP.

Si el recurso es un recurso de dirección de túnel IPv6, asegúrese de que depende de al menos un recurso de dirección IP (IPv4). También asegúrese de que la red admita la tunelización del Protocolo de Direccionamiento Automático de Túneles (ISATAP) Dentro del Sitio.

Si el recurso de dirección IP parece estar configurado correctamente, compruebe el estado de los adaptadores de red y otros componentes de red utilizados por el clúster.

Problemas de configuración y conectividad de red

Este monitor devuelve el número de eventos que se producen cuando:

  • El servicio de clúster no pudo acceder al adaptador de red o el nodo de clúster no tiene conectividad de red;
  • El nodo de clúster no tiene conectividad de red;
  • El nodo de clúster ha perdido toda la conectividad de red;
  • El adaptador virtual de clúster de conmutación por error no pudo inicializar el adaptador de minipuerto.

Tipo de evento: Error. ID de evento: 1289, 1553, 1554, 4871.

Corrija cualquier problema con los adaptadores de red físicos y el adaptador virtual de clúster. Si un cambio anterior en la configuración interfiere con la función del adaptador virtual de clúster, puede ser necesario reinstalar la función de clúster de conmutación por error en el nodo. Además, utilice el Asistente para Validar una configuración para revisar la configuración de red.

El nodo no pudo unirse al clúster

Este monitor devuelve el número de eventos que se producen cuando el nodo no pudo unirse al clúster de conmutación por error debido a un error.

Tipo de evento: Error. ID de evento: 1070.

Es posible que pueda corregir este problema reiniciando el servicio de clúster.

Problemas con el servicio de clúster

Este monitor devuelve el número de eventos que se producen cuando:

  • Error en el recurso de clúster del servicio o la aplicación en clúster;
  • Error en el servicio de clúster al conectar o desconectar completamente el servicio o la aplicación en clúster y es posible que uno o más recursos se encuentren en un estado de error.

Tipo de evento: Advertencia y Error. ID de evento: 1039, 1205.

Compruebe y corrija cualquier problema con la aplicación o el servicio asociado al recurso.

Compruebe y corrija cualquier problema con cables o dispositivos relacionados con el clúster.

Ajuste las propiedades del recurso en la configuración del clúster, especialmente el valor del Tiempo de espera pendiente del recurso. Este valor debe permitir el tiempo suficiente para que se inicie la aplicación o el servicio asociado.
Compruebe el estado de todos los recursos del servicio o la aplicación en clúster.

Se perdió quórum

Este monitor devuelve el número de eventos que se producen cuando el servicio de clúster se apaga porque se perdió quórum.

Tipo de evento: Error. ID de Evento: 1177.

Esto puede ocurrir cuando se pierde la conectividad de red entre algunos o todos los nodos del clúster, o cuando el disco testigo falla. También puede ocurrir si realiza un cambio en la configuración del clúster, como aumentar el número de nodos, cuando el número de nodos actualmente en línea es demasiado pequeño para lograr quórum en la nueva configuración. Ejecute el Asistente Validar una configuración, seleccionando solo las pruebas de red. Compruebe también los dispositivos de red (adaptadores, cables, concentradores, conmutadores, etc.).) y configuración de quórum.

El punto de control del registro no se pudo restaurar a la clave del registro

Este monitor devuelve el número de eventos que se producen cuando el punto de control del registro para el recurso del clúster no se pudo restaurar a una clave del registro.

Tipo de evento: Error. ID de evento: 1024.

Cierre cualquier aplicación que pueda tener un identificador abierto al punto de control del registro indicado por el evento. Esto permitirá replicar la clave del registro tal y como está configurada con las propiedades del recurso. Si es necesario, póngase en contacto con el proveedor de la aplicación sobre este problema. Puede usar una utilidad llamada Manejador con la opción-a para ver los manejadores en el registro.

El sistema no responde

Este monitor devuelve el número de eventos que se producen cuando el adaptador virtual de clúster de conmutación por error ha perdido contacto con el proceso.

Tipo de evento: Error. ID de evento: 4869, 4870.

Write a Comment

Tu dirección de correo electrónico no será publicada.