Cómo Bloquear Rastreadores, Arañas y Bots de Sitios Web

no permitir rastreadores web

Bloquear rastreadores web

La única cosa que he notado a menudo es que, si bien un letrero de No entrada es suficiente para evitar que las personas invadan un área restringida, no es un plan absolutamente infalible. Siempre habrá algunas personas que tendrán completo desprecio por este letrero y se aventurarán en el área restringida. Usando los robots.el archivo txt para rechazar rastreadores de un determinado sitio web es similar. Mientras que las instrucciones en los robots.el archivo txt no permitirá que rastreadores, arañas y bots rastreen su sitio web.no establece ningún tipo de mandato. Existe la posibilidad de que algunas arañas sigan rastreando tu página. Por lo tanto, es necesario bloquear los rastreadores.

En un artículo anterior escribimos sobre Cómo Rechazar Rastreadores, Arañas y Bots de sitios Web. Si bien este método es eficiente, claramente no parece ser suficiente. Por lo tanto, para resolver este problema que surge, tendremos que llegar a un acuerdo y voy a proporcionarles precisamente eso. Ahora, en lugar de rechazar a los rastreadores con instrucciones en los robots.archivo txt vamos a bloquear rastreadores.

El método dado a continuación para bloquear rastreadores ha sido probado en Apache 2.4.7 (instalado en Ubuntu). Espero que funcione con Apache 2.4.x. Si no puede implementar los métodos que se indican a continuación en su Apache, escríbame en la sección de comentarios. Por favor, proporcione información sobre su versión de Apache y el sistema operativo del servidor. Si va a proporcionar información confidencial, puede escribirme a: [email protected].

Autenticación básica HTTP para Bloquear rastreadores

El primer método que voy a demostrar para bloquear rastreadores es el uso de Autenticación básica HTTP. A veces, es posible que haya encontrado el cuadro de autenticación cuando intenta acceder a algunos sitios web como la imagen que se muestra a continuación.

 Http-Authentication-block-crawlers

Ventana emergente de autenticación para el sitio web

El cuadro anterior aparece cuando se implementa la autenticación HTTP. Para implementar esto, debe editar el archivo de configuración de virtualhost de su dominio.

Crear un archivo de contraseña

El primer paso es crear un archivo de contraseña que contenga el nombre de usuario y la contraseña. Conéctese a su servidor usando SSH y ejecute el siguiente comando

 htpasswd-c < path_of_the_password_file>< nombre de usuario>

Reemplace < path_of_the_password_file> con la ubicación donde desea crear un archivo que almacene la combinación de nombre de usuario y contraseña en formato cifrado. En aras de la explicación, supongamos que proporciona una ruta /home/tahseen/Desktop. Reemplace <nombre de usuario> con el nombre de usuario que desee. Para fines de demostración, voy a crear un nombre de usuario wisdmlabs. Así que ahora su comando debería verse como abajo.

 htpasswd - c / home / tahseen / Desktop / password wisdmlabs

Después de reemplazar la ubicación del archivo de contraseña y el nombre de usuario en el comando anterior, presione entrar. Le pediría la contraseña del nombre de usuario que desea agregar. Proporcione una contraseña y presione enter. Después de agregar el nombre de usuario al archivo, se mostrará un mensaje Agregando la contraseña para el usuario <nombre de usuario>, donde <nombre de usuario> será el nombre de usuario que desea agregar. La imagen de abajo te ayudará a entender claramente lo que estoy diciendo.

 create-password-file-block-crawlers

Create Password File

Nota: En el comando anterior hemos pasado la opción-c, para que cree un archivo. Si ya tiene un archivo donde debe guardar la combinación de nombre de usuario y contraseña, entonces no necesita proporcionar el parámetro-c.

Editar archivo de configuración

Hasta ahora, hemos creado nombre de usuario y contraseña. Ahora, es el momento de agregar esta información en la configuración del sitio. Este paso nos ayudará a bloquear rastreadores de nuestro sitio web. Digamos que estás tratando de implementar esto para abc.com La configuración de. Virtualhost para ese dominio estará en el directorio/etc/apache2 / sites-available directory. Estoy asumiendo que el archivo de configuración para abc.com es el abc.com.conf. Abrir ese archivo de configuración para editar utilizando el comando a continuación.

sudo nano /etc/apache2/sites-available/abc.com.conf

Anexar contenido a continuación, en la final de VirtualHost bloque del archivo de configuración.

 < Directorio / > # Que permite a las direcciones IP internas acceder directamente a los sitios web. Si no tiene direcciones ip internas, omita la siguiente línea Require ip 192.168.2.1 / 24 # Replace /var/.contraseña con la ruta del archivo que proporcionó para el comando htpasswd AuthType Basic AuthUserFile / var/.contraseña AuthName "Autenticación requerida" requerir válido-el usuario Satisface cualquier Directorio</>

Después de agregar el contenido anterior, guarde el archivo y vuelva a cargar Apache disparando el comando a continuación.

recarga de apache2 de servicio sudo

¡Estás acabado! Ahora intente visitar el sitio web, debe preguntarle su nombre de usuario y contraseña (si no está visitando desde la red interna). Si aparece esta ventana emergente de autenticación, su intento de bloquear rastreadores ha funcionado.

Responder con 403 para Bloquear rastreadores

El segundo método para bloquear rastreadores es responder con 403 a rastreadores. En este método, lo que haremos es, intentaremos detectar agentes de usuario de rastreadores y bloquearlos. La desventaja de este método es que, si se cambia el agente de usuario, el rastreador puede rastrear el contenido.

Puede agregar el contenido que se muestra a continuación en .archivo htaccess para bloquear rastreadores. Si no funciona después de agregar en el .archivo htaccess, luego tendrá que hacer ediciones en el archivo de configuración de virtualhost del dominio correspondiente como hicimos en el método anterior.

< IfModule mod_rewrite.c>Reescribir el motor en segundo lugar %{HTTP_USER_AGENT}^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* Re RewriteRule .* - </IfModule>

Si todavía no funciona, asegúrese de que el módulo de reescritura esté habilitado. Para hacer eso, ejecute el comando a continuación.

 apachectl-M

Si no muestra rewrite_module en la salida, entonces tendrá que habilitarlo para poder bloquearlo. Si no sabe cómo activarlo, consulte el artículo, Habilitar Módulo de reescritura.

Los dos métodos anteriores deben ser sustanciales para ayudarlo a bloquear los rastreadores de su sitio web. Sin embargo, si todavía tiene alguna dificultad, no dude en ponerse en contacto conmigo a través de la sección de comentarios.

  • Consejos de WordPress & Trucos
  • Con etiquetas: apache, Rastreadores de bloques, Autenticación Httpbasic, Sitios de ensayo, Arañas web
Compartir:

  • Sumit P

Tenga en cuenta que algunos de los enlaces de esta publicación de blog pueden ser enlaces de afiliados. Esto significa que si continúa comprando un producto utilizando dicho enlace, recibimos una pequeña comisión (sin costo adicional para usted). Esto nos ayuda a apoyar el blog y producir contenido gratuito. Solo recomendamos productos con los que trabajamos o amamos. Gracias por su apoyo!

Write a Comment

Tu dirección de correo electrónico no será publicada.