Comment Bloquer les Robots d’exploration, les Araignées et les Robots à partir de sites Web

 interdire les robots d'exploration Web

Bloquer les robots d’exploration Web

La seule chose que j’ai souvent remarquée est que même si un panneau d’interdiction d’entrée suffit pour empêcher les gens d’entrer dans une zone réglementée, ce n’est pas un plan absolument infaillible. Il y aura toujours des gens qui auront un mépris total pour ce signe et s’aventureront dans la zone réglementée. En utilisant les robots.le fichier txt pour interdire les robots d’exploration d’un certain site Web est similaire. Alors que les instructions dans les robots.le fichier txt empêchera les robots d’exploration, les araignées et les robots d’explorer votre site Web, il ne définit aucun mandat. Il est possible que certaines araignées parcourent encore votre page. Il est donc nécessaire de bloquer les robots d’exploration.

Dans un article précédent, nous avons expliqué Comment Interdire les Robots d’exploration, les Araignées et les robots des sites Web. Bien que cette méthode soit efficace, elle ne semble manifestement pas suffisante. Par conséquent, pour résoudre ce problème qui se pose, nous devrons trouver une solution de contournement et je vais vous le fournir. Maintenant, au lieu de simplement refuser aux robots des instructions dans les robots.fichier txt nous allons bloquer les robots d’exploration.

La méthode donnée ci-dessous pour bloquer les robots d’exploration a été essayée sur Apache 2.4.7 (installé sur Ubuntu). Je m’attends à ce que cela fonctionne avec Apache 2.4.x. Si vous n’êtes pas en mesure d’implémenter les méthodes données ci-dessous sur votre Apache, écrivez-moi dans la section commentaires. Veuillez donner des informations sur votre version d’Apache et votre système d’exploitation de serveur. Si vous souhaitez fournir des informations sensibles, vous pouvez m’écrire à l’adresse suivante: [email protected] .

Authentification de base HTTP pour bloquer les robots d’exploration

La première méthode que je vais démontrer pour bloquer les robots d’exploration utilise l’authentification de base HTTP. Parfois, vous avez peut-être rencontré la boîte d’authentification lorsque vous essayez d’accéder à quelques sites Web comme l’image ci-dessous.

 Http-Authentication-block-crawlers

Fenêtre contextuelle d’authentification pour le site Web

La case ci-dessus apparaît lorsque l’authentification HTTP est implémentée. Pour implémenter cela, vous devez éditer le fichier de configuration virtualhost de votre domaine.

Créer un fichier de mot de passe

La première étape consiste à créer un fichier de mot de passe contenant le nom d’utilisateur et le mot de passe. Connectez-vous à votre serveur en utilisant SSH et exécutez la commande ci-dessous

 htpasswd-c < path_of_the_password_file > < nom d'utilisateur>

Remplacez < path_of_the_password_file > par l’emplacement où vous souhaitez créer un fichier qui stocke la combinaison de nom d’utilisateur et de mot de passe dans un format crypté. Par souci d’explication, supposons que vous fournissiez un chemin /home/tahseen/Desktop. Remplacez < nom d’utilisateur > par le nom d’utilisateur souhaité. À des fins de démonstration, je vais créer un nom d’utilisateur wisdmlabs. Alors maintenant, votre commande devrait ressembler à quelque chose comme ci-dessous.

 htpasswd-c / accueil / tahseen / Bureau / mot de passe wisdmlabs

Après avoir remplacé l’emplacement du fichier de mot de passe et le nom d’utilisateur dans la commande ci-dessus, appuyez sur Entrée. Il vous demanderait le mot de passe du nom d’utilisateur que vous souhaitez ajouter. Fournissez-lui un mot de passe et appuyez sur Entrée. Après avoir ajouté un nom d’utilisateur au fichier, il affichera un message Ajoutant un mot de passe pour l’utilisateur < nom d’utilisateur >, où < nom d’utilisateur > sera le nom d’utilisateur que vous souhaitez ajouter. L’image ci-dessous vous aidera à comprendre clairement ce que je dis.

create-password-file-block-crawlers

Create Password File

Remarque: Dans la commande ci-dessus, nous avons passé l’option -c, de sorte qu’elle crée un fichier. Si vous avez déjà un fichier dans lequel il doit enregistrer la combinaison nom d’utilisateur-mot de passe, vous n’avez pas besoin de fournir le paramètre -c.

Modifier le fichier de configuration

Jusqu’à présent, nous avons créé le nom d’utilisateur et le mot de passe. Maintenant, il est temps d’ajouter ces informations dans la configuration du site. Cette étape nous aidera à bloquer les robots d’exploration de notre site Web. Disons que vous essayez de mettre en œuvre cela pour abc.com La configuration de .Virtualhost pour ce domaine sera dans le répertoire /etc/apache2/sites – répertoire disponible. Je suppose que ce fichier de configuration pour abc.com est-ce que abc.com.conf. Ouvrez ce fichier de configuration pour l’éditer à l’aide de la commande ci-dessous.

 sudo nano/etc/apache2/sites-disponibles/abc.com.conf

Ajoutez ci-dessous le contenu à la fin du bloc VirtualHost du fichier de configuration.

 < Répertoire / > # Permettant aux adresses IP internes d'accéder directement aux sites Web. Si vous n'avez pas d'adresses IP internes, omettez la ligne ci-dessous Require ip 192.168.2.1/24 #Replace/var/.mot de passe avec le chemin de fichier que vous avez fourni pour la commande htpasswd AuthType Basic AuthUserFile/var/.mot de passe AuthName "Authentification requise" nécessite valide - l'utilisateur Satisfait n'importe Quel Répertoire </>

Après avoir ajouté le contenu ci-dessus, enregistrez le fichier et rechargez Apache en déclenchant la commande ci-dessous.

 recharge du service sudo apache2

Vous avez terminé! Maintenant, essayez de visiter le site Web, il devrait vous demander nom d’utilisateur et mot de passe (si vous ne visitez pas à partir du réseau interne). Si cette fenêtre d’authentification apparaît, votre tentative de bloquer les robots d’exploration a fonctionné !

Répondre avec 403 pour bloquer les robots d’exploration

La deuxième méthode pour bloquer les robots d’exploration consiste à répondre avec 403 aux robots d’exploration. Dans cette méthode, nous allons essayer de détecter les agents utilisateurs des robots d’exploration et de les bloquer. L’inconvénient de cette méthode est que si l’utilisateuragent est modifié, le robot d’exploration peut analyser le contenu.

Vous pouvez ajouter le contenu donné ci-dessous dans.fichier htaccess pour bloquer les robots d’exploration. Si cela ne fonctionne pas après l’ajout dans le.fichier htaccess, alors vous devrez faire des modifications dans le fichier de configuration virtualhost du domaine correspondant comme nous l’avons fait dans la méthode précédente.

 < IfModule mod_rewrite.c> RewriteEngine OnRewriteCond% {HTTP_USER_AGENT}^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* Re RewriteRule.*-< / IfModule>

Si cela ne fonctionne toujours pas, assurez-vous que le module de réécriture est activé. Pour ce faire, exécutez la commande ci-dessous.

 apachectl-M

S’il n’affiche pas rewrite_module dans la sortie, vous devrez l’activer pour pouvoir bloquer. Si vous ne savez pas comment l’activer, reportez-vous à l’article, Activer le module de réécriture.

Les deux méthodes ci-dessus devraient être substantielles pour vous aider à bloquer les robots d’exploration de votre site Web. Cependant, si vous rencontrez toujours des difficultés, n’hésitez pas à me contacter via la section commentaires.

  • Astuces WordPress & Astuces
  • Avec balises: apache, Robots d’exploration de blocs, HttpBasicAuthentication, Sites intermédiaires, Araignées Web
Partager:

  • Sumit P

Veuillez noter que certains des liens de cet article de blog peuvent être des liens d’affiliation. Cela signifie que si vous achetez un produit en utilisant un tel lien, nous recevons une petite commission (sans frais supplémentaires pour vous). Cela nous aide à soutenir le blog et à produire du contenu gratuit. Nous ne recommandons que les produits avec lesquels nous travaillons ou que nous aimons. Merci pour votre soutien!

Write a Comment

Votre adresse e-mail ne sera pas publiée.