Blocca Web Crawler
L’unica cosa che ho notato spesso è che mentre un segno di No Entry è sufficiente per impedire alle persone di sconfinare in un’area riservata non è un piano assolutamente infallibile. Ci saranno sempre alcune persone che avranno completo disprezzo per questo segno e si avventureranno nell’area riservata. Usando i robot.il file txt per non consentire i crawler da un determinato sito Web è simile. Mentre le istruzioni nei robot.il file txt impedirà crawler, spider e bot di strisciare il tuo sito web non imposta alcun tipo di mandato. C’è la possibilità che alcuni ragni continuino a strisciare la tua pagina. Quindi è necessario bloccare i crawler.
In un precedente articolo abbiamo scritto su come impedire Crawler, spider e Bot dai siti Web. Sebbene questo metodo sia efficiente, chiaramente non sembra essere sufficiente. Pertanto, per risolvere questo problema che si pone dovremo venire con un work around e ho intenzione di fornire proprio questo. Ora, invece di negare ai crawler le istruzioni nei robot.file txt stiamo andando a bloccare i crawler.
Il metodo indicato di seguito per bloccare i crawler è stato provato su Apache 2.4.7 (installato su Ubuntu). Mi aspetto che dovrebbe funzionare con Apache 2.4.x. Se non sei in grado di implementare i metodi indicati di seguito sul tuo Apache, scrivimi nella sezione commenti. Fornire informazioni sulla versione di Apache e sul sistema operativo del server. Se avete intenzione di fornire informazioni sensibili, allora si può scrivere a me a [email protected].
Autenticazione HTTP Basic per bloccare i crawler
Il primo metodo che dimostrerò per bloccare i crawler sta usando l’autenticazione HTTP Basic. A volte potresti aver trovato la casella di autenticazione quando provi ad accedere ad alcuni siti Web come l’immagine riportata di seguito.
Pop-up di autenticazione per il sito web
La casella sopra appare quando viene implementata l’autenticazione HTTP. Per implementare questo devi modificare il file di configurazione virtualhost del tuo dominio.
Crea un file di password
Il primo passo è creare un file di password contenente nome utente e password. La connessione al server tramite SSH ed eseguire il seguente comando
htpasswd -c <path_of_the_password_file> <nome utente>
Sostituire <path_of_the_password_file> con il percorso in cui si desidera creare un file che memorizza combinazione nome utente e password in formato crittografato. Per ragioni di spiegazione, supponiamo che tu fornisca un percorso / home / tahseen / Desktop. Sostituisci < username> con il nome utente che desideri. A scopo dimostrativo ho intenzione di creare un nome utente wisdmlabs. Quindi ora il tuo comando dovrebbe essere simile a quello qui sotto.
Dopo aver sostituito la posizione del file della password e il nome utente nel comando sopra, premi invio. Ti chiederebbe la password del nome utente che desideri aggiungere. Fornire una password e premere invio. Dopo aver aggiunto il nome utente al file, mostrerà un messaggio che aggiunge la password per l’utente <nome utente>, dove < nome utente> sarà il nome utente che volevi aggiungere. L’immagine qui sotto vi aiuterà a capire chiaramente quello che sto dicendo.
Create Password File
Nota: Nel comando precedente abbiamo passato l’opzione-c, in modo che crei un file. Se si dispone già di un file in cui dovrebbe salvare la combinazione nome utente-password, non è necessario fornire il parametro-C.
Modifica file di configurazione
Fino ad ora, abbiamo creato nome utente e password. Ora, è il momento di aggiungere queste informazioni nella configurazione del sito. Questo passaggio ci aiuterà a bloccare i crawler dal nostro sito web. Diciamo che stai cercando di implementarlo per abc.com La configurazione di. Virtualhost per quel dominio sarà nella directory / etc / apache2 / sites-available directory. Suppongo che il file di configurazione per abc.com è abc. com. conf.Aprire il file di configurazione per la modifica utilizzando il comando seguente.
sudo nano / etc / apache2 / sites-available / abc. com. conf
Aggiungi sotto il contenuto alla fine del blocco VirtualHost del file di configurazione.
< Directory / > #Consente agli IP interni di accedere direttamente ai siti web. Se non si dispone di IP interni, quindi omettere sotto la riga Require ip 192.168.2.1 / 24 # Replace / var/.password con il percorso del file fornito per il comando htpasswd AuthType Basic AuthUserFile / var/.password AuthName" Authentication Required " require valid - user Satisfy Any < / Directory>
Dopo aver aggiunto il contenuto di cui sopra, salvare il file e ricaricare Apache sparando comando qui sotto.
sudo servizio apache2 ricarica
Hai finito! Ora prova a visitare il sito web, dovrebbe chiederti nome utente e password (se non stai visitando dalla rete interna). Se viene visualizzato questo pop-up di autenticazione, il tentativo di bloccare i crawler ha funzionato!
Rispondere con 403 per bloccare i crawler
Il secondo metodo per bloccare i crawler è rispondere con 403 ai crawler. In questo metodo, quello che faremo è, cercheremo di rilevare gli user-agent dei crawler e bloccarli. Svantaggio di questo metodo è, se useragent viene modificato, crawler può eseguire la scansione del contenuto.
È possibile aggiungere il contenuto indicato di seguito in .file htaccess per bloccare i crawler. Se non funziona dopo l’aggiunta nel .file htaccess, quindi dovrai apportare modifiche nel file di configurazione virtualhost del dominio corrispondente come abbiamo fatto nel metodo precedente.
< IfModule mod_rewrite.c>RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* Re RewriteRule .* - < / IfModule>
Se continua a non funzionare, assicurati che il modulo Riscrivi sia abilitato. Per fare ciò, esegui il comando sotto.
apachectl-M
Se non mostra rewrite_module nell’output, dovrai abilitarlo per poter bloccare. Se non sai come abilitarlo, fai riferimento all’articolo, Abilita il modulo di riscrittura.
I due metodi di cui sopra dovrebbero essere sostanziali per aiutarti a bloccare i crawler dal tuo sito web. Tuttavia, se si stanno ancora avendo difficoltà quindi sentitevi liberi di entrare in contatto con me attraverso la sezione commenti.
- WordPress Tips & Trucchi
- Con tag: apache, Block Crawler, HttpBasicAuthentication, Staging Sites ,Web Spider
- Sumit P
Si prega di notare, alcuni dei link in questo post del blog potrebbe essere link di affiliazione. Ciò significa che se si continua ad acquistare un prodotto utilizzando tale link, riceviamo una piccola commissione (senza alcun costo aggiuntivo per voi). Questo ci aiuta a sostenere il blog e produrre contenuti gratuiti. Raccomandiamo solo prodotti con cui lavoriamo o amiamo. Grazie per il vostro sostegno!