Jak zablokować roboty, pająki i boty ze stron internetowych

disallow-Web-crawlers

Block Web Crawlers

jedną rzeczą, którą często zauważałem, jest to, że chociaż znak zakazu wjazdu w większości wystarcza, aby zapobiec wtargnięciu ludzi do ograniczonego obszaru, nie jest to absolutnie niezawodny plan. Zawsze znajdą się ludzie, którzy będą mieli całkowite lekceważenie dla tego znaku i zapuszczą się do ograniczonego obszaru. Używając robotów.podobny jest plik txt, który uniemożliwia indeksowanie z określonej strony internetowej. Podczas gdy instrukcje w robotach.plik txt uniemożliwi indeksowanie, pająki i boty z indeksowania witryny nie ustawia żadnego rodzaju mandatu. Istnieje możliwość, że niektóre pająki nadal będą indeksować Twoją stronę. Dlatego istnieje potrzeba blokowania gąsienic.

we wcześniejszym artykule pisaliśmy o tym, jak wyłączyć roboty, pająki i boty ze stron internetowych. Chociaż ta metoda jest skuteczna, najwyraźniej nie wydaje się wystarczająca. Dlatego, aby rozwiązać ten problem, który powstaje, będziemy musieli wymyślić pracę wokół i zamierzam zapewnić wam właśnie to. Teraz, zamiast po prostu zabraniać Robot ’ om z instrukcjami w robotach.plik txt będziemy blokować roboty.

podana poniżej metoda blokowania robotów indeksujących została wypróbowana na Apache 2.4.7 (zainstalowanym na Ubuntu). Spodziewam się, że powinno działać z Apache 2.4.x. Jeśli nie jesteś w stanie zaimplementować metod podanych poniżej na swoim Apache, to napisz do mnie w komentarzach. Proszę podać informacje o wersji Apache i systemie operacyjnym serwera. Jeśli masz zamiar podać jakieś poufne informacje, to możesz napisać do mnie na [email protected].

HTTP Basic Authentication to Block Crawlers

pierwszą metodą, którą zademonstruję Block crawlers, jest użycie HTTP Basic Authentication. Czasami możesz natknąć się na pole uwierzytelniania podczas próby uzyskania dostępu do kilku stron internetowych, takich jak obraz podany poniżej.

HTTP-Authentication-block-crawlers

wyskakujące okienko uwierzytelniania dla witryny

powyższe pole pojawia się, gdy Uwierzytelnianie HTTP jest zaimplementowane. Aby to zaimplementować, musisz edytować plik konfiguracyjny virtualhost swojej domeny.

Utwórz plik z hasłem

pierwszym krokiem jest utworzenie pliku z hasłem zawierającego nazwę użytkownika i hasło. Połącz się z serwerem za pomocą SSH i wykonaj poniższe polecenie

 htpasswd-c < path_of_the_password_file>< username>

Zastąp < path_of_the_password_file> lokalizacją, w której chcesz utworzyć plik przechowujący kombinację nazwy użytkownika i hasła w zaszyfrowanym formacie. Dla wyjaśnienia Załóżmy, że podajesz ścieżkę / home / Tahseen / Desktop. Zastąp < nazwę użytkownika> żądaną nazwą użytkownika. Dla celów demonstracyjnych zamierzam utworzyć nazwę użytkownika wisdmlabs. Więc teraz Twoje polecenie powinno wyglądać mniej więcej tak jak poniżej.

htpasswd-C /home / Tahseen / Desktop / password wisdmlabs

po zastąpieniu lokalizacji pliku hasła i nazwy użytkownika w powyższym poleceniu naciśnij enter. Zapyta Cię o hasło nazwy użytkownika, którą chcesz dodać. Podaj mu hasło i naciśnij enter. Po dodaniu nazwy użytkownika do pliku zostanie wyświetlony komunikat o dodaniu hasła dla użytkownika < nazwa użytkownika>, gdzie < nazwa użytkownika> będzie nazwą użytkownika, którą chcesz dodać. Poniższy obrazek pomoże Ci jasno zrozumieć, co mówię.

create-password-file-block-crawlers

Create Password File

Uwaga: w powyższym poleceniu przekazaliśmy opcję-c, tak że tworzy ona plik. Jeśli masz już plik, w którym powinien zapisać kombinację nazwa użytkownika-hasło, nie musisz podawać parametru-C.

Edytuj plik konfiguracyjny

do tej pory stworzyliśmy nazwę użytkownika i hasło. Teraz nadszedł czas, aby dodać te informacje w konfiguracji witryny. Ten krok pomoże nam zablokować roboty indeksujące z naszej strony internetowej. Załóżmy, że próbujesz zaimplementować to dla abc.com konfiguracja. Virtualhost dla tej domeny będzie w katalogu/etc/apache2 / sites-available. Zakładam, że plik konfiguracyjny dla abc.com jest abc. com. conf. otwórz ten plik konfiguracyjny do edycji za pomocą poniższego polecenia.

sudo nano / etc / apache2 / sites-available / abc. com. conf

Dołącz poniżej zawartość na końcu bloku VirtualHost pliku konfiguracyjnego.

<Katalog /> #pozwalający wewnętrznym adresom IP na bezpośredni dostęp do stron internetowych. Jeśli nie masz wewnętrznych adresów IP, pomiń poniższą linię Require ip 192.168.2.1 /24 # Replace/var/.hasło ze ścieżką pliku podaną dla polecenia htpasswd AuthType Basic AuthUserFile / var/.hasło AuthName "Authentication Required" require valid-user Satisfy Any </Directory>

po dodaniu powyższej zawartości, zapisz plik i Ponownie załaduj Apache, uruchamiając komendę poniżej.

 sudo service apache2 reload

jesteś skończony! Teraz spróbuj odwiedzić stronę internetową, powinna zapytać użytkownika nazwę użytkownika i hasło (jeśli nie odwiedzasz z sieci wewnętrznej). Jeśli pojawi się to wyskakujące okienko uwierzytelniania, twoja próba zablokowania robotów gąsienicowych zadziałała!

odpowiadanie z 403 na roboty blokujące

drugą metodą blokowania robaków jest odpowiadanie z 403 na roboty. W tej metodzie, co zrobimy, to spróbujemy wykryć agentów użytkowników crawlerów i je zablokować. Wadą tej metody jest to, że jeśli useragent zostanie zmieniony, crawler może indeksować zawartość.

możesz dodać treść podaną poniżej w .plik htaccess do blokowania robotów indeksujących. Jeśli nie działa po dodaniu do .plik htaccess, następnie będziesz musiał dokonać zmian w pliku konfiguracyjnym virtualhost odpowiedniej domeny, tak jak zrobiliśmy to we wcześniejszej metodzie.

 <IfModule mod_rewrite.c> RewriteEngine OnRewriteCond %{HTTP_USER_AGENT}^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* $ RewriteRule .* - </IfModule>

jeśli nadal nie działa, upewnij się, że moduł Rewrite jest włączony. Aby to zrobić, uruchom polecenie poniżej.

 apachectl-M

jeśli nie pokazuje rewrite_module na wyjściu, wtedy będziesz musiał go włączyć, aby móc zablokować. Jeśli nie wiesz, jak go włączyć, zapoznaj się z artykułem, Włącz moduł przepisywania.

powyższe dwie metody powinny być istotne, aby pomóc ci blokować roboty z twojej witryny. Jeśli jednak nadal masz jakiekolwiek trudności, skontaktuj się ze mną za pośrednictwem sekcji komentarzy.

  • porady WordPress & triki
  • z tagami: apache, Block Crawlers, HttpBasicAuthentication, Staging Sites, web Spiders
Udostępnij:

  • Sumit P

pamiętaj, że niektóre linki w tym poście na blogu mogą być linkami partnerskimi. Oznacza to, że jeśli kupisz produkt za pomocą takiego linku, otrzymamy niewielką prowizję (bez dodatkowych kosztów dla Ciebie). Pomaga nam to wspierać bloga i tworzyć darmowe treści. Polecamy tylko produkty, z którymi współpracujemy lub kochamy. Dziękujemy za wsparcie!

Write a Comment

Twój adres e-mail nie zostanie opublikowany.