Jak blokovat prohledávače, pavouky a roboty z webových stránek

disallow-web-crawlers

Block Web Crawlers

jedna věc, kterou jsem si často všiml, je, že zatímco zákaz vstupu většinou postačuje k zabránění lidem v překročení omezeného prostoru, není to absolutně spolehlivý plán. Vždy budou existovat lidé, kteří budou mít úplné ignorování tohoto znamení a pustí se do omezené oblasti. Pomocí robotů.txt soubor zakázat prohledávače z určité webové stránky je podobný. Zatímco pokyny v robotech.soubor txt zakáže prohledávačům, pavoukům a robotům procházet vaše webové stránky, nenastavuje žádný druh mandátu. Existuje možnost, že někteří pavouci budou vaši stránku stále procházet. Proto je třeba blokovat prohledávače.

v dřívějším článku jsme psali o tom, jak zakázat prohledávače, pavouky a roboty z webových stránek. I když je tato metoda účinná, zjevně se nezdá být dostatečná. Proto, abychom vyřešili tento problém, který vyvstává, budeme muset přijít s řešením a já vám to poskytnu. Nyní, místo toho, aby jen zakázal prohledávače s pokyny v robotech.txt soubor budeme blokovat prohledávače.

níže uvedená metoda blokování prohledávačů byla vyzkoušena na Apache 2.4.7 (nainstalovaném na Ubuntu). Očekávám, že by to mělo fungovat s Apache 2.4.x. Pokud nejste schopni implementovat níže uvedené metody na vašem Apache, napište mi do sekce komentářů. Uveďte prosím informace o vaší verzi Apache a operačním systému serveru. Pokud se chystáte poskytnout jakékoli citlivé informace, pak mi můžete napsat na [email protected].

HTTP Basic Authentication to Block Crawlers

první metodou, kterou budu demonstrovat pro blokování crawlerů, je použití HTTP Basic Authentication. Někdy jste se při pokusu o přístup k několika webům, jako je obrázek uvedený níže, mohli setkat s ověřovacím polem.

 HTTP-Authentication-block-crawlers

Authentication Pop-up pro webové stránky

při implementaci HTTP autentizace se zobrazí výše uvedené pole. Chcete-li to provést, musíte upravit konfigurační soubor virtualhost vaší domény.

Vytvořte soubor s heslem

prvním krokem je vytvoření souboru s heslem obsahujícího uživatelské jméno a heslo. Připojte se k serveru pomocí SSH a spusťte níže uvedený příkaz

htpasswd-c <path_of_the_password_file> < uživatelské jméno>

nahraďte <path_of_the_password_file> umístěním, kde chcete vytvořit soubor, který ukládá kombinaci uživatelského jména a hesla v šifrovaném formátu. Pro vysvětlení předpokládejme, že poskytnete cestu / home / tahseen / Desktop. Nahraďte < uživatelské jméno> uživatelským jménem, které chcete. Pro demonstrační účely vytvořím uživatelské jméno wisdmlabs. Takže teď by váš příkaz měl vypadat nějak níže.

htpasswd-c / home / tahseen / Desktop / password wisdmlabs

po nahrazení umístění souboru hesla a uživatelského jména ve výše uvedeném příkazu stiskněte klávesu enter. Požádalo by vás o heslo uživatelského jména, které chcete přidat. Zadejte heslo a stiskněte klávesu enter. Po přidání uživatelského jména do souboru se zobrazí zpráva přidání hesla pro uživatele < uživatelské jméno>, kde <uživatelské jméno> bude uživatelské jméno, které chcete přidat. Obrázek níže vám pomůže jasně pochopit, co říkám.

 create-password-file-block-crawlers

Create Password File

poznámka: ve výše uvedeném příkazu jsme předali volbu-c, takže vytvoří soubor. Pokud již máte soubor, kde by měl uložit kombinaci uživatelského jména a hesla, nemusíte zadávat parametr-c.

upravit konfigurační soubor

až dosud jsme vytvořili uživatelské jméno a heslo. Nyní je čas přidat tyto informace do konfigurace webu. Tento krok nám pomůže blokovat prohledávače z našich webových stránek. Řekněme, že se to snažíte implementovat pro abc.com. Virtualhost konfigurace pro tuto doménu bude v adresáři / etc / apache2 / sites-available directory. Předpokládám, že konfigurační soubor pro abc.com je abc. com. conf. otevřete tento konfigurační soubor pro úpravy pomocí níže uvedeného příkazu.

 sudo nano / etc / apache2 / sites-available / abc. com. conf

připojit pod obsah na konci VirtualHost bloku konfiguračního souboru.

< adresář / > # umožňující interním IP adresám přímý přístup k webovým stránkám. Pokud nemáte interní IP adresy, vynechejte pod řádkem vyžadovat ip 192.168.2.1 / 24 # Replace /var/.heslo s cestou k souboru, kterou jste zadali pro příkaz htpasswd AuthType Basic AuthUserFile /var/.heslo AuthName "vyžadováno ověření" vyžadovat platné-uživatel splňuje libovolný< / adresář>

po přidání výše uvedeného obsahu uložte soubor a znovu načtěte příkaz Apache spuštěním níže.

sudo service apache2 reload

skončil jsi! Nyní se pokuste navštívit web, měl by vás požádat o uživatelské jméno a heslo (pokud nenavštěvujete z interní sítě). Pokud se objeví toto vyskakovací okno ověření, váš pokus o blokování prohledávačů fungoval!

odpověď pomocí 403 na blokování prohledávačů

druhou metodou blokování prohledávačů je odpověď pomocí 403 na prohledávače. V této metodě se pokusíme detekovat uživatelské agenty prolézacích modulů a zablokovat je. Nevýhodou této metody je, pokud se změní useragent, crawler může procházet obsah.

obsah uvedený níže můžete přidat .soubor htaccess pro blokování prohledávačů. Pokud to nefunguje po přidání do .soubor htaccess, pak budete muset provést úpravy v konfiguračním souboru virtualhost odpovídající domény, jako jsme to udělali v dřívější metodě.

< IfModule mod_rewrite.c>RewriteEngine OnRewriteCond %{HTTP_USER_AGENT}^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* $ RewriteRule .* - </IfModule>

pokud stále nefunguje, ujistěte se, že je povolen modul přepisování. Chcete-li to provést, spusťte příkaz níže.

 apachectl-M

pokud se ve výstupu nezobrazí rewrite_module, budete jej muset povolit, abyste mohli blokovat. Pokud nevíte, jak to povolit, podívejte se na článek, povolte přepisovací modul.

výše uvedené dvě metody by měly být podstatné, aby vám pomohly blokovat prohledávače z vašeho webu. Pokud však stále máte nějaké potíže, neváhejte se mnou kontaktovat prostřednictvím sekce komentářů.

  • WordPress tipy & triky
  • S Tagy: apache, Block Crawlers, HttpBasicAuthentication, Staging Sites, Web Spiders
Share:

  • Sumit P

Vezměte prosím na vědomí, že některé odkazy v tomto blogu mohou být přidružené odkazy. To znamená, že pokud budete pokračovat v nákupu produktu pomocí takového odkazu, dostaneme malou provizi(bez dalších nákladů pro vás). To nám pomáhá podporovat blog a vytvářet bezplatný obsah. Doporučujeme pouze produkty, se kterými pracujeme nebo milujeme. Děkujeme za vaši podporu!

Write a Comment

Vaše e-mailová adresa nebude zveřejněna.