Hogyan lehet blokkolni a robotokat, pókokat és botokat a webhelyekről

disallow-web-crawlers

Block web Crawlers

az egyetlen dolog, amit gyakran észrevettem, hogy míg a No Entry jel többnyire elegendő ahhoz, hogy megakadályozza az embereket abban, hogy behatoljanak egy korlátozott területre, ez nem teljesen bolondbiztos terv. Mindig lesznek olyan emberek, akik teljesen figyelmen kívül hagyják ezt a jelet, és bemerészkednek a korlátozott területre. A robotok használata.a TXT fájl, amely letiltja a bejárókat egy bizonyos webhelyről, hasonló. Míg az utasítások a robotokban.a txt fájl letiltja a bejárókat, a pókokat és a botokat a webhely feltérképezésében. Lehetséges, hogy néhány pók továbbra is feltérképezi az oldalt. Ezért szükség van a bejárók blokkolására.

egy korábbi cikkben arról írtunk, hogyan lehet letiltani a robotokat, pókokat és botokat a webhelyekről. Bár ez a módszer hatékony, nyilvánvalóan nem tűnik elegendőnek. Ezért, hogy megoldjuk ezt a felmerülő problémát, ki kell dolgoznunk egy megoldást, és én pontosan ezt fogom biztosítani Önnek. Most, ahelyett, hogy csak letiltaná a robotokat utasításokkal a robotokban.txt fájl blokkolni fogjuk a bejárókat.

az alábbiakban megadott módszert a robotok blokkolására az Apache 2.4.7-en (Ubuntu-ra telepítve) kipróbáltuk. Úgy gondolom, hogy működnie kell az Apache 2.4-rel.x. Ha nem tudja végrehajtani az alább megadott módszereket az Apache-on, akkor írjon nekem a megjegyzések részben. Kérjük, adjon információt az Apache verziójáról és a szerver operációs rendszeréről. Ha bármilyen érzékeny információt megad, akkor írhat nekem a következő címen [email protected].

HTTP Basic Authentication a robotok blokkolásához

az első módszer, amelyet bemutatok a robotok blokkolásához, a HTTP Basic Authentication használata. Előfordulhat, hogy találkozott a hitelesítési mezővel, amikor megpróbál hozzáférni néhány olyan webhelyhez, mint az alábbi kép.

 Http-hitelesítés-blokk-bejárók

hitelesítés felugró ablak a weboldalhoz

a fenti mező akkor jelenik meg, amikor a HTTP-hitelesítés megvalósul. Ennek megvalósításához meg kell szerkeszteni virtualhost konfigurációs fájlt a domain.

jelszófájl létrehozása

az első lépés a felhasználónevet és jelszót tartalmazó jelszófájl létrehozása. Csatlakozzon a szerverhez SSH használatával, és hajtsa végre az alábbi parancsot

 htpasswd-c < path_of_the_password_file > < felhasználónév>

cserélje ki a <path_of_the_password_file> fájlt arra a helyre, ahol létre kíván hozni egy fájlt, amely titkosított formátumban tárolja a felhasználónevet és a jelszót. A magyarázat kedvéért tegyük fel, hogy megad egy elérési utat /home/tahseen/Desktop. Cserélje le a < felhasználónevet> a kívánt felhasználónévre. Demonstrációs célokra létrehozok egy wisdmlabs felhasználónevet. Tehát most a parancsnak úgy kell kinéznie, mint az alábbiakban.

 htpasswd-c / Főoldal / tahseen / asztal / jelszó wisdmlabs

miután kicserélte a jelszó fájl helyét és felhasználónevét a fenti parancsban, nyomja meg az enter billentyűt. Meg fogja kérni a hozzáadni kívánt felhasználónév jelszavát. Adjon meg egy jelszót, és nyomja meg az enter billentyűt. Miután hozzáadta a felhasználónevet a fájlhoz, megjelenik egy üzenet Jelszó hozzáadása a <felhasználónév> felhasználóhoz, ahol a <felhasználónév> lesz a hozzáadni kívánt felhasználónév. Az alábbi kép segít világosan megérteni, amit mondok.

create-password-file-block-crawlers

Create Password File

megjegyzés: a fenti parancsban átadtuk a-c opciót, így létrehoz egy fájlt. Ha már van olyan fájlja, ahol el kell mentenie a felhasználónév-jelszó kombinációt, akkor nem kell megadnia a-c paramétert.

konfigurációs fájl szerkesztése

eddig létrehoztunk felhasználónevet és jelszót. Itt az ideje, hogy ezeket az információkat hozzáadja a webhely konfigurációjához. Ez a lépés segít blokkolni a bejárókat a weboldalunkról. Tegyük fel, hogy megpróbálja végrehajtani ezt a abc.com az adott tartomány.Virtualhost konfigurációja az /etc/apache2/sites-available könyvtárban lesz. Feltételezem, hogy a konfigurációs fájl abc.com is abc.com. conf.nyissa meg ezt a konfigurációs fájlt szerkesztésre az alábbi paranccsal.

 sudo nano / etc / apache2 / sites-available / abc. com. conf

az alábbi tartalom hozzáfűzése a konfigurációs fájl VirtualHost blokkjának végén.

< Könyvtár /> #lehetővé teszi a belső IP-k számára a webhelyek közvetlen elérését. Ha nincs belső IP-je, akkor hagyja ki a sor alatt IP 192.168.2.1/24 # Replace /var/.jelszó a htpasswd parancshoz megadott fájl elérési útjával AuthType Basic AuthUserFile / var/.jelszó AuthName "Authentication Required" require valid-user megfelel bármely< / könyvtárnak>

miután hozzáadta a fenti tartalmat, mentse el a fájlt, és töltse be újra az Apache-t az alábbi parancs indításával.

 sudo szolgáltatás apache2 újratöltése

végeztél! Most próbálja meg meglátogatni a weboldalt, meg kell kérdeznie a felhasználónevet és a jelszót (ha nem a belső hálózatról látogat). Ha ez a hitelesítés megjelenik, akkor a robotok blokkolására tett kísérlet működött!

válasz 403-mal a robotok blokkolásához

a második módszer a robotok blokkolására az, hogy 403-mal válaszolunk a robotokra. Ebben a módszerben azt fogjuk tenni, hogy megpróbáljuk felismerni a bejárók felhasználói ügynökeit, és blokkolni őket. Ennek a módszernek az a hátránya, hogy ha a useragent megváltozik, a bejáró feltérképezheti a tartalmat.

felveheti a tartalom alább megadott .htaccess fájl a robotok blokkolásához. Ha ez nem működik hozzáadása után a .htaccess fájlt, akkor meg kell szerkeszteni a virtualhost konfigurációs fájlt a megfelelő domain, mint mi a korábbi módszer.

< IfModule mod_rewrite.c>RewriteEngine OnRewriteCond %{HTTP_USER_AGENT}^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* $ RewriteRule .* - < / IfModule>

ha még mindig nem működik, akkor győződjön meg róla, hogy a Rewrite modul engedélyezve van. Ehhez futtassa az alábbi parancsot.

 apakektl-M

ha nem jelenik meg a rewrite_module a kimeneten, akkor engedélyeznie kell a blokkoláshoz. Ha nem tudja, hogyan Engedélyezze, akkor olvassa el a cikket, engedélyezze az újraírási modult.

a fenti két módszernek lényegesnek kell lennie ahhoz, hogy segítsen blokkolni a bejárókat a webhelyén. Ha azonban továbbra is nehézségei vannak, akkor bátran vegye fel velem a kapcsolatot a megjegyzések részben.

  • WordPress tippek & trükkök
  • címkékkel: apache, blokkoló robotok, HttpBasicAuthentication, Staging oldalak, Webpókok
Megosztás:

  • Sumit P

kérjük, vegye figyelembe, hogy a blogbejegyzés néhány linkje affiliate link lehet. Ez azt jelenti, hogy ha egy ilyen link segítségével vásárol egy terméket, akkor egy kis jutalékot kapunk (az Ön számára további költség nélkül). Ez segít abban, hogy támogassuk a blogot és ingyenes tartalmat hozzunk létre. Csak olyan termékeket ajánlunk, amelyekkel dolgozunk vagy szeretünk. Köszönjük a támogatást!

Write a Comment

Az e-mail-címet nem tesszük közzé.