Miten estää indeksoijat, hämähäkit ja botit verkkosivustoilta

disallow-web-indeksoijat

Block Web-indeksoijat

yksi asia, jonka olen usein huomannut on, että vaikka No Entry-merkki useimmiten riittää estämään ihmisiä tunkeutumasta rajoitetulle alueelle, se ei ole täysin idioottivarma suunnitelma. Aina on joitakin ihmisiä, jotka ovat täysin piittaamatta tästä merkistä ja uskaltautuvat rajatulle alueelle. Robottien avulla.txt tiedosto kieltää indeksoijat tietyn sivuston on samanlainen. Vaikka ohjeet robotteja.txt-tiedosto estää indeksoijat, hämähäkit ja botteja indeksoimasta sivustosi se ei aseta minkäänlaista mandaattia. On mahdollista, että jotkut hämähäkit silti indeksoivat sivusi. Siksi on tarpeen estää telaketjut.

kirjoitimme aiemmassa artikkelissamme siitä, miten Ryömijät, hämähäkit ja botit voidaan kieltää verkkosivuilta. Vaikka tämä menetelmä on tehokas, se ei selvästikään Näytä riittävältä. Siksi tämän esiin nousevan ongelman ratkaisemiseksi meidän on tehtävä työtä, ja aion tarjota teille juuri sen. Nyt sen sijaan, että hylkäisimme ryömijät robottien ohjeilla.txt tiedosto aiomme estää indeksoijat.

alla esitettyä menetelmää telaketjujen estämiseen on kokeiltu Apache 2.4.7: ssä (asennettu Ubuntuun). Sen pitäisi toimia Apache 2.4: n kanssa.x. Jos et pysty toteuttamaan menetelmiä alla teidän Apache, kirjoita minulle kommentit osiossa. Anna tietoja Apache-versiostasi ja palvelimen käyttöjärjestelmästäsi. Jos aiot antaa arkaluontoisia tietoja, voit kirjoittaa minulle osoitteeseen [email protected].

HTTP Basic Authentication to Block Crawlers

the first method I A going to demonstrate to block crawlers is using HTTP Basic Authentication. Joskus olet saattanut törmätä todennusruutuun, kun yrität käyttää muutamaa verkkosivustoa, kuten alla olevaa kuvaa.

 Http-Authentication-block-crawlers

Authentication Pop-up for Website

yllä oleva ruutu tulee näkyviin, kun HTTP-todennus on toteutettu. Tämän toteuttamiseksi sinun täytyy muokata verkkotunnuksesi virtualhost-asetustiedostoa.

luo Salasanatiedosto

ensimmäinen vaihe on luoda Salasanatiedosto, joka sisältää käyttäjätunnuksen ja salasanan. Yhdistä palvelimeen SSH: n avulla ja suorita alla komento

 htpasswd-C <path_of_the_password_file> <username>

korvaa <path_of_the_password_file> sijainnilla, johon haluat luoda tiedoston, joka tallentaa käyttäjätunnuksen ja salasanan yhdistelmän salatussa muodossa. Selityksen vuoksi oletetaan, että annat polun /home/tahseen/Desktop. Korvaa <käyttäjätunnus> haluamallasi käyttäjätunnuksella. Esittelytarkoituksiin aion luoda käyttäjätunnus wisdmlabs. Joten nyt komentosi pitäisi näyttää jotain alla.

htpasswd-C /home / tahseen / Desktop/password wisdmlabs

kun olet korvannut salasanatiedoston sijainnin ja käyttäjätunnuksen yllä olevassa komennossa, paina enter. Se kysyy salasanaa käyttäjätunnuksen haluat lisätä. Anna sille salasana ja paina enter. Kun olet lisännyt käyttäjätunnuksen tiedostoon, se näyttää viestin, jossa lisätään salasana käyttäjälle <käyttäjätunnus>, jossa <käyttäjätunnus> on käyttäjätunnus, jonka halusit lisätä. Alla oleva kuva auttaa sinua ymmärtämään selvästi, mitä sanon.

create-password-file-block-crawlers

Create Password File

Note: yllä olevassa komennossa olemme läpäisseet-C-vaihtoehdon, jolloin se luo tiedoston. Jos sinulla on jo tiedosto, johon sen pitäisi tallentaa käyttäjätunnus-salasana-yhdistelmä, sinun ei tarvitse antaa-c-parametria.

muokkaa asetustiedostoa

tähän asti olemme luoneet käyttäjätunnuksen ja salasanan. Nyt, on aika lisätä nämä tiedot sivuston kokoonpano. Tämä vaihe auttaa meitä estämään crawlers sivuiltamme. Sanotaan, yrität toteuttaa tämän abc.com. Virtualhost kokoonpano että verkkotunnus on directory / etc / apache2 / sites-available directory. Oletan, että asetustiedosto abc.com on abc. com. conf. avaa asetustiedosto muokkausta varten alla olevalla komennolla.

 sudo nano / etc / apache2 / sites-available / abc. com. conf

lisää alla sisältöä lopussa virtualhost lohko asetustiedoston.

<Directory /> #mahdollistaa sisäisten IP-osoitteiden pääsyn suoraan verkkosivustoille. Jos sinulla ei ole sisäisiä IP-osoitteita, jätä pois rivin alapuolella vaativat ip 192.168.2.1/24 # korvaa /var/.salasana tiedostopolulla, jonka annoit htpasswd-komennolle AuthType Basic AuthUserFile /var/.salasana AuthName "Authentication Required" require valid-user enquired Any< / Directory>

kun olet lisännyt ylläolevan sisällön, tallenna tiedosto ja lataa Apache uudelleen laukaisemalla alla oleva komento.

sudo service apache2 reload

olet mennyttä! Nyt yrittää vierailla verkkosivuilla, sen pitäisi kysyä käyttäjätunnus ja salasana (Jos et ole vierailulla sisäisestä verkosta). Jos tämä todennus ponnahdusikkuna ilmestyy, yrityksesi estää telaketjut on toiminut!

vastaaminen 403: lla telaketjuihin

toinen tapa estää telaketjuja on vastata 403: lla telaketjuihin. Tässä menetelmässä, mitä teemme on, yritämme havaita käyttäjä-agentit telaketjujen ja estää niitä. Tämän menetelmän haittana on, jos käyttäjäagentti muuttuu, crawler voi indeksoida sisältöä.

voit lisätä alla olevan Sisällön kohtaan .htaccess tiedosto estää tela. Jos se ei toimi lisäämisen jälkeen.htaccess tiedosto, sinun täytyy tehdä muokkauksia virtualhost asetustiedosto vastaavan verkkotunnuksen kuten teimme aiemmassa menetelmässä.

< IfModule mod_rewrite.c> RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* $ RewriteRule .* - < / IfModule>

jos se ei vieläkään toimi, varmista, että Uudelleenkirjoitusmoduuli on käytössä. Voit tehdä sen suorittamalla komennon alla.

 apachektl-M

jos se ei näytä rewrite_module ulostulossa, sinun on otettava se käyttöön, jotta voit estää. Jos et tiedä, miten se sitten viitata artikkeli, ota Uudelleenkirjoitusmoduuli.

edellä kaksi menetelmää pitäisi olla merkittävä auttaa estämään indeksoijat sivustosi. Kuitenkin, jos sinulla on edelleen vaikeuksia niin rohkeasti yhteyttä minuun kautta kommentit osiossa.

  • WordPress Tips & Tricks
  • tageilla: apache, Block Crawlers, HttpBasicAuthentication, Staging Sites, Web Spiders
Share:

  • Sumit P

huomaa, että osa tämän blogikirjoituksen linkeistä saattaa olla affiliate-linkkejä. Tämä tarkoittaa, että jos ostat tuotteen tällaisen linkin avulla, saamme pienen provision (ilman lisäkustannuksia sinulle). Tämä auttaa meitä tukemaan blogia ja tuottamaan ilmaista sisältöä. Suosittelemme vain tuotteita, joiden kanssa työskentelemme tai rakastamme. Kiitos tuestanne!

Write a Comment

Sähköpostiosoitettasi ei julkaista.