Como Bloquear Crawlers, Spiders e Robôs de Sites

não permitir-web-crawlers

Bloquear os Web Crawlers

A única coisa que eu muitas vezes tenho notado é que, enquanto uma Entrada de sinal, principalmente suficiente na prevenção de invasão de uma área restrita não é absolutamente infalível plano. Sempre haverá algumas pessoas que terão total desrespeito por este sinal e se aventurarão na área restrita. Usando os robôs.o arquivo txt para não permitir rastreadores de um determinado site é semelhante. Enquanto as instruções nos robôs.o arquivo txt não permitirá que rastreadores, aranhas e bots rastreiem seu site, não define nenhum tipo de mandato. Existe a possibilidade de que algumas aranhas ainda rastreiem sua página. Portanto, há uma necessidade de bloquear rastreadores.

em um artigo anterior, escrevemos sobre como proibir rastreadores, aranhas e Bots de sites. Embora este método seja eficiente, claramente não parece ser suficiente. Portanto, para resolver esse problema que surge, teremos que criar uma solução alternativa e vou fornecer exatamente isso. Agora, em vez de simplesmente não permitir que os rastreadores com instruções nos robôs.arquivo txt vamos bloquear rastreadores.

o método fornecido abaixo para bloquear rastreadores foi testado no Apache 2.4.7 (instalado no Ubuntu). Espero que funcione com o Apache 2.4.X. Se você não conseguir implementar os métodos fornecidos abaixo no seu Apache, escreva-me na seção de comentários. Por favor, forneça informações sobre sua versão Apache e sistema operacional do servidor. Se você estiver indo para fornecer qualquer informação sensível, então você pode escrever para mim em [email protected].

Autenticação Básica HTTP para bloquear rastreadores

o primeiro método que vou demonstrar para bloquear rastreadores está usando Autenticação Básica HTTP. Às vezes, você pode ter encontrado a caixa de autenticação ao tentar acessar alguns sites, como a imagem fornecida abaixo.

HTTP-Authentication-Block-crawlers

autenticação Pop-up para o site

a caixa acima aparece quando a autenticação HTTP é implementada. Para implementar isso, você deve editar o arquivo de configuração virtualhost do seu domínio.

crie um arquivo de senha

o primeiro passo é criar um arquivo de senha contendo nome de usuário e senha. Se conectar ao seu servidor via SSH e executar o comando abaixo

htpasswd -c <path_of_the_password_file> <nome de usuário>

Substituir <path_of_the_password_file> com o local onde você deseja criar um arquivo que armazena username e senha em formato criptografado. Por uma questão de explicação, vamos supor que você forneça um caminho /home/tahseen/Desktop. Substitua< nome de usuário > pelo nome de usuário desejado. Para fins de demonstração, vou criar um nome de usuário wisdmlabs. Portanto, agora seu comando deve ser semelhante a abaixo.

htpasswd -c /home/tahseen/Desktop/senha wisdmlabs

Depois de substituir o arquivo de senha local e o nome de usuário no comando acima, aperte enter. Ele pediria a senha do nome de usuário que você deseja adicionar. Forneça uma senha e pressione enter. Depois de adicionar nome de usuário ao arquivo, ele mostrará uma mensagem adicionando senha para o usuário <nome de usuário>, onde <nome de usuário> será o nome de usuário que você deseja adicionar. A imagem abaixo irá ajudá-lo a entender claramente o que estou dizendo.

create-password-file-block-crawlers

Create Password File

nota: no comando acima, passamos a opção-c, para que ele crie um arquivo. Se você já tem um arquivo onde deve salvar a combinação nome de usuário-senha, então você não precisa fornecer o parâmetro-C.

Editar Arquivo de configuração

até agora, criamos nome de usuário e senha. Agora, é hora de adicionar essas informações na configuração do site. Esta etapa nos ajudará a bloquear rastreadores de nosso site. Digamos que você esteja tentando implementar isso para abc.com a configuração. Virtualhost para esse domínio estará no diretório / etc / apache2 / sites-diretório disponível. Estou assumindo que o arquivo de configuração para abc.com é abc. com. conf. abra esse arquivo de configuração para edição usando o comando abaixo.

 sudo nano / etc / apache2 / sites-disponível / abc. com. conf

Anexe o conteúdo abaixo no final do bloco VirtualHost do arquivo de configuração.

 < diretório / > # permitindo que IPs internos acessem sites diretamente. Se você não tiver ips internos, omitir abaixo da linha requer ip 192.168.2.1/24 # Replace /var/.senha com o caminho do arquivo fornecido para o comando htpasswd AuthType Basic AuthUserFile / var/.senha AuthName "Autenticação necessária" requer válido-o usuário satisfaz qualquer</diretório>

depois de adicionar o Conteúdo acima, salve o arquivo e recarregue o Apache disparando o comando abaixo.

 sudo service apache2 reload

você está feito! Agora Tente visitar o site, ele deve pedir-lhe nome de usuário e senha (se você não estiver visitando a partir da rede interna). Se esta autenticação aparecer, sua tentativa de bloquear rastreadores funcionou!

Responder com 403 Bloco Rastreadores

O segundo método para bloquear rastreadores é responder com 403 aos rastreadores. Nesse método, o que faremos é tentar detectar agentes de usuário de rastreadores e bloqueá-los. Desvantagem deste método é, se useragent é alterado, rastreador pode rastrear o conteúdo.

você pode adicionar o conteúdo fornecido abaixo em .arquivo htaccess para bloquear rastreadores. Se não funcionar depois de adicionar ao .arquivo htaccess, então você terá que fazer edições no arquivo de configuração virtualhost do domínio correspondente como fizemos no método anterior.

 < IfModule mod_rewrite.c >Reescrevaengine OnRewriteCond % {HTTP_USER_AGENT}^.*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).* $ Regravação .* - < / IfModule>

se ainda não funcionar, certifique-se de que o módulo de reescrita esteja ativado. Para fazer isso, execute o comando abaixo.

 apachectl-M

se não mostrar rewrite_module na saída, você terá que habilitá-lo para poder bloquear. Se você não sabe como ativá-lo, consulte o artigo, habilite o módulo de reescrita.

os dois métodos acima devem ser substanciais para ajudá-lo a bloquear rastreadores do seu site. No entanto, se você ainda está tendo alguma dificuldade, sinta-se à vontade para entrar em contato comigo através da seção de comentários.

  • dicas do WordPress & Truques
  • com tags: apache, Bloco de Rastreadores, HttpBasicAuthentication, Preparo de Sites, Web Spiders
Partilhar:

  • Sumit P

por Favor note que alguns dos links neste blog podem ser links de afiliado. Isso significa que se você comprar um produto usando esse link, receberemos uma pequena comissão (sem nenhum custo adicional para você). Isso nos ajuda a apoiar o blog e produzir conteúdo gratuito. Recomendamos apenas produtos com os quais trabalhamos ou amamos. Obrigado pelo seu apoio!

Write a Comment

O seu endereço de email não será publicado.