차단 웹 크롤러
내가 자주 발견 한 한 가지는 진입 금지 표시가 대부분 사람들이 제한 구역을 침입하는 것을 막는 데 충분하지만 절대적으로 확실한 계획은 아니라는 것입니다. 항상 이 표시를 위한 완전한 무시가 있고 제한되는 지역으로 감행할 어떤 사람들 있을 것이다. 로봇을 사용.특정 웹 사이트에서 크롤러를 허용하지 않는 파일은 비슷합니다. 로봇의 지침 동안.귀하의 웹 사이트를 크롤링에서 크롤러,거미와 봇을 허용하지 않습니다 그것은 위임의 어떤 종류를 설정하지 않습니다. 몇몇 거미가 아직도 너의 페이지를 포복할 고 가능성 있는다. 따라서 크롤러를 차단할 필요가 있습니다.
이전 기사에서 우리는 웹 사이트에서 크롤러,스파이더 및 봇을 허용하지 않는 방법에 대해 썼습니다. 이 방법은 효율적이지만 분명히 충분하지 않은 것 같습니다. 따라서,발생이 문제를 해결하기 위해 우리는 주위에 일을 마련 할 것이다 나는 당신에게 단지 그것을 제공 할 것입니다. 지금,대신 로봇의 지시와 크롤러를 허용하지.우리는 크롤러를 차단할 것입니다.
크롤러를 차단하는 방법은 아파치 2.4.7(우분투에 설치됨)에서 시도되었다. 나는 그것이 아파치 2.4 와 함께 작동 할 것으로 기대한다.아파치에서 아래에 주어진 메소드를 구현할 수 없다면,코멘트 섹션에서 나에게 글을 써라. 아파치 버전 및 서버 운영 체제에 대한 정보를 제공하십시오. 당신이 어떤 민감한 정보를 제공하려는 경우,당신은 나에게 쓸 수 있습니다 [email protected].크롤러를 차단하기 위한
기본 인증
크롤러를 차단하기 위한 첫 번째 방법은 기본 인증을 사용하는 것입니다. 때때로 당신은 당신이 아래 이미지와 같은 몇 가지 웹 사이트에 액세스 할 때 인증 상자 건너 수도 있습니다.
위의 상자는
암호 파일 만들기
첫 번째 단계는 사용자 이름과 암호를 포함하는 암호 파일을 만드는 것입니다. 을 사용하여 서버에 연결 SSH 고 실행하는 아래 명령
htpasswd-c<path_of_the_password_file><사용자 이름>
대체<path_of_the_password_file>으로 위치를 만들고 싶을 저장하는 파일 사용자 이름과 암호를 조합에 암호화된 형식입니다. 설명을 위해 경로/홈/타신/데스크톱을 제공한다고 가정 해 봅시다. <사용자 이름>을 원하는 사용자 이름으로 바꿉니다. 데모를 위해 사용자 이름을 만들 것입니다. 그래서 지금 당신의 명령은 다음과 같이 보일 것입니다.
/홈/타신/데스크탑/비밀번호 위즈랩
위의 명령에서 암호 파일 위치 및 사용자 이름을 교체 한 후,입력 히트. 그것은 당신이 추가 할 사용자 이름의 암호를 요청합니다. 그것을 암호를 제공하고 입력 히트. 파일에 사용자 이름을 추가 한 후에는 사용자<사용자 이름>에 대한 암호를 추가하는 메시지가 표시됩니다. 아래 이미지는 내가 말하는 것을 명확하게 이해하는 데 도움이 될 것입니다.
암호 파일 만들기
참고:위의 명령에서 우리는 통과 한-다 옵션,이 파일을 생성하도록. 당신은 이미 사용자 이름-암호 조합을 저장해야하는 파일이있는 경우,당신은 제공 할 필요가 없습니다-기음 매개 변수.
구성 파일 편집
지금까지 사용자 이름과 암호를 만들었습니다. 이제 사이트 구성에 이 정보를 추가할 차례입니다. 이 단계는 웹 사이트에서 크롤러를 차단하는 데 도움이됩니다. 의 당신이 이것을 구현하기 위해 노력하고,가정 해 봅시다 abc.com.해당 도메인에 대한 가상 호스트 구성은 디렉토리/기타/아파치 2/사이트-사용 가능한 디렉토리에있을 것입니다. 나는 그 구성 파일을 가정하고있다 abc.com 아래 명령을 사용하여 편집 할 구성 파일을 엽니 다.1618>
구성 파일의 가상 호스트 블록의 끝에 내용 아래에 추가합니다.
<디렉토리/>#웹 사이트에 직접 액세스 할 수 있습니다. 이 문제를 해결하려면 다음을 수행하십시오.암호를 입력합니다.암호 작성 이름"인증 필요"유효한 필요-모든</디렉터리를 만족 하는 사용자>위의 내용을 추가 한 후 파일을 저장하고 아래 명령을 실행하여 아파치를 다시로드하십시오.1618>
당신은 완료! 이제 웹 사이트를 방문하려고,그것은 당신에게 사용자 이름과 암호를 요청해야합니다(당신은 내부 네트워크에서 방문하지 않는 경우). 이 인증 팝업이 나타나면 크롤러를 차단하려는 시도가 효과가 있습니다!
403 으로 응답하여 크롤러 차단
크롤러를 차단하는 두 번째 방법은 크롤러에 403 으로 응답하는 것입니다. 이 방법에서 우리가 할 것은 크롤러의 사용자 에이전트를 탐지하고 차단하려고 시도 할 것입니다. 이 방법의 단점은 사용자 에이전트가 변경되면 크롤러가 콘텐츠를 크롤링 할 수 있다는 것입니다.
당신은 아래의 내용을 추가 할 수 있습니다.크롤러를 차단합니다. 그것은에 추가 한 후 작동하지 않는 경우.이전 방법에서처럼 해당 도메인의 가상호스트 구성 파일을 편집해야 합니다.1618>
<2018 년 11 월 1 일(토)~11 월 1 일(일)*(googlebot|bingbot|yahoo|AhrefsBot|Baiduspider|Ezooms|MJ12bot|YandexBot|bot|agent|spider|crawler|extractor).*$다시 쓰기 규칙.*-<>여전히 작동하지 않는 경우 다시 쓰기 모듈이 활성화되어 있는지 확인하십시오. 그렇게하려면 아래 명령을 실행하십시오.
만약 출력에 다시 _모듈이 표시되지 않는다면,이를 차단하기 위해 활성화해야 합니다. 당신이 다음 문서를 참조 활성화하는 방법을 모르는 경우,모듈을 다시 작성 할 수 있습니다.
위의 두 가지 방법은 귀하의 웹 사이트에서 크롤러를 차단하는 데 도움이 상당한해야한다. 당신은 여전히 어려움을 겪고있는 경우 그러나,다음 코멘트 섹션을 통해 나와 함께 연락 주시기 바랍니다.
- 워드 프레스 팁&트릭
- 태그: 아파치,블록 크롤러,
기본 인증,준비 사이트,웹 스파이더
- 이 블로그 게시물의 링크 중 일부는 제휴 링크 일 수 있습니다. 이것은 당신이 그런 연결을 사용하여 제품을 구매하기 위하여 계속하는 경우에,우리 받습니다 작은 임무를 의미합니다(당신에게 추가 비용 없이). 이를 통해 블로그를 지원하고 무료 콘텐츠를 제작할 수 있습니다. 우리는 우리가 함께 일하거나 사랑하는 제품 만 추천합니다. 당신의 지원을 당신을 감사하십시오!