robots.txt 파일을 사용하여 검색 엔진 및 웹 크롤러를 제어하는 방법
검색 엔진 및 웹 크롤러가 색인을 생성하게 할 사이트의 섹션과 무시해야하는 섹션을 지정할 수 있습니다. 이렇게하려면 robots.txt 파일에 지시문을 지정하고 문서 루트 디렉토리에 robots.txt 파일을 저장합니다.
robots.txt 파일에서 지정하는 지시문은 요청 일뿐입니다.
대부분의 검색 엔진과 많은 웹 크롤러가 이러한 지침을 존중 하지만 그렇게 할 의무 는 없습니다 .
따라서 색인을 생성하지 않으려는 콘텐츠를 숨기려면 robots.txt 파일에 의존해서는 안됩니다.
1. ROBOTS.TXT 지시어 사용하기
robots.txt 파일에 사용 된 지시어는 간단하고 이해하기 쉽습니다. 가장 일반적으로 사용되는 지시문은 User-agent , Disallow 및 Crawl-delay 입니다.
ex 1) 모든 크롤러에게 모든 파일에 액세스하도록 지시
User-agent: *
Disallow :
이 예제는 사용자 에이전트 지시문 및 별표 와일드 카드로 지정된 모든 크롤러는 사이트의 모든 파일에 액세스 할 수 있습니다.
ex 2) 모든 크롤러에게 모든 파일을 무시하도록 지시
User-agent: *
Disallow : /
이 예제는 모든 크롤러가 사이트의 모든 파일을 무시하도록 합니다.
ex 3) 모든 크롤러에게 특정 디렉토리를 무시하도록 지시
User-agent: *
Disallow : / scripts /
이 예제는 모든 크롤러는 scripts 디렉토리 를 무시하도록 합니다 .
ex 4) 모든 크롤러에게 특정 파일을 무시하도록 지시
User-agent: *
Disallow : /documents/index.html
이 예제는 모든 크롤러는 documents/index.html 디렉토리를 무시하도록 합니다 .
예제 5 : 크롤링 간격 제어
User-agent: *
Crawl-delay: 30
이 예제는 모든 크롤러는 웹 서버에 대한 연속적인 요청 사이에서 최소 30 초 동안 대기하도록 지시합니다.
추가 정보
robots.txt 파일에 대한 자세한 내용은 http://www.robotstxt.org를 참조하십시오 .
'WEB' 카테고리의 다른 글
Windows에서 로컬 DNS 캐시를 지우는 방법 (0) | 2019.04.08 |
---|---|
무료 DB 쿼리툴 QueryBox를 소개합니다. (0) | 2019.02.24 |
CSS Menu 만들기 (0) | 2019.01.23 |
배경을 지우는 프로그램 없이 인물만 추출하기 (0) | 2019.01.23 |
BotMan - 챗봇(Chatbot) 개발을 위한 PHP 프레임워크 (0) | 2019.01.13 |