robots.txt 파일을 사용하여 검색 엔진 및 웹 크롤러 제어

WEB

projin 2019. 1. 24. 10:13

robots.txt 파일을 사용하여 검색 엔진 및 웹 크롤러를 제어하는 방법

검색 엔진 및 웹 크롤러가 색인을 생성하게 할 사이트의 섹션과 무시해야하는 섹션을 지정할 수 있습니다. 이렇게하려면 robots.txt 파일에 지시문을 지정하고 문서 루트 디렉토리에 robots.txt 파일을 저장합니다.

robots.txt 파일에서 지정하는 지시문은 요청 일뿐입니다. 
대부분의 검색 엔진과 많은 웹 크롤러가 이러한 지침을 존중 하지만 그렇게 할 의무 는 없습니다 .
따라서 색인을 생성하지 않으려는 콘텐츠를 숨기려면 robots.txt 파일에 의존해서는 안됩니다.

1. ROBOTS.TXT 지시어 사용하기

robots.txt 파일에 사용 된 지시어는 간단하고 이해하기 쉽습니다. 가장 일반적으로 사용되는 지시문은 User-agent , Disallow 및 Crawl-delay 입니다.

ex 1) 모든 크롤러에게 모든 파일에 액세스하도록 지시

User-agent: *
Disallow :

이 예제는 사용자 에이전트 지시문 및 별표 와일드 카드로 지정된 모든 크롤러는 사이트의 모든 파일에 액세스 할 수 있습니다.

ex 2) 모든 크롤러에게 모든 파일을 무시하도록 지시

User-agent: *
Disallow : /

이 예제는 모든 크롤러가 사이트의 모든 파일을 무시하도록 합니다.

ex 3) 모든 크롤러에게 특정 디렉토리를 무시하도록 지시

User-agent: *
Disallow : / scripts /

이 예제는 모든 크롤러는 scripts 디렉토리 를 무시하도록 합니다 .

ex 4) 모든 크롤러에게 특정 파일을 무시하도록 지시

User-agent: *
Disallow : /documents/index.html

이 예제는 모든 크롤러는 documents/index.html 디렉토리를 무시하도록 합니다 .

예제 5 : 크롤링 간격 제어

User-agent: *
Crawl-delay: 30

이 예제는 모든 크롤러는 웹 서버에 대한 연속적인 요청 사이에서 최소 30 초 동안 대기하도록 지시합니다.

추가 정보

robots.txt 파일에 대한 자세한 내용은 http://www.robotstxt.org를 참조하십시오 .

LIST

Windows에서 로컬 DNS 캐시를 지우는 방법 (0)	2019.04.08
무료 DB 쿼리툴 QueryBox를 소개합니다. (0)	2019.02.24
CSS Menu 만들기 (0)	2019.01.23
배경을 지우는 프로그램 없이 인물만 추출하기 (0)	2019.01.23
BotMan - 챗봇(Chatbot) 개발을 위한 PHP 프레임워크 (0)	2019.01.13

지니