본문으로 바로가기

robots.txt 를 알아보자

category IT. 2016. 5. 6. 05:52



robots.txt 를 알아보자


안녕하세요 ~ 왕발이에요오옹 ~ @_@


오늘 포스팅할 주제는 robots.txt 입니다.

어디서 많이 들어보셨을텐데요. 맞습니다. 맞고요. 바로 그겁니다.


인터넷 상에 존재하는 웹봇들이 정보를 수집하여, 검색에 뜨게 끔 해주는 웹봇에 대한 자기 웹페이지 설정입니다.


즉, robots.txt 에서 어떻게 작성하느냐에 따라서 웹봇이 접근가능할지, 못할지가 결정됩니다.


지금부터 설정방법에 대해서 알아보도록 하겠습니다.


일단 "robots.txt" 파일을 생성해주세요.


파일을 열어서 텍스트 편집기에서 수정해주시면 됩니다.


User-agent: *

Allow: /

Disallow: /

Crawl-delay: 3600


위와 같은 메뉴 4개가 존재합니다.

User-agent: 봇 명칭

Allow: 허용

Disallow: 비허용

Crawl-delay: 재방문 시간제한


예제를 들어서 말씀드리겠습니다.


= 예제 1 =

User-agent: *

Allow: /

Disallow: /homepage/

Crawl-delay: 180


모든 봇에 해당

전체 접근 가능

/homepage/ 접근 불가능

3분에 한번씩만 접근 가능


= 예제 2 =

User-agent: *

Disallow: /

Allow: /homepage/

Crawl-delay: 180


모든 봇에 해당

전체 접근 불가능

/homepage/ 만 접근 가능

3분에 한번씩 접근 가능


= 예제 3 =

User-agent: Googlebot

Disallow: /


구글 봇에만 해당

전체 접근 불가능


= 봇 이름 =

구글 : Googlebot

네이버 : Naverbot

다음 : Daumoa

야후 : Yahoo! Slurp

Microsoft : Msnbot

Bing : Bingbot


위와 같이 설명드렸습니다.


이가 필요한 이유는, 검색 웹봇에 의한 검색으로 인한 페이지 노출이 되면 안되는 곳에는 꼭 !! 접근 불가능 처리를 해주셔야 합니다.


이 기능을 최적화하셔서 잘 이용하신다면, 웹 사이트에서 더욱 더 많은 검색이 되실 수 있게 됩니다 !


감사합니다 :)



'IT.' 카테고리의 다른 글

오토캐드 리습(LISP)  (0) 2016.05.06
MYSQL TIMESTAMP  (0) 2016.05.04
라즈베리파이 카메라 스트리밍 (MJPG-Streamer)  (2) 2016.05.02