스킬(skills)/HTML

검색엔진에서 사이트 정보수집 방지 방법

후바스탱크 2013. 5. 23. 15:20

검색엔진이 자신의 사이트 정보수집을 원하지 않을경우 두가지 방법이 있다.

1. robots.txt 파일을 만드다.

robots.txt 파일의 위치는 웹서버 홈디레토리에 위치해야한다.
즉 브라우져로 http://도메인명/robots.txt 파일로 접근시 확인이 되는위치.

User-agent:*
Disallow:/폴더명
Allow:/폴더명

User-agent -> 검색엔진 명 (*는 모두,naverbot 네이버, Googlebot 구글)
Disallow -> 수집 차단 폴더. 하위폴더까지 포함
Allow -> 수집 허용할 폴더. 하위폴더까지 포함.

포털사이트도 타 검색엔진에 수집을 원하지 않는 데이터가 있다.
구글 : http://www.google.com/robots.txt
네이버 : http://www.naver.com/robots.txt

참고 : http://www.robotstxt.org/robotstxt.html


2. 각 페이지에 meta태그를 작성한다.

<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />

- content 속성값
INDEX : 수집허용.
FOLLOW : 수집허용. 포함된 링크까지 수집대상이됨.
NOINDEX : 수집거부.
NOFOLLOW : 수집거부. 포함된 링크도 수집거부함.
ALL : INDEX,FOLLOW 와 동일
NONE : NOINDEX,NOFOLLOW 와 동일

참고 : http://www.robotstxt.org/meta.html


메타태그를 이용한 수집거부는 일부검색엔진에서 지켜지지 않는다고 한다.