검색엔진에서 사이트 정보수집 방지 방법

스킬(skills)/HTML

검색엔진에서 사이트 정보수집 방지 방법

후바스탱크 2013. 5. 23. 15:20

검색엔진이 자신의 사이트 정보수집을 원하지 않을경우 두가지 방법이 있다.

1. robots.txt 파일을 만드다.

robots.txt 파일의 위치는 웹서버 홈디레토리에 위치해야한다.
즉 브라우져로 http://도메인명/robots.txt 파일로 접근시 확인이 되는위치.

User-agent:*
Disallow:/폴더명
Allow:/폴더명

User-agent -> 검색엔진 명 (*는 모두,naverbot 네이버, Googlebot 구글)
Disallow -> 수집 차단 폴더. 하위폴더까지 포함
Allow -> 수집 허용할 폴더. 하위폴더까지 포함.

포털사이트도 타 검색엔진에 수집을 원하지 않는 데이터가 있다.
구글 : http://www.google.com/robots.txt
네이버 : http://www.naver.com/robots.txt

참고 : http://www.robotstxt.org/robotstxt.html

2. 각 페이지에 meta태그를 작성한다.

<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />

- content 속성값
INDEX : 수집허용.
FOLLOW : 수집허용. 포함된 링크까지 수집대상이됨.
NOINDEX : 수집거부.
NOFOLLOW : 수집거부. 포함된 링크도 수집거부함.
ALL : INDEX,FOLLOW 와 동일
NONE : NOINDEX,NOFOLLOW 와 동일

참고 : http://www.robotstxt.org/meta.html

메타태그를 이용한 수집거부는 일부검색엔진에서 지켜지지 않는다고 한다.

'스킬(skills) > HTML' 카테고리의 다른 글

div 세로로 가운데 정렬 (0)	2014.03.19
HTML 코드 정리 사이트 (0)	2014.03.19
td 안에서 세로 정렬 방법 (1)	2014.01.15
에디트플러스(editplus) 에서 html 코드 정리하기 (2)	2013.12.24
img alt 속성에 관하여 (2)	2013.09.09

현재글검색엔진에서 사이트 정보수집 방지 방법

Hello Brother!

예전에는 제가 작업했던 내용을 백업 해 놓는 정도로 의미로 메모장처럼 복사/붙여넣기 형식으로 사용했었습니다. 그러나 요즘엔 직접 하나하나 작성하며 한번 더 머릿속에 기억하려 노력하니 블로그 관리하는 재미가 늘어났습니다. 제가 작성한 글로 인해 누군가가 도움 받았으면 좋겠습니다.

spring file download, div 가운데 정렬, 스프링 세션, 리눅스 파일 각각 압축, redirect session, java 실행파일 만들기, 제우스 war 배포, jeus war 디플로이, spring session, 스프링 파일 업로드, 제우스 war, jeus war deploy, java mail lock, html 코드정리, 스프링 파일 다운로드, 제우스 와르 배포, com.sun.mail.smtp.SMTPTransport.close, spring file upload, com.sun.mail.smtp.SMTPTransport.close lock, launch4j,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hello Brother!