'Robots'에 해당되는 글 1건

  1. 2007.08.23 검색 로봇 막기..!!
(분류상.. 리눅스 서버 사용을 전제로 하기 때문에..
카테고리를 study / Linux 로 함을 미리 밝힙니다. )


Tatter tools 같은 경우에는..
외국 ip 의 글을 차단하거나..
각종 검색 엔진을 차단하는 플러그인이 있어서...
유용하게 쓰는데...
제로보드나 등등 블로그가 아닌 홈페이지를 운영함에 있어서...
정보 유출이 되는 경우가 많아서..
로봇(검색엔진의 자동 검색로봇)의 검색을 막는 법을 이리저리 찾다가..
아래와 같은 것을 찾았네요.. ㅎㅎ..

대충 영어도 보실 수 있겠죠..? ㅎㅎ..
출처는...
http://www.robotstxt.org/
이며 정확한 내용이 있는 페이지는
http://www.robotstxt.org/wc/exclusion-admin.html
입니다.. ^^;;

대략적으로 robots.txt  라는 파일로..
User-agent: *
Disallow: /


라는 내용을 쓴 다음에 html root 에 파일을 두면...
모두 검색이 허용되지 않는 다는 것만 알아도...
대부분 사용하시는데는.. 큰 무리 없으실 듯 하네요.. ㅎㅎ..



What to put into the robots.txt file

The "/robots.txt" file usually contains a record looking like this:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

In this example, three directories are excluded.

Note that you need a separate "Disallow" line for every URL prefix you want to exclude -- you cannot say "Disallow: /cgi-bin/ /tmp/". Also, you may not have blank lines in a record, as they are used to delimit multiple records.

Note also that regular expression are not supported in either the User-agent or Disallow lines. The '*' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "Disallow: /tmp/*" or "Disallow: *.gif".

What you want to exclude depends on your server. Everything not explicitly disallowed is considered fair game to retrieve. Here follow some examples:

To exclude all robots from the entire server

User-agent: *
Disallow: /

To allow all robots complete access

User-agent: *
Disallow:

Or create an empty "/robots.txt" file.

To exclude all robots from part of the server

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

To exclude a single robot

User-agent: BadBot
Disallow: /

To allow a single robot

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

To exclude all files except one

This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/docs/
Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html






또한.. Meta tag 를 이용하는 방법으로...

각 문서의 head 와 /head 사이에..
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW" >
라는 것을 넣는 방법도 있답니다.


'Study.. > Linux' 카테고리의 다른 글

ubuntu server setting  (2) 2008.05.02
Ubunto 메모리 테스트..  (0) 2008.03.15
Adding A System Call  (0) 2007.06.03
Linux System Call Table  (0) 2007.06.03
리눅스 프로그래머를 위한 가이드  (0) 2007.06.03
Posted by Yoons...
,