Robots.Txt

Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами.

Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent: и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow.

Запрет индексации всего сервера

Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки:

	User-agent: *
	Disallow: /

В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше.

Запрет индексации для одного робота

	User-agent: BadBot
	Disallow: /

Разрешение индексации всего сервера

Для того, чтобы разрешить индексацию всего сервера пишем:

	User-agent: *
	Disallow:

Аналогичного эффекта можно добиться создав пустой файл robots.txt.

Разрешение индексации только для одного робота

	User-agent: WebCrawler
	Disallow:

	User-agent: *
	Disallow: /

Запрет индексации отдельных дирректорий

Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow:

	User-agent: *
	Disallow: /cgi-bin/
	Disallow: /tmp/
	Disallow: /private/

Запрет индексации отдельных дирректорий определенным поисковикам

Рамблеру и Апорту запретить индексацию ссылок, которые начинаются с /news и /eng:

	User-agent: StackRambler 
	User-agent: Aport 
	Disallow: /eng 
	Disallow: /news

Запрет индексации отдельных файлов

Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:

	User-agent: *
	Disallow: /~user/private.html
	Disallow: /~user/emails.html
	Disallow: /~user/contacts.html

Запрет индексации определенного типа файлов

Некоторые системы разрешают использование регулярных выражений. Так Google, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$» (окончание строки ссылки). Запрет индексации файлов PDF:

	User-agent: Googlebot 
	Disallow: *.pdf$

Использование мета-инструкций для запрета индексации

Отметим, что вместо файла robots.txt можно использовать мета-инструкций (<META NAME=»ROBOTS»>) в заголовке HTML документа (<HEAD>). Например,

	<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию.

Ссылки по теме:

A Standard for Robot Exclusion

Проверка файла robots.txt

6 709 просмотров

Tsamada

Robots.Txt

Запрет индексации всего сервера

Запрет индексации для одного робота

Разрешение индексации всего сервера

Разрешение индексации только для одного робота

Запрет индексации отдельных дирректорий

Запрет индексации отдельных дирректорий определенным поисковикам

Запрет индексации отдельных файлов

Запрет индексации определенного типа файлов

Использование мета-инструкций для запрета индексации

Оставьте комментарий

Доступные кубики

Рубрики

Случайные записи

Галерея PikaChoose и навигация интегрированного Fancybox

Удалить из документа все HTML-теги

MAC Address Spoofing

Несколько ошибок с PHP версии 5.3 и выше

T-бит, SUID и SGID