Robots.Txt
Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами.
Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent:
и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:
). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow
соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow
.
Запрет индексации всего сервера
Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки:
User-agent: *
Disallow: /
В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше.
Запрет индексации для одного робота
User-agent: BadBot
Disallow: /
Разрешение индексации всего сервера
Для того, чтобы разрешить индексацию всего сервера пишем:
User-agent: *
Disallow:
Аналогичного эффекта можно добиться создав пустой файл robots.txt.
Разрешение индексации только для одного робота
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Запрет индексации отдельных дирректорий
Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow
:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запрет индексации отдельных дирректорий определенным поисковикам
Рамблеру и Апорту запретить индексацию ссылок, которые начинаются с /news и /eng:
User-agent: StackRambler
User-agent: Aport
Disallow: /eng
Disallow: /news
Запрет индексации отдельных файлов
Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:
User-agent: *
Disallow: /~user/private.html
Disallow: /~user/emails.html
Disallow: /~user/contacts.html
Запрет индексации определенного типа файлов
Некоторые системы разрешают использование регулярных выражений. Так Google, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$» (окончание строки ссылки). Запрет индексации файлов PDF:
User-agent: Googlebot
Disallow: *.pdf$
Использование мета-инструкций для запрета индексации
Отметим, что вместо файла robots.txt можно использовать мета-инструкций (<META NAME=»ROBOTS»>) в заголовке HTML документа (<HEAD>). Например,
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию.
Ссылки по теме:
A Standard for Robot Exclusion
Проверка файла robots.txt