Robots.txt и индексирование страниц

Для чайников - robots.txt это файл, который помещается в корень сайта и содержит внутри себя правила индексации каталогов сайта. Robots.txt может только запрещать индексировать разные каталоги и файлы для различных роботов, хотя у него вроде есть и другие возможности.

Итак в структуре данного файла есть пара базовых дирректив: User-agent, Disallow

User-agent - определяет имя робота, который индексирует сайт

Disallow - указывает на запрет индексации директории и всех подкаталогов или файла

Например

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/Disallow: /private/

Это правила для всех ботов, но если вы хотите определить правила отдельно для некоторых ботов нужно сделать так:

User-agent: WeirdBot
Disallow: /tmp/Disallow: /private/

Disallow: /links/listing.html



User-agent: Google
Disallow: /tmp/Disallow: /private/
User-agent: *

Disallow: /tmp/

Disallow: /private/

Обратите внимание User-agent: * нужно размещать в конце списка, это принципиально важно!

Кроме этого есть так называемая расширенная спецификация robots.txt Данная спецификация содержит много расширений, но поддерживается ли она поисковыми роботами я не знаю.

Robots.txt и Глюки Яндекса

Очень часто получается так, что Яндекс определяет основным доменом www.site.ru вместо site.ru. А как показывает практика дополнительные www в адресе зачастую не нужны. Что бы указать роботу Яндекса, что ваш домен нужно учитывать без www (а может и обратная ситуация возникнет) вы должны в robots прописать следующее:

User-agent: Yandex
Disallow:
Host: www.fresh2l.com

Важно: блоки указаний роботам должны разделяться пустой строкой. После этого надо будет дождаться захода на сайт робота зеркальщика, он отследит изменения и переклеит сайты по адресу, указанному в Host. Процесс переклейки в среднем занимает до 4–6 недель, ускорить его, к сожалению, нельзя. В этом случае сайт появится в базе Яндекса только после того, как произойдет «переклейка».

Ссылки по теме:

Информация о Robots.txt

Расширенный стандарт robots.txt

Список поисковых ботов

Будем надеяться, что созданные вами сайты будут качественно индексироваться поисковиками, без всякого мусора.

Оставить комментарий

Comment spam protected by SpamBam