Robots.txt и индексирование страниц
Для чайников - robots.txt это файл, который помещается в корень сайта и содержит внутри себя правила индексации каталогов сайта. Robots.txt может только запрещать индексировать разные каталоги и файлы для различных роботов, хотя у него вроде есть и другие возможности.
Итак в структуре данного файла есть пара базовых дирректив: User-agent, Disallow
User-agent - определяет имя робота, который индексирует сайт
Disallow - указывает на запрет индексации директории и всех подкаталогов или файла
Например
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/Disallow: /private/
Это правила для всех ботов, но если вы хотите определить правила отдельно для некоторых ботов нужно сделать так:
User-agent: WeirdBot
Disallow: /tmp/Disallow: /private/ Disallow: /links/listing.html
User-agent: Google
Disallow: /tmp/Disallow: /private/
User-agent: * Disallow: /tmp/ Disallow: /private/
Обратите внимание User-agent: * нужно размещать в конце списка, это принципиально важно!
Кроме этого есть так называемая расширенная спецификация robots.txt Данная спецификация содержит много расширений, но поддерживается ли она поисковыми роботами я не знаю.
Robots.txt и Глюки Яндекса
Очень часто получается так, что Яндекс определяет основным доменом www.site.ru вместо site.ru. А как показывает практика дополнительные www в адресе зачастую не нужны. Что бы указать роботу Яндекса, что ваш домен нужно учитывать без www (а может и обратная ситуация возникнет) вы должны в robots прописать следующее:
User-agent: Yandex
Disallow:
Host: www.fresh2l.com
Важно: блоки указаний роботам должны разделяться пустой строкой. После этого надо будет дождаться захода на сайт робота зеркальщика, он отследит изменения и переклеит сайты по адресу, указанному в Host. Процесс переклейки в среднем занимает до 4–6 недель, ускорить его, к сожалению, нельзя. В этом случае сайт появится в базе Яндекса только после того, как произойдет «переклейка».
Ссылки по теме:
Будем надеяться, что созданные вами сайты будут качественно индексироваться поисковиками, без всякого мусора.



