Прежде всего, файл этот нужен для того, чтобы указать поисковым системам, какие страницы сайта нужно (или не нужно) индексировать. Попав на сайт, поисковый робот прежде всего проверяет файла robots.txt и, в зависимости от прописанных в нем правил, осуществляются дальнейшие действия.
С общим описанием директив можно ознакомиться в статье - Файл robots.txt.
А в данном случае речь пойдет о Joomla 2.5
вот в таком виде оригинальный файл | а вот так лучше доработать | |
---|---|---|
# If the Joomla site is installed within a folder such as at # e.g. www.example.com/joomla/ the robots.txt file MUST be # moved to the site root at e.g. www.example.com/robots.txt # AND the joomla folder name MUST be prefixed to the disallowed # path, e.g. the Disallow rule for the /administrator/ folder # MUST be changed to read Disallow: /joomla/administrator/ # # For more information about the robots.txt standard, see: # http://www.robotstxt.org/orig.html # # For syntax checking, see: # http://www.sxw.org.uk/computing/robots/check.html User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ |
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /*mailto* Disallow: /*start* Disallow: /*print* Disallow: /*feed* Disallow: /*search* Disallow: /*users* User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /*mailto* Disallow: /*start* Disallow: /*print* Disallow: /*feed* Disallow: /*search* Disallow: /*users* Host: ваш сайт Sitemap: http://ваш сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1 |
Почему и в чем разница?
Во-первых, стоит прописать отдельно правила индексации для поисковика Яндекса и остальных (Google, MSN, Yahoo), поскольку первый нарушает множество директив и требует дополнительных указаний.
Во-вторых, и это касается всех поисковых систем, следует открыть для индексации папку с изображениями - в этом случае они будут участвовать поиске по картинкам Google и Яндекса. (В этом случае необходимо будет прописывать атрибуты Alt и Title в изображениях, так как эти атрибуты являются ключевыми словами для поиска по картинкам Яндекса и Google)
В-третьих, не все советы хороши - как-то, сделав файл robots.txt согласно доработанному, заметил, что Yandex вообще перестал индексировать сайт. Не знаю, то ли я где ошибся, то ли алгоритм робота поменялся, но, в результате, от этой схемы раздельного индексирования отказался. Единственное, что ссылку на карту сайта оставил.
*
Частичка файла robots.txt от А. Куртеева (alex-kurteev.ru - настройки указаны для сайта, на котором включен SEF, и версия Джумлы 3.хх):
|
|
User-agent: *
Disallow: *?*
Disallow: /index.php
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /index.php?*
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
|
А посмотреть файл robots.txt сайта можно, набрав в командной строке браузера адрес: http://ваш сайт/robots.txt
Полезные ссылки по теме:
*