Прежде всего, файл этот нужен для того, чтобы указать поисковым системам, какие страницы сайта нужно (или не нужно) индексировать. Попав на сайт, поисковый робот прежде всего проверяет файла robots.txt и, в зависимости от прописанных в нем правил, осуществляются дальнейшие действия.

 С общим описанием директив можно ознакомиться в статье - Файл robots.txt.

А в данном случае речь пойдет о Joomla 2.5

вот в таком виде оригинальный файл а вот так лучше доработать
# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
  User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Host: ваш сайт
Sitemap: http://ваш сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1

 Почему и в чем разница?

Во-первых, стоит прописать отдельно правила индексации для поисковика Яндекса и остальных (Google, MSN, Yahoo), поскольку первый нарушает множество директив и требует дополнительных указаний.

Во-вторых, и это касается всех поисковых систем, следует открыть для индексации папку с изображениями - в этом случае они будут участвовать поиске по картинкам Google и Яндекса. (В этом случае необходимо будет прописывать атрибуты Alt и Title в изображениях, так как эти атрибуты являются ключевыми словами для поиска по картинкам Яндекса и Google)

В-третьих, не все советы хороши - как-то, сделав файл robots.txt согласно доработанному, заметил, что Yandex вообще перестал индексировать сайт. Не знаю, то ли я где ошибся, то ли алгоритм робота поменялся, но, в результате, от этой схемы раздельного индексирования отказался. Единственное, что ссылку на карту сайта оставил.

*

Частичка файла robots.txt от А. Куртеева (alex-kurteev.ru - настройки указаны для сайта, на котором включен SEF, и версия Джумлы 3.хх):
 
User-agent: *
 
Disallow: *?*
Disallow: /index.php
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /index.php?*
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
 

 

А посмотреть файл robots.txt сайта можно, набрав в командной строке браузера адрес: http://ваш сайт/robots.txt

 Полезные ссылки по теме:

*