Важно передать поисковикам актуальную информацию о страницах, которые закрыты от индексации, о главном зеркале и карте сайта (sitemap.xml). Для этого в корне сайта создается файл robots.tx и заполняется директивами.
Рассмотрим как в самом общем случае в битриксе создать файл robots.txt.
Первое, переходим на страницу Рабочий стол -> Маркетинг -> Поисковая оптимизация -> Настройка robots.txt
Второе, указываем основные правила.
На первой строчке видим
User-agent: *
, это означает, что директивы указаны для всех роботов всех поисковых систем.Закрываем от индексации страницу авторизации, личного кабинета и другие директории и страницы, которые не должны попасть в результаты поиска.
Для того, чтобы закрыть директорию пишем правило:
Disallow: /auth/
Третье, указываем главное зеркало сайта с помощью директивы Host. Учтите www, если главным выбран домен с www.
Четвертое, в директиве Sitemap прописываем ссылку к файлк sitemap.xml.
В целом, это все что требуется, для того, чтобы передать файл в вебмастера Яндекса и Google.
В интерфейсе cms битрикс, есть возможность работать с каждым роботом(у поисковиков есть несколько ботов(роботов), которые занимаются отдельными действиями).
Вот роботы Яндекса:
- YandexBot — основной индексирующий
- YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы
- YandexMedia — робот, индексирующий мультимедийные данные
- YandexImages — индексатор Яндекс.Картинок
- YandexBlogs поиска по блогам — робот, индексирующий посты и комментарии
- YandexNews — робот Яндекс.Новостей
- YandexMetrika — робот Яндекс.Метрики
- YandexMarket — робот Яндекс.Маркета
Например, вам не нужно индексировать картинки, находящиеся в папке /include/, но вы хотите, чтобы статьи из этого раздела индексировались. Для этого, следует закрыть директивой Disallow папку /include/ для робота YandexImages.
User-agent: YandexImages
Disallow: /include/
Семен Голиков.