Правильный файл robots txt opencart
Поисковые роботы индексируют сайт независимо от наличия robots.txt и sitemap.xml , с помощью файла robots.txt можно указать поисковым машинам, что исключить из индекса, и настроить другие важные параметры.
Стоит учесть, что краулеры поисковых машин игнорируют определенные правила, например:
- Google Bot не использует директиву host и Crawl-Delay полный список поисковых роботов Google.
- Yandex Direct, YandexDirectDyn, Yandex Video Parser и другие специфичные роботы: обходят общие директивы, если они не написаны специально для них.
Директивы
Основные - часто используемые директивы
User-agent: директива, с которой начинается Robots.txt .
Спецсимволы, которые используются в robots.txt /, * , $.
Обратите внимание на символ / , можно допустить крупную ошибку прописав например:
Спецсимвол * означает любую, в том числе и пустую, последовательность символов, например:
Спецсимвол $ ограничивает действие символа * , дает строгое ограничение:
Директива sitemap - указывает путь к карте сайта и выглядит так:
Директива Crow-Delay - ограничивает нагрузку на сервер, задает таймаут для поисковых машин:
Директива Clean-Param необходима, если адреса страниц сайта содержат динамические параметры, которые не влияют на содержимое, например: идентификаторы сессий, пользователей, рефереров и т. п.
Робот Яндекса, используя значения директивы Clean-Param, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Например, страницы с таким адресом:
Параметр ref используется только для того, чтобы отследить, с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:
робот Яндекса сведет все адреса страницы к одному:
Также стоит отметить, что для этой директивы есть несколько вариантов настройки
Кириллические символы в robots.txt
Использование символов русского алфавита запрещено в robots.txt, для этого необходимо использовать Punycode (стандартизированный метод преобразования последовательностей Unicode-символов в так называемые ACE-последовательности)
Рекомендации по тому, что нужно закрывать в файле robots.txt
Ошибки, которые могут быть в robots.txt
Проверка ошибок в robots.txt c помощью Лабрики
labrika→в левом меню Технический аудит→в выпадающем меню→Ошибки robots.txt→перепроверить robots.txt
Необходимо учесть, что файл размером больше 32кб считывается как полностью разрешающий, вне зависимости от того, что написано.
Читайте также: