Роботу googlebot заблокирован доступ в файле robots txt как исправить
ПС Google хочет всё знать о ваших сайтах, это помогает ей в ранжировании и позволяет получить ценную информацию для построения выдачи. Ранее файлы css и js можно было закрывать, далеко боты не ходили, но в последнее время у них появился такой интерес и надо его уважать из солидарности. Скорее всего, никто понижать позиции прямо завтра не будет, но требование есть требование и будем соответствовать нормам.
Находим файлы без доступа
Для того чтобы найти, к каким файлам css и js не может получить доступ GoogleBot, надо перейти в панель вебмастера и открыть вкладку:
Сканирование – посмотреть как GoogleBot.
Поле ввода оставляете пустым и нажимаете «получить и отобразить» после чего синеете и зеленеете от ожидания. Вернее всего, вы увидите статус «частично выполнено», на него надо нажать и вам откроется панель с двумя скринами сайта:
- - Так увидел эту страницу робот Googlebot
- - Так увидит эту страницу посетитель сайта.
Картинки хороши, спору нет, но не Айвазовский, поэтому смотрим ниже и видим список с адресами файлов, которые не может обработать бот Google. Тут же указана причина, которая мешает заветному желанию ботов и есть ссылка на файл robots.txt, точнее на директиву, мешающую визиту робота. Огульно всё удалять в роботс не надо, там много полезного и рубка с плеча может обернуться появлением в индексе массы мусорных страниц.
Правим robots.txt
Для моих сайтов на Joomla надо было внести в robots всего несколько правок, точнее добавить строки:
Обратите внимание, что я не прописываю директивы для всех поисковых систем – они не жалуются, так зачем это делать, а даю разрешение на сканирование только для Google. В сухом и небольшом остатке у нас остаются запреты на доступ к Метрике Яндекса, Аналитикс Google и виджет facebook. Почему Google требует открыть ему доступ к внешним файлам и как это сделать без помощи хакеров вопрос, скорее всего, это обычный глюк, когда лес рубят щепки летят. Открыв свои файлы css и JavaScript для ботов можно быть спокойными, глюки же оставим программистам самого Google.
Больше полезных статей, кейсов и мануалов. Подпишись на обновления!
Несколько дней назад, очень большое количество сайтов получили письмо в панели Google Search Console (Google Webmasters) со следующей проблемой: «Googlebot не может получить доступ к файлам CSS и JS на сайте …» (англ. «Googlebot cannot access CSS and JS files on …») .
Поскольку Google пишет, что сайт может потерять позиции, при условии дальнейшей блокировки этих ресурсов сайта, то необходимо прислушаться к этой рекомендации и открыть все запрашиваемые для индексации файлы для поискового робота Google.
Поэтому, давайте рассмотрим детальную инструкцию как устранить данную проблему.
1. Определяем какие ресурсы нужно открыть для индексации
После этого, нажимаем на вкладку «Сканирование» и «Посмотреть как Googlebot»
и нажимаем «ПОЛУЧИТЬ И ОТОБРАЗИТЬ»
И переходим на последнюю строчку с результатами сканирования
В результате мы получаем:
2. Получаем строки для добавления в свой robots.txt
Копируем полученную таблицу, вставляем (с использованием функции вставки без форматирования) данную таблицу в Excel и делаем сортировку по колонке с URL.
Через «Найти и заменить» удаляем домен из URL и выделяем уникальные папки (или в некоторых случаях папку + определенный тип файлов), которые необходимо открыть для индексации.
3. Проверяем свой роботс.тхт с обновленными инструкциями
Если вы всё правильно сделали, то получите уведомление, что все нужные ресурсы открыть для индексации:
Если все нормально, то обновляем свой файл на сервере.
4. Повторяем итерации 1-3, пока есть заблокированные ресурсы
Как оказалось, Google сразу отображает НЕ ВСЕ ресурсы которые нужно открыть для индексации.
При повторной проверке, мы можем получить такую картину:
Где видим, что для индексации нужно открыть еще и изображения. Поэтому, повторяем пункты 2. и 3. для новых ресурсов.
В итоге, мы должны получить нормальное отображение сайта для Googlebot’а:
Единственный нюанс, что в списке ресурсов могут оказаться файлы к которым Гугл не может получить доступ:
5. Проверяем доступность всех ресурсов для Mobile: smartphone
После этого, также делаем проверку на доступность всех ресурсов и для Mobile: smartphone – робота: для этого при проверке выбираем соответствующее значение и нажимаем «Получить и отобразить».
На данном сайте и для мобильного бота все ресурсы оказались доступны, поэтому, дополнительных действий не нужно было проводить.
Примеры что нужно добавить для стандартных движков:
WordPress
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/
Универсальное решение для всех CMS
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.jpg
Allow: /*.jpg
Joomla
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.js
Allow: /media/*.js
Allow: /media/*.css
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /templates/Название шаблона/style/*.css
Allow: /templates/Название шаблона/js/*.js
Заключение
Поэтому, если вы получили данное уведомление от Google, рекомендуем прислушаться к этим рекомендациям и открыть необходимые файлы для индексации.
PS: Если у вас возникли трудности, то задавайте в комментариях будем помогать с решением уникальных проблем.
Что же это за ресурсы? Все очень просто - это, прежде всего, файлы каскадных таблиц стилей CSS, скрипты JavaScript (JS), различного рода изображения и видео. Все эти файлики, отвечающие за полновесный вид сайта, вполне могут быть заблокированы в robots.txt.
Чтобы выполнить требования Гугла, необходимо все выше упомянутые ресурсы разблокировать для Googlebot, чтобы обеспечить своему вебсайту максимальные преференции при ранжировании в Google. Как это осуществить практически, мы и рассмотрим чуть ниже.
Какие ресурсы нужно разблокировать для Гугл бота и зачем это нужно
Зачем же Google требует открыть доступ к файлам стилей, скриптов и других ресурсов для своих роботов? Дело в том, что в связи с изменением некоторых алгоритмов ранжирования (все средства на совершенствование поисковой выдачи) Гугл желает получить в том же виде, как они отображаются для пользователей. Это поможет корректно оценивать их содержание.
Стили CSS, как известно, отвечают за внешний вид вебстраниц, изображения являются частью, а JS скрипты определяют функционал вебресурса. Кроме того, очень важной частью контента являются изображения (определяемые графическими файлами), которые также должны быть открыты для робота Гугла.
Это поможет мировому лидеру поиска в том числе правильно ранжировать сайты, где установлен адаптивный дизайн для просмотра на мобильных устройствах. Кстати, возможность просматривать страницы на малых экранах даст дополнительное преимущество вашему проекту. Перейдите по этой ссылке и посмотрите, что говорит по этому поводу сам Google.
Для того, чтобы проанализировать, ситуацию в отношении своего сайта и определить, какие именно ресурсы недоступны для Googlebot, перейдите в соответствующий аккаунт панели вебмастеров (сейчас этот сервис носит название Search Console), выберите нужный вебсайт, после чего войдите во вкладку «Просмотреть как Googlebot» раздела «Сканирование»:
Там необходимо дописать URL любой вебстраницы, поскольку адрес главной уже указан (если желаете проверить домашнюю страницу проекта, то и дописывать ничего не надо). Затем жмете кнопку «Получить и отобразить». После этого появится строка с результатом сканирования, где спустя некоторое время будет отображаться статус «Частично выполнено». Щелкаете по этой строчке:
В итоге получите картинки для сравнения: слева будет вид исследуемой вебстраницы глазами бота Гугла, а справа - обычного пользователя (во вкладке «Отображение»):
Как говорится, "найдите 10 отличий". Как видите, робот и юзер совершенно по-разному визуально воспринимают данную вебстраницу. Поэтому нужно предпринять такие действия, которые бы позволили бы стереть различия и тем самым угодить мистеру Google.
После того, как вы получите сравнительные скриншоты странички сайта для робота и для пользователей, внизу будут представлены ссылки на все ресурсы, к которым закрыт доступ (обычно это стили CSS, скрипты и изображения, о чем я упоминал выше) в файле robots.txt (тут полновесная информация об этом важнейшем файле для WordPress):
Да-да, опять этот многострадальный роботс.тхт, о который сломано столько копий. Но ничего не поделаешь, жизнь заставляет вновь редактировать его. Чуть ниже мы рассмотрим, как изменить robots.txt для сайта, работающего под управлением Вордпресс, в очередной раз, чтобы удовлетворить требования Гугла.
Редактирование robots.txt (для WordPress) с целью открытия доступа роботу Гугла
Итак, для снятия блокировки необходимых файлов нужно открыть соответствующие позиции в роботсе. Для начала давайте проанализируем список URL, которые были получены после сканирования одной из страниц моего блога (смотрите предыдущий скриншот выше).
Обратите внимание, что все закрытые ресурсы можно разделить на две части: расположенные на исследуемом сайте (связанные с этой группой элементы выделены красным подчеркиванием или рамкой) и находящиеся на сторонних вебресурсах: блоки контекстной рекламы Adsense (как настроить объявления в системе Адсенс), Рекламной сети Яндекса РСЯ, счетчики посещаемости, кнопки социальных сетей (в этом, этом, этом и этом материалах все о социальных кнопочках) и т.д.
Для первых даны ссылки на инструмент проверки файла роботс.тхт. Благодаря этому в любой момент можно проверить текущее состояние выбранного ресурса. Скажем, сканирование произведено до того, как вы предприняли меры по исправлению ситуации, а после совершения этих действий вы решили посмотреть, насколько изменилась ситуация, нажав на этот линк:
Если все сделано корректно, то вы увидите, что этот файл на самом деле теперь доступен:
Попутно можно убедиться в корректности составленного robots (отсутствии ошибок и предупреждений). Это тоже немаловажно и непосредственно может оказать влияние на степень эффективности продвижения вашего проекта.
Теперь о второй группе заблокированных ресурсов, то бишь тех файлах, которые размещены на сторонних вебсайтах. Напротив каждого из них есть ссылка непосредственно на роботс. Но его изменить, мы, конечно, не можем и вообще повлиять на ситуацию с этой стороны мы не в силах.
Гугл советует в этом случае обратиться к владельцам вебресурсов с просьбой разблокировать нужные файлы. Естественно, в подавляющем большинстве случаев такой шаг обречен на неудачу. Другой вариант: постараться просто удалить со своего сайта часть элементов, связанных со сторонними сайтами.
Но, как вы понимаете, такое тоже не всегда возможно. Ведь та же реклама РСЯ, например, очень важна с точки зрения получения дохода. Различные счетчики (скажем, того же сервиса аналитики Yandex Метрика) тоже не выглядят лишними. Поэтому пока приходится мириться с таким положением вещей. Тем более, Google, по слухам, довольно лояльно относится к тому, что ресурсы со сторонних проектов заблокированы.
Однако, все файлы, которые вебмастер в силах открыть для робота, должны быть обязательно разблокированы. Поэтому предпримем необходимые действия лишь в отношении тех ресурсов, которые связаны с собственным сайтом и доступ к которым можно беспрепятственно регулировать.
Если снова взглянуть на картинку с закрытыми ресурсами (пред-предыдущий скриншот), то можно обратить внимание, что все они (таблицы стилей, скрипты и изображения) находятся в директориях:
Вполне логично, что именно к этим папкам и следует открыть Гугл боту доступ. По крайней мере, я так и сделал, хотя это довольно грубый метод. Точнее, просто удалил Disallow в отношении данных директорий:
Безусловно, существуют и более изысканные варианты, например, указание целевой разрешающей директивы Allow непосредственно для каждого ресурса, но я не стал кардинально менять структуру своего robots.txt, в конце концов результат достигнут. Поэтому окончательный вариант в меру универсального файла robots.txt для стандартного блога Вордпресс с учетом последних гугловских указаний выглядит по моей версии таким образом:
Хотя нужно быть готовым к тому, что это далеко не окончательный вариант. Я, например, не исключаю, что Яндекс последует примеру своего главного конкурента и тоже потребует от владельцев интернет-ресурсов нечто похожее. Так что в этом месте ставим не точку, а многоточие.
Ну а в доказательство того, что предпринятые мною действия принесли положительный результат, даю результат проверки той же странички в разделе «Просмотреть как Googlebot» уже после редактирования роботса:
А вот как выглядит теперь перечень закрытых для бота ресурсов:
Как видите, остались только лишь те, доступом к которым я не могу управлять. Впрочем, возможно, в дальнейшем некоторые связанные с ними элементы я уберу с сайта для минимизации числа неугодных Гуглу файлов. Хотя, с другой стороны, бросается в глаза блок Google Adsense, который закрыт для бота. Получается, что Гугл скрывает от своих же роботов элементы собственной контекстной рекламы?
Но если разобраться, то все логично. Ведь роботы Адсенса, которые призваны сканировать страницы вебсайтов партнеров для корректного отображения рекламных блоков, не имеют никакого отношения к основному роботу (это утверждает сам Google). Аминь.
Ну и в свете современных веяний не лишним будет проверить, насколько соответствует рекомендациям Гоогле вид страниц сайта при просмотре на малых мониторах. Для этого в той же вкладке «Посмотреть как Googlebot» для проверки нужно выбрать из выпадающего меню вместо «ПК» пункт «Mobile: Smartfone»:
Я после данного тестирования оказался удовлетворен, поскольку ни одного заблокированного ресурса в списке среди тех, на которые я мог бы повлиять, не оказалось. А как дела обстоят у вас? Хотелось бы активного обмена мнениями в комментариях по данной теме, поскольку важность ее трудно переоценить. В заключение видео от Мэтта Каттса о пользе инструмента «Посмотреть как Гугл бот»:
Блокировка для робота Googlebot возможности доступа к веб-сайту может непосредственно затруднить получение и сканировать его содержимого, и, следовательно, привести к снижению его рейтинга в результатах поиска Google.
Многие веб-мастера вводят такую блокировку случайно, и даже не осознают этого, а Googlebot нуждается в доступе на сайт, чтобы скачать файл robots.txt и следовать содержащимся в нем рекомендациям.
Диагностика проблем с доступом Googlebot
-
– содержит список ошибок, обнаруженных Googlebot во время недавней попытки индексации веб-сайта.
- Смотреть как Google – позволяет сканировать определенную страницу и быстро просмотреть результаты (в данном случае ошибки).
Вот некоторые типичные причины отсутствия доступа Google к веб-сайту.
Проблемы с DNS
При попытке доступа к сайту не удалось установить связь с сервером DNS. Это может быть связано с недоступностью DNS-сервера или проблемами маршрутизацией DNS для этого домена.
Чтобы устранить эту проблему, убедитесь, что ваш провайдер DNS не блокирует (возможно, непреднамеренно) Googlebot.
Брандмауэры
В некоторых случаях неправильно настроенный брандмауэр или система защиты от DoS-атак (а иногда система управления контентом сайта), запрещает роботу googlebot индексацию сайта.
Системы безопасности представляют собой важный элемент качественного хостинга и часто их конфигурация вызывает автоматическое блокирование адресов, с которых к серверу передается чрезвычайно большое количество запросов.
Робот google отправляет больше запросов, чем обычный пользователь, поэтому может вызвать реакцию системы защиты, которая его блокирует и не позволяет сканировать ваш сайт.
Чтобы решить проблему данного типа, проверьте элементы инфраструктуры веб-сайта, а затем удалите блокировку Googlebot. Если вы не имеете контроля над настройками брандмауэра, пожалуйста, свяжитесь со своим поставщиком услуг веб-хостинга.
Преднамеренная блокировка
Некоторые веб-мастера намеренно препятствуют роботе googlebot, используя, например, брандмауэр. Целью, как правило, является не полная блокировка Googlebot, а управление сканированием и индексированием веб-сайта.
Зачем Google требуется доступ к CSS и JS файлы?
Компания Google ориентирована на предоставление более высоких позиций для дружественных веб-сайтов – сайты, которые работают быстро, имеют хороший пользовательский опыт, и т. д. В целях определения пользователя опыта работы веб-сайта, Google необходимо открыть, чтобы иметь возможность посетить сайт в файлах CSS и в JavaScript.
По умолчанию WordPress не блокирует поисковые роботы для доступа к файлам CSS или JS. Однако некоторые владельцы сайтов могут случайно заблокировать их при попытке добавить дополнительные меры безопасности или безопасности WordPress с помощью плагина.
Это ограничивает роботу Googlebot индексировать CSS и JS файлы, которые могут повлиять на ваш сайт в поисковой оптимизации сайта.
Сказав это, давайте посмотрим, как мы можем найти эти файлы и разблокировать их.
Как предоставить Google доступ к файлам CSS и JS
Для начала нужно знать какие файлы Гугл не может открыть на вашем сайте.
Один раз нажали, результат появится в строке ниже. Нажатие на нее покажет вам то, что пользователь видит и то, что видит робот Google при загрузке вашего сайта.
Если вы заметили какую-либо разницу между двумя скриншотами, то это означает, что робот Googlebot не смог получить доступ к CSS/JS файлов. Он также покажет вам ссылку на файлы CSS и JS, которые он не смог открыть.
Читать Сколько плагинов для WordPress Вы можете установить на Ваш сайт?Вы также можете найти список этих блокированных ресурсов в индекс Google » заблокированные ресурсы.
Нажав на каждый ресурс, вам покажут ссылки на актуальные ресурсы, которые не могут быть доступны для робота Googlebot.
По большой части, это файлы стилей CSS и JS, добавленные в ваш WordPress плагины или темы.
Теперь вам надо будет отредактировать свой файл robots.txt который управляет тем, что Гугл бот видит.
Вы можете отредактировать его, подключив к вашему сайту с помощью FTP-клиента. Файл robots.txt находится в корневом каталоге вашего сайта.
Если вы используете СЕО плагин, то вы можете редактировать robots.txt файл в админке WordPress. Просто зайдите на СЕО » инструменты страницы и затем нажмите на редактор файла.
Вы скорее всего заметите, что ваш сайт запретил доступ к некоторым каталогам WordPress:
Теперь вам надо удалить строки, которые блокируют доступ Google к CSS или JS файлы на вашем сайте. Обычно эти файлы расположены в папке плагины или папок темы. Вам также может понадобиться снять WP-includes и многие темы WordPress и плагины могут вызвать скрипты, находящиеся в папке WP-includes, такие как jQuery.
Некоторые пользователи могут заметить, что их robots.txt файл либо пуст или не существует. Если робот Google не находит файл robots.txt, то он автоматически сканирует и индексирует все файлы.
Тогда почему вы видите это предупреждение?
В редких случаях, некоторые WordPress хостинг провайдеры могут заранее заблокировать доступ к папкам по умолчанию для ботов. Вы можете переопределить это в robots.txt разрешая доступ к заблокированным папкам.
Как только вы закончите, сохраните ваш robots.txt файл. Просмотрите как видит инструмент Googlebot, и нажмите на кнопку получить и отобразить. А теперь сравните свои результаты выборки, и вы увидите, что проблема большинства заблокированных ресурсов должна исчезнуть.
Мы надеемся, что эта статья помогла вам решить ошибку ‘робот Googlebot не может получить доступ к CSS и JS файлы’ на вашем WordPress сайте.
Читайте также: