Почему Google индексирует заблокированные веб-страницы
Почему Google индексирует заблокированные веб-страницы
Blog Article
Джон Мюллер из Google объяснил, почему Google индексирует закрытые страницы, а также почему отчеты Search Console, связанные с этим, можно безопасно не учитывать.
Джон Мюллер из Google разъяснил на вопрос о том, почему Google индексирует страницы, которые запрещены для выполнения обхода с помощью файла robots.txt, и из-за чего можно пропускать соответствующие отчеты Search Console об этих обходах.
Трафик ботов к URL-адресам с параметрами запроса
Человек, задающий вопрос, записал, что боты создают ссылки на несуществующие URL-адреса с параметрами запросов (?q=xyz) на страницы с мета-тегами noindex, которые также блокированы в robots.txt. Вопрос был вызван тем, что Google проходит эти ссылки на страницы, блокируется в robots.txt (не наблюдая мета-тег noindex), а затем указывает об этом в Google Search Console как "Индексируется, хотя заблокировано robots.txt."
Человек поинтересовался следующий вопрос:
"Но вот главный вопрос: почему Google индексирует страницы, когда он не может увидеть содержимое? В чем тут выгода?"
Джон Мюллер из Google подтвердил, что если они не могут просканировать страницу, они не могут увидеть мета-тег noindex. Он также упомянул оператор site:search, посоветовав пропускать результаты, потому что "средние" пользователи не замечают их.
Он написал:
"Да, вы правы: если мы не можем обойти страницу, мы не можем увидеть noindex. Тем не менее, если мы не можем просматривать страницы, для нас там мало что можно индексировать. Так что, хотя вы можете заметить некоторые из этих страниц с помощью целевого запроса site:, средний пользователь их не наблюдает, поэтому я бы не беспокоился. Noindex также функционирует (без запрета в robots.txt), это просто означает, что URL-адреса будут обходиться (и попадут в отчет Search Console как 'обойдены/не индексируются' — ни один из этих статусов не вызывает проблем для остальной части сайта). Важно, чтобы вы не делали их доступными для обхода и индексации."
Связанный: Google напоминает сайтам использовать файл robots.txt для блокировки URL-адресов действий.
Выводы:
1. Ответ Мюллера подтверждает ограничения использования оператора Site:search для диагностических целей. Одной из причин является то, что он не регламентирован с обычным поисковым индексом, это совсем отдельная особенность.
Джон Мюллер из Google описал оператор site search в 2021 году:
"Короткий ответ заключается в том, что запрос site: не предназначен для всестороннего охвата, а также для диагностических целей.
Запрос site: — это определенный вид поиска, который ограничивает результаты определенным веб-сайтом. Это, по сути, просто слово "site", двоеточие и затем домен веб-сайта.
Этот запрос ограничивает результаты заданным веб-сайтом. Он не предназначен для того, чтобы быть исчерпывающей коллекцией всех страниц этого сайта."
Оператор site не отображает индекс поиска Google, что превращает его ненадежным для выяснения того, какие страницы Google уже проиндексировал или нет. Как и другие операторы подробного поиска Google, они ненадежны как инструменты для определения любых вопросов, связанных с тем, как Google ранжирует или индексирует контент.
2. Мета-тег noindex без применения robots.txt подходит для таких ситуаций, когда бот составляет ссылки на отсутствующие страницы, которые обнаруживаются Googlebot.
Мета-тег noindex на страницах, которые не закрываются в robots.txt, разрешает Google просмотреть страницу и понимать директиву noindex, гарантируя, что страница не проявится в поисковом индексе, что желательно, если цель состоит в том, чтобы не допустить страницу в поисковый индекс Google.
3. URL-адреса с мета-тегом noindex создадут в Search Console запись "обойдены/не индексируются", что не приведет к негативного эффекта на остальную часть веб-сайта.
Эти записи в Search Console, в контексте страниц, которые целенаправленно заблокированы, лишь указывают на то, что Google обошел страницу, но не учел ее. По сути говоря, что это случилось, а не то, что (в этом конкретном контексте) есть что-то, что нужно поправить. Эта запись полезна для уведомления издателей о страницах, которые по недосмотру заблокированы мета-тегом noindex или по какой-либо другой причине, мешающей индексации страницы. Тогда это стоит изучить.