Проблемы с индексацией сайта в Google

Очень типичная ситуация, что Google плохо индексирует сайт, особенно, интернет магазины. В этой статье я подробно разбираю причины плохой индексации в Google, способы проверки и решения проблем индексации страниц в поисковой системе Гугл.

Очень важно, чтобы ваш сайт был зарегистрирован в сервисе Google Search Console. Это сервис для аналитики, который показывает как сайт ведет себя в поисковой системе Google и без него сделать какой-то анализ просто невозможно.

Проверка индексации страниц

Если ваш сайт зарегистрирован на данном сервисе, то вы просто берете url страницы, которую хотите проверить и, используя инструмент «Проверка URL», получаете данные, введя url в поле и нажав Enter.

В данном примере видно, что url есть в индексе, а значит все нормально. Если бы урла не было в индексе, то, соответственно, сервис бы написал, что URL нет в индексе.

Индексация молодого сайта

Если у вас молодой сайт и вы совсем недавно его запустили, то абсолютно нормально, что он долгое время не будет сразу индексироваться.

Сайт может и до месяца не индексироваться, такая особенность Google. Есть, конечно, способы как ускорить индексацию, например, закупить ссылок на сайт. Но в общем для молодого сайта долгая индексация это нормально.

Но, если ваш сайт уже имеет какой-то возраст, историю, а у него все равно наблюдаются проблемы с индексацией, то здесь нужно смотреть уже более детально.

Размер сайта

Если на вашем сайте несколько сотен тысяч страниц или даже более, то у него действительно могут быть проблемы с индексацией. Потому что на каждый сайт поисковая система Google выделяет определенный лимит по сканированию и индексированию страниц, так называемый краулинговый бюджет. И если у вас очень много страниц, то бюджета может просто не хватить на индексирование всех страниц.

В данной ситуации поможет файл sitemap.xml, который лучше разбить на несколько файлов (категории, товары, служебные страницы и любые другие группы). Если у вас обновился ассортимент, вы добавили много новых товаров, соответственно, автоматически обновился файл sitemap. Вы просто загружаете новый файл через инструмент «Файлы Sitemap» и нажимаете «Отправить». Дальше идет сканирование этого файла.

Если же у вас сайт небольшой (несколько тысяч страниц или даже несколько десятков тысяч страниц), но все равно есть проблемы с индексацией, то нужно смотреть сам сайт. Возможно, есть какие-то технические проблемы, недоработки:

  • страницы или раздел сайта могут быть закрыты в файле robots.txt;
  • на странице есть мета-тег noindex;
  • на страницу поставлен тег canonical, который ведет на какую-то другую страницу;
  • страницы имеют 400 или 404 код ответа сервера и т.д.

То есть могут быть какие-то такие технические ошибки, которые не дают страницам или разделам индексироваться. Все это как раз можно проверить через инструмент сервиса Google Search Console.

Но даже в случае проверки, которая показала, что все нормально, нужно воспользоваться еще инструментом «Покрытие».

Сперва необходимо зайти в разделы «Ошибка» и «Без ошибок, есть предупреждения». Это поможет узнать, какие ошибки есть на указанных страницах, а еще как их можно устранить. Давайте узнаем какие ошибки индексации считаются самыми распространенными, а также о том, как их исправить наиболее простыми способами.

URL-адреса недоступны для индексирования

Зачастую, это не одна ошибка, а целая группа проблем. Она появляется, если пользователь дает команду Google осуществить индексацию выбранного URL, однако сама причина не имеет доступа к обходу поисковыми роботами. Наиболее ярким примером такого случая является следующий:

В первую очередь необходимо понять, нужно ли добиться того, чтоб искомая страница показывалась в поисковике. Если за пример взять страницу, URL-адрес которой не индексируется, то следует прекратить попытки обхода. Эти попытки ни к чему не приведут, так как поисковик не сможет отправить нужный адрес в индекс.

Обычно, такие ошибки появляются из-за того, что в карту сайта случайным образом бы добавлен нежелательный URL. Если это так, то решение проблемы достигается путем редактирования файла Sitemap.xml. Для этого достаточно удалить из файла URL-адрес, который вызывает проблемы.

Если пользователю нужно, чтобы искомый адрес показывалась в поисковике, необходимо более подробно разобраться в том, из-за чего именно он не индексируется. Обычно, это происходит из-за следующих причин:

  1. Существует директива noindex, которая и не дает доступ к индексированию необходимой страницы. Чтобы решить проблему, необходимо удалить тег директивы из HTML-кода неиндексируемого адреса.
  2. Адрес не индексируется в файле в robots.txt. Чтобы устранить ошибки, нужно воспользоваться особым инструментом поисковика и заняться проверкой файла robots.txt. Данные инструменты позволят найти все директивы, которые запрещают индексирование, после чего-либо удалить их, либо исправить показанные ошибки.
  3. Ошибка 404 (адрес не найден). Такое случается в двух случаях: когда страница была удалена самим владельцем, или в случае изменения начального URL. Решением проблемы является восстановление исходного кода или настройка 301-редиректа на существующем адресе.
  4. Soft 404 (ложная ошибка). Это случается довольно редко, когда сама адрес существует (сервер подтверждает его существование), но поисковик решил, что URL работает с ошибкой 404. Чаще всего такое происходит в случаях, когда на странице долгое время отсутствует контент (или же он слишком незначительный). Еще одним случаем появления такой ошибки является манипуляция с редиректами. Решение проблемы весьма простое – необходимо заняться поиском «неудачного» контента или же удалить нерелевантные редиректы.
  5. Ошибка 401 (неавторизованный запрос). Данная неисправность появляется, когда поисковик не получает доступ к искомой странице из-за отсутствия авторизации. Для решения проблемы необходимо отменить авторизацию или ручным способом дать боту поисковика возможность взаимодействия с искомой страницей.
  6. Ошибка 403. Ее появление означает, что поисковик пытается войти на сервер, однако бот не может получить доступ к контенту, находящемуся на странице. Исправить ошибку можно, разрешив доступ к адресу анонимным пользователям.

Наличие ошибок переадресации

Это происходит не только при ошибке 404 (то есть из-за перенаправления на страницу, не являющуюся релевантной), но и по многим другим причинам, возникающим при переадресации.

Например, страница не попадает в индекс из-за слишком частых перенаправлений или же неработающих URL-адресов при переадресациях. Решить проблему можно отладкой неправильно работающих 301- и 302-редиректов.

Проблемы на стороне хостинга

Часто проблемы возникают не из-за пользователя, а из-за проблем в хостинге. Наиболее часто встречается ошибка 5хх. Она появляется в случае, когда поисковик не может получить доступ к серверу. Это может произойти из-за поломки сервера, истечения срока ожидания или отсутствия доступа во время того, когда бот поисковика занимался обходом сайта.

Решить проблему можно несколькими способами, но наиболее легкий из них – воспользоваться инструментом «Проверка URL-адреса». Если есть какие-либо неполадки в работе, то инструмент сможет их отобразить. Если проблем с сервером нет, то следует внимательно изучить то, какие предложения дает сам поисковик. В последнюю очередь стоит связаться с хостинг-провайдером.

Давайте перейдем к разделу «Без ошибок, есть предупреждения». Существуют случаи, когда поисковик может проиндексировать адрес сайта, но не может быть на 100% уверен, что в индексации была необходимость. Во время подобных ситуаций страницы будут помечен как физически существующие, но с предупреждением.

Обычно, такие страницы приносят ее больше проблем из-за того, что владелец сайта предоставил общий доступ тем документам, которые таковыми быть не должны. Именно по этой причине все URL-адреса, которые так или иначе получили желтую категорию, должны быть под контролем владельца сайта.

Проиндексировано, несмотря на блокировку в файле robots.txt

Данная ошибка считается одной из самых распространенных. Из-за нее все страницы, находящиеся на сайте, со стопроцентной вероятностью попадают в желтую категорию индексирования. На эту ошибку часто попадаются начинающие веб-мастера, а также специалисты, которые убеждены, что файл robots.txt является самым лучшим механизмом для того, чтобы страницы не попали в индекс поисковика.

На самом деле это далеко не так:

Если добавить директивы в этот файл, это не значит, что страницы будут полностью запрещены для индексирования. Владельцы сайтов используют этот файл для уменьшения перегрузки сайта.

Для стопроцентного исключения желаемых адресов в индекс поисковика используются другие механизмы. Запрет в файле robots.txt используется в роли рекомендации. Этот файл не сможет отсканировать адрес, который отклоняется в robots.txt во время процедуры обхода сайта. Однако, если на эту страницу ведут несколько других ссылок, то она вполне может проиндексироваться.

Именно отсюда вытекает следующий момент: адреса могут индексироваться в неполной версии, так как роботы могут отсканировать лишь определенную часть документа, доступ к которому закрыт.

Решается данная проблема довольно просто. Нужно понять, какие URL-адреса относятся к желтой категории, а затем сделать вывод, стоит ли их блокировать. Если пользователь убежден, что данный адрес не должен находиться в индексе, то необходимо ограничить доступ ботов к поисковикам, используя мета-тег noindex или X-Robots-Tag. Страницы, не приносящие никакой пользы, лучше вообще удалить.

Теперь перейдем к разделу «Исключено». Консоль поисковика уведомляет пользователей обо всех адресах, которые полностью отсутствуют в индексе, однако работают на сайте. Такие адреса обычно и отображаются в блоке «Исключено».

Преимущественно, адреса попадают в этот блок по желанию вебмастера. Надо понимать, что это никак не зависит от технических проблем, связанных с работой сайта. Чаще всего такое происходит в следующих ситуациях:

  • Адрес нельзя обойти из-за директивы noindex
  • Есть директивы, запрещающие индексирование, в файле robots.txt
  • Выбранный адрес — это дубль

Зачастую происходит попадание адресов в блок из-за следующих ошибок:

  1. Адрес не индексируется из-за наличия ошибки 401/ ошибки 404/ ошибки 403/ ошибки 404
  2. Наличие редиректа, настроенного с ошибками
  3. Страница неканоническая (то есть поисковик выбрал канонический вариант не таким, каким его указал вебмастер)

Кроме этого, в разделе «Исключено» особое внимание уделите пункту «Страница просканирована, но не проиндексирована». Если среди страниц встречаются те, которые вы хотите чтобы были проиндексированы, значит проблема внутренняя, а именно с контентом этих страниц.

Это могут быть, например, дубли страниц (полный или частичный повтор контента). Таким дублями могут быть карточки товаров, которые мало отличаются по контенту и сильно дублируют друг друга. В этом случае необходимо уникализировать эти карточки.

Проблемы могут иметь страницы со слабым, нерелевантным контентом. Например, на странице есть только коротенький текст и больше ничего нет. Естественно, Google определяет такую страницу как малоинформативную, неполезную.

Такую страницу он не индексирует и помещает ее в Исключения. Эти страницы необходимо исправить, доработать в соответствии с топом и отправить обратно на переиндексацию. Для этого нужно будет опять ввести url исправленной страницы в инструменте «Проверка URL».

Сервис выдаст ответ, что URL нет в индексе. Далее нажимаем «Запросить индексирование» и ваш запрос вновь будет отправлен на индексирование. Нужно будет подождать пока страница переиндексируется и, если страница верно исправлена, то она появится в индексе.

Подводя итог вышесказанному, можно сказать, что необходимо отслеживать все страницы, попавшие в блок «Исключено». Благодаря этому можно вовремя замечать все недоработки и своими силами исправить имеющиеся ошибки.

Сергей Моховиков

SEO специалист

Здравствуйте! Я специалист по продвижению сайтов в поисковых системах Яндекс и Google. Веду свой блог и канал на YouTube, где рассказываю самые эффективные технологии раскрутки сайтов, которые применяю сам в своей работе.

Мои услуги

Отправить ответ

avatar
  Subscribe