Очень типичная ситуация, что Google плохо индексирует сайт, особенно, интернет магазины. В этой статье я подробно разбираю причины плохой индексации в Google, способы проверки и решения проблем индексации страниц в поисковой системе Гугл.
Очень важно, чтобы ваш сайт был зарегистрирован в сервисе Google Search Console. Это сервис для аналитики, который показывает как сайт ведет себя в поисковой системе Google и без него сделать какой-то анализ просто невозможно.
Содержание:
Если ваш сайт зарегистрирован на данном сервисе, то вы просто берете url страницы, которую хотите проверить и, используя инструмент «Проверка URL», получаете данные, введя url в поле и нажав Enter.
В данном примере видно, что url есть в индексе, а значит все нормально. Если бы урла не было в индексе, то, соответственно, сервис бы написал, что URL нет в индексе.
Если у вас молодой сайт и вы совсем недавно его запустили, то абсолютно нормально, что он долгое время не будет сразу индексироваться.
Сайт может и до месяца не индексироваться, такая особенность Google. Есть, конечно, способы как ускорить индексацию, например, закупить ссылок на сайт. Но в общем для молодого сайта долгая индексация это нормально.
Но, если ваш сайт уже имеет какой-то возраст, историю, а у него все равно наблюдаются проблемы с индексацией, то здесь нужно смотреть уже более детально.
Если на вашем сайте несколько сотен тысяч страниц или даже более, то у него действительно могут быть проблемы с индексацией. Потому что на каждый сайт поисковая система Google выделяет определенный лимит по сканированию и индексированию страниц, так называемый краулинговый бюджет. И если у вас очень много страниц, то бюджета может просто не хватить на индексирование всех страниц.
В данной ситуации поможет файл sitemap.xml, который лучше разбить на несколько файлов (категории, товары, служебные страницы и любые другие группы). Если у вас обновился ассортимент, вы добавили много новых товаров, соответственно, автоматически обновился файл sitemap. Вы просто загружаете новый файл через инструмент «Файлы Sitemap» и нажимаете «Отправить». Дальше идет сканирование этого файла.
Если же у вас сайт небольшой (несколько тысяч страниц или даже несколько десятков тысяч страниц), но все равно есть проблемы с индексацией, то нужно смотреть сам сайт. Возможно, есть какие-то технические проблемы, недоработки:
То есть могут быть какие-то такие технические ошибки, которые не дают страницам или разделам индексироваться. Все это как раз можно проверить через инструмент сервиса Google Search Console.
Но даже в случае проверки, которая показала, что все нормально, нужно воспользоваться еще инструментом «Покрытие».
Сперва необходимо зайти в разделы «Ошибка» и «Без ошибок, есть предупреждения». Это поможет узнать, какие ошибки есть на указанных страницах, а еще как их можно устранить. Давайте узнаем какие ошибки индексации считаются самыми распространенными, а также о том, как их исправить наиболее простыми способами.
Зачастую, это не одна ошибка, а целая группа проблем. Она появляется, если пользователь дает команду Google осуществить индексацию выбранного URL, однако сама причина не имеет доступа к обходу поисковыми роботами. Наиболее ярким примером такого случая является следующий:
В первую очередь необходимо понять, нужно ли добиться того, чтоб искомая страница показывалась в поисковике. Если за пример взять страницу, URL-адрес которой не индексируется, то следует прекратить попытки обхода. Эти попытки ни к чему не приведут, так как поисковик не сможет отправить нужный адрес в индекс.
Обычно, такие ошибки появляются из-за того, что в карту сайта случайным образом бы добавлен нежелательный URL. Если это так, то решение проблемы достигается путем редактирования файла Sitemap.xml. Для этого достаточно удалить из файла URL-адрес, который вызывает проблемы.
Если пользователю нужно, чтобы искомый адрес показывалась в поисковике, необходимо более подробно разобраться в том, из-за чего именно он не индексируется. Обычно, это происходит из-за следующих причин:
Это происходит не только при ошибке 404 (то есть из-за перенаправления на страницу, не являющуюся релевантной), но и по многим другим причинам, возникающим при переадресации.
Например, страница не попадает в индекс из-за слишком частых перенаправлений или же неработающих URL-адресов при переадресациях. Решить проблему можно отладкой неправильно работающих 301- и 302-редиректов.
Часто проблемы возникают не из-за пользователя, а из-за проблем в хостинге. Наиболее часто встречается ошибка 5хх. Она появляется в случае, когда поисковик не может получить доступ к серверу. Это может произойти из-за поломки сервера, истечения срока ожидания или отсутствия доступа во время того, когда бот поисковика занимался обходом сайта.
Решить проблему можно несколькими способами, но наиболее легкий из них – воспользоваться инструментом «Проверка URL-адреса». Если есть какие-либо неполадки в работе, то инструмент сможет их отобразить. Если проблем с сервером нет, то следует внимательно изучить то, какие предложения дает сам поисковик. В последнюю очередь стоит связаться с хостинг-провайдером.
Давайте перейдем к разделу «Без ошибок, есть предупреждения». Существуют случаи, когда поисковик может проиндексировать адрес сайта, но не может быть на 100% уверен, что в индексации была необходимость. Во время подобных ситуаций страницы будут помечен как физически существующие, но с предупреждением.
Обычно, такие страницы приносят ее больше проблем из-за того, что владелец сайта предоставил общий доступ тем документам, которые таковыми быть не должны. Именно по этой причине все URL-адреса, которые так или иначе получили желтую категорию, должны быть под контролем владельца сайта.
Данная ошибка считается одной из самых распространенных. Из-за нее все страницы, находящиеся на сайте, со стопроцентной вероятностью попадают в желтую категорию индексирования. На эту ошибку часто попадаются начинающие веб-мастера, а также специалисты, которые убеждены, что файл robots.txt является самым лучшим механизмом для того, чтобы страницы не попали в индекс поисковика.
На самом деле это далеко не так:
Если добавить директивы в этот файл, это не значит, что страницы будут полностью запрещены для индексирования. Владельцы сайтов используют этот файл для уменьшения перегрузки сайта.
Для стопроцентного исключения желаемых адресов в индекс поисковика используются другие механизмы. Запрет в файле robots.txt используется в роли рекомендации. Этот файл не сможет отсканировать адрес, который отклоняется в robots.txt во время процедуры обхода сайта. Однако, если на эту страницу ведут несколько других ссылок, то она вполне может проиндексироваться.
Именно отсюда вытекает следующий момент: адреса могут индексироваться в неполной версии, так как роботы могут отсканировать лишь определенную часть документа, доступ к которому закрыт.
Решается данная проблема довольно просто. Нужно понять, какие URL-адреса относятся к желтой категории, а затем сделать вывод, стоит ли их блокировать. Если пользователь убежден, что данный адрес не должен находиться в индексе, то необходимо ограничить доступ ботов к поисковикам, используя мета-тег noindex или X-Robots-Tag. Страницы, не приносящие никакой пользы, лучше вообще удалить.
Теперь перейдем к разделу «Исключено». Консоль поисковика уведомляет пользователей обо всех адресах, которые полностью отсутствуют в индексе, однако работают на сайте. Такие адреса обычно и отображаются в блоке «Исключено».
Преимущественно, адреса попадают в этот блок по желанию вебмастера. Надо понимать, что это никак не зависит от технических проблем, связанных с работой сайта. Чаще всего такое происходит в следующих ситуациях:
Зачастую происходит попадание адресов в блок из-за следующих ошибок:
Кроме этого, в разделе «Исключено» особое внимание уделите пункту «Страница просканирована, но не проиндексирована». Если среди страниц встречаются те, которые вы хотите чтобы были проиндексированы, значит проблема внутренняя, а именно с контентом этих страниц.
Это могут быть, например, дубли страниц (полный или частичный повтор контента). Таким дублями могут быть карточки товаров, которые мало отличаются по контенту и сильно дублируют друг друга. В этом случае необходимо уникализировать эти карточки.
Проблемы могут иметь страницы со слабым, нерелевантным контентом. Например, на странице есть только коротенький текст и больше ничего нет. Естественно, Google определяет такую страницу как малоинформативную, неполезную.
Такую страницу он не индексирует и помещает ее в Исключения. Эти страницы необходимо исправить, доработать в соответствии с топом и отправить обратно на переиндексацию. Для этого нужно будет опять ввести url исправленной страницы в инструменте «Проверка URL».
Сервис выдаст ответ, что URL нет в индексе. Далее нажимаем «Запросить индексирование» и ваш запрос вновь будет отправлен на индексирование. Нужно будет подождать пока страница переиндексируется и, если страница верно исправлена, то она появится в индексе.
Подводя итог вышесказанному, можно сказать, что необходимо отслеживать все страницы, попавшие в блок «Исключено». Благодаря этому можно вовремя замечать все недоработки и своими силами исправить имеющиеся ошибки.
Как быть если сайт проиндексирован, а потом страницы выпали из индекса?
а как вы определяли что он был проиндексирован? опишите ситуацию подробней, что и как вы смотрели