Зачем нужен файл robots.txt

файл роботс зачем нужен

Многие начинающие вебмастера рано или поздно сталкиваются с понятием роботс. В этом посте мы узнаем, что значит robots.txt и для чего он нужен.

Robots.txt — это файл в корневой директории сайта, который ограничивает поисковым роботам индексацию данных на сервере.

Говоря более простым языком, роботс запрещает поисковикам заходить на определенные страницы или разделы вашего сайта, например, доступ в админку сайта или личный кабинет. Обычно закрывают служебные папки или файлы, технические страницы, дубликаты и не уникальные страницы.

Если на вашем сайте отсутствует файл robots.txt или он пустой, то это дает роботам полное право индексировать весь сайт и включать в поиск все страницы, в том числе разный мусор, хлам, который там абсолютно не нужен. Для сайта это может быть чревато плохой индексацией главных продвигаемых страниц, а также наличием дублей, что в итоге скажется на общем рейтинге в глазах поисковых систем.

Как выглядит файл robots txt

Вот как должен выглядеть пример файла для CMS WordPress

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /cases
Disallow: /wp-includes/
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed
Disallow: */feed
Allow: /wp-content/themes/mytheme/*
Allow: /wp-includes/js/jquery/*
Allow: /wp-content/plugins/*
Allow: /wp-content/uploads/*
Clean-Param: utm_source&utm_medium&utm_campaign

Host: https://mydaoseo.ru
Sitemap: https://mydaoseo.ru/sitemap.xml

Как видим, содержимое robots.txt достаточно обширное. Но не нужно пугаться, все объяснимо и понятно. Давайте разберемся вместе.

Директивы файла robots.txt

Существуют определенные правила для поисковых роботов согласно спецификации W3C от 30 января 1994 года. Однако, поисковые системы по-разному придерживаются этих директив.

User-agent

Это главная директива, она определяет, для каких роботов прописаны правила.

Например, для всех роботов

User-agent: *

Для Яндекса

User-agent: Yandex

Для Google

User-agent: Googlebot

Allow и Disallow

Если перевести эти слова, то достаточно просто понять, что значат директивы allow и disallow в robots.txt. Allow разрешает роботу сканировать страницы или разделы, а disallow этого не позволяет.

Например, данная команда полностью запрещает весь сайт к индексации.

User-agent: *
Disallow: /

Если нужно закрыть отдельную страницу, то прописываем ее адрес (без домена)

User-agent: *
Disallow: /articles/kak-prodvinut-sait/

Директива Allow открывает нужные нам разделы или страницы сайта. Например, необходимо закрыть папку со статьями, но одну статью оставить открытой для индекса. Прописываем так:

User-agent: *
Disallow: /articles*
Allow: /articles/kak-prodvinut-sait/

Дополнительно еще нужно сказать про спецсимволы:

* — означает, что правило применимо для всех документов раздела. Выше я прописал относительный путь Disallow: /articles* — это значит, от индекса закрыты все статьи. Если бы я прописал абсолютный путь Disallow: /articles/, то закрыт был бы только раздел статей, но сами статьи продолжали бы индексироваться.

# — означает комментарий, все, что написано после # до перевода строки, роботом не учитывается. Например:

User-agent: *
Disallow: /articles*
# закрывает от индекса все страницы раздела статей

$ — отменяет спецсимвол * (закрывает от робота только то, что написано до спецсимвола $). Например:

User-agent: *
Disallow: /articles$
# от индекса закрыт только раздел статей, но сами статьи продолжают индексироваться.

Crawl-delay

Директива crawl-delay в robots.txt встречается не так часто. Если сервер перегружен и ему не хватает мощности отрабатывать запросы, например, большой интернет магазин с огромным количеством товара, то рекомендуется использовать эту команду.

Директива задает роботу период времени между окончанием загрузки одной страницы и началом загрузки другой. Например:

User-agent: *
Disallow: /catalog$
Crawl-delay: 6
# робот будет загружать страницы с таймаутом в 6 секунд

Clean-param

Директива clean-param в robots.txt сообщает роботу, что нельзя индексировать url адрес с заданными параметрами, например, префиксы, идентификаторы сессий, utm-метки. Это нужно для того, чтобы не загружать один и тот же документ много раз и сделать индексацию сайта эффективнее.

Например, у нас есть страница https://mydaoseo.ru/articles/kak-prodvinut-sait.php и нам нужно отследить, откуда приходят на нее пользователи.

https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=1&r_id=123
https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=2&r_id=123
https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=3&r_id=123

В данном случае директива clean-param будет записана вот так:

User-agent: *
Disallow:
Clean-param: site /articles/kak-prodvinut-sait.php

В результате данной команды робот сведет все страницы к одной

https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=1&r_id=123

Host

Директива host используется только ПС Яндекс и Mail. Он нужен, чтобы показать роботу основное зеркало сайта (с www или без www), которое будет участвовать в поиске. Например:

User-agent: *
Disallow:

Host: mydaoseo.ru

В данном случае основное зеркало сайта без www. Также нужно сказать, что протокол http в хосте указывать не нужно, однако, https обязательно. Например,

User-agent: *
Disallow:

Host: https://mydaoseo.ru

Читайте также, как сделать правильный переезд сайта с http на https. Хост должен прописываться в роботсе только один раз, местоположение его особого значения не имеет, но по правилам лучше всего поместить его в конце.

Sitemap

Директива sitemap нужна, чтобы указать путь к XML карте сайта. Обычно sitemap располгается в корне сайта по следующему адресу site.ru/sitemap.xml. Например:

User-agent: *
Disallow:

Sitemap: https://mydaoseo.ru/sitemap.xml

Директиву можно прописать несколько раз, особенно это актуально для больших интернет магазинов, где огромное количество страниц, и в один XML файл все страницы не умещаются. Расположение sitemap.xml также особого значения не имеет, но по правилам хорошего тона следует его располагать в самом низу роботса.

Это основные команды robots.txt. Есть еще и другие, но они не поддерживаются большинством поисковых систем.

Что закрывать в robots txt

Роботс будет отличаться для разных сайтов, в зависимости от того, на какой платформе он разработан. Сайт может быть самописным, на платном или бесплатном движке (CMS) или сделан с помощью конструктора. В любом случае универсального варианта нет, нужно отталкиваться конкретно от вашей ситуации.

У меня есть пост, каким должен быть роботс для основных видов CMS, можете почитать подробнее, если вы хотите составить его самостоятельно именно для вашего сайта.

Есть кстати, еще один способ составить роботс самому. Нужно найти несколько сайтов с такой же CMS, как у вас и составить свой роботс на их примере. Для того, чтобы найти и посмотреть файл robots.txt чужого сайта, нужно к домену прописать /robots.txt. Например:

https://mydaoseo.ru/robots.txt

Таким образом вы можете подсмотреть, проанализировать и скомпоновать свой собственный файл роботс.

Итак, мы разобрались, зачем нужен файл robots txt, какие функции выполняет, основные директивы. Посмотрите также небольшое видео, чтобы закрепить материал.

Если вам понравилась статья, то поделитесь ею со своими друзьями. Если у вас есть вопросы или дополнения, то пишите комментарий внизу.

Понравилась статья? Поделись с друзьями:
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (2 оценок, среднее: 1,50 из 5)
Загрузка...
Закладка Постоянная ссылка.
  1. le138 пишет:

    Я считаю продвижение сайтов стабильно хорошо продвигается

  2. Олег пишет:

    Какой robots лучше использовать для самописного сайта?

    • Сергей пишет:

      смотрите по выдаче, какие страницы нужно закрыть от индекса, закрывается админка всегда, технические страницы, прописать хост и сайтмап.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *