Руководство: как закрыть сайт от индексации в поисковых системах?

Автор: | 23.07.2018

Вопрос может показаться неактуальным, т.к. борьба в сети обычно идет за трафик и внимание пользователей. Но когда сайт только разрабатывается или вносятся какие-либо изменения, он скорее всего еще не готов к показу. В таком случае лучше скрыть сайт от индексации поисковых систем. И сделать это достаточно просто.

Например, чтобы скрыть сайт из поиска Яндекса, нужно создать в корне сайта текстовый файл robots.txt и внести в него следущее:

User-agent: Yandex

Disallow: /

А чтобы скрыть от любых поисковиков:

User-agent: *

Disallow: /

Аналогичным образом можно скрыть от поиска какую-либо папку со всем содержимым:

User-agent: *

Disallow: /folder/

Возможно также оставить открытым для поиска любой файл в закрытой папке, это делается следующим образом:

User-agent: *

Аllow: /folder/file.php

Disallow: /folder/

Скрыть необходимый файл в Яндексе по аналогии:

User-agent: Yandex

Disallow: /folder/file.php

Чтобы проверить находится ли сайт в индексе, достаточно зайти на сервис «Пиксель Тулс», найти инструмент «Определение возраста документа в Яндексе», ввести один или несколько url, которые необходимо проверить. В результате сформируется отчет с указанием даты создания и возраста сайта в днях. Если документ отсутствует в поиске, появится значение «Не в индексе».

Также можно запретить к индексации изображения различных форматов:

User-Agent: *

Disallow: *.jpg

Disallow: *.png

Disallow: *.gif

Чтобы скрыть поддомен на сайте, необходимо найти его файл robots.txt. Чаще всего он находится в корневой для поддомена папке. Нужно изменить содержимое файла, указав разделы, которые необходимо закрыть, используя директорию Disallow. При отсутствии такого файла – нужно его создать.

При использовании CDN дубль на поддомене может стать проблемой для SEO. Это можно исправить двумя способами:

  1. Сначала настроить работу атрибута rel=”canonical” тега на основном домене;
  2. Создать свой запрещающий файл robots.txt на поддомене с CDN.

Первый способ настройки дает более подробную информацию по обоим адресам, поэтому является более предпочтительным.

Следует принимать во внимание, что robots.txt может восприниматься поисковыми системами по-разному. К примеру, роботы Google иногда не следуют его указаниям и воспринимают содержимое файла как рекомендацию.

Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:

  • «Crawl-delay:» — задает минимальный период времени для скачивания двух файлов с сервера.
  • «Clean-param:» — указывает GET-параметры, не влияющие на отображение контента сайта.
  • «Sitemap:» — указывает путь к XML-карте сайта.

«Crawl-delay:» и «Sitemap:» поддерживаются многими поисковыми системами.

Также с целью скрыть сайт можно использовать метатег Robots, его необходимо прописать внутри тегаhtml-документа. Метатег имеет следующие значения:

  • index – индексировать;
  • noindex – не индексировать;
  • follow – разрешено следовать по ссылкам;
  • nofollow – не разрешено следовать по ссылкам.

Принцип работы с этими метатегами аналогичен работе с файлом robots.txt. Существует исключение – их используют непосредственно на тех страницах, которые необходимо скрыть. Когда нужно закрыть весь ресурс, эти теги прописывают прямо в шаблон сайта. Выглядит это так:

meta name=”robots” content=”noindex, nofollow” – запрет индексации страниц и обхода ссылок для роботов;

meta name=”robots” content=”noimageindex” – запретить индексировать изображения на странице;

meta name=”robots” content=”none” – в значении «noindex, nofollow».

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *