Meta-тег robots и canonical: как избежать конфликтов и дублей в индексе

Содержание

Что делает meta-тег robots?

Что делает canonical?

Конфликты meta-тега robots и canonical

Noindex, nofollow + canonical на себя

Index, follow + canonical на другую страницу

Noindex + canonical на другую страницу

А что же robots.txt?

Мини чек-лист

Размер текста:

Meta-тег robots и атрибут canonical часто настраивают одновременно, но сочетают неправильно. В итоге получают дубли в индексе, перерасход краулингового бюджета, настабильную каноникализацию.

Зачем нужны директивы meta-тега robots, если уже есть canonical и наоборот – нужно ли указать каноническую версию документа при уже настроенном запрете индексации?

Очевидно, что есть разница в выполняемых этими инструментами задачах. Meta-тег robots управляет индексацией страницы роботом и возможностью его путешествия по ссылкам на ней (читай: решает, что попадет в индекс). Атрибут canonical же в свою очередь подсказывает поисковику основную версию документа среди дублей.

Для робота директивы в meta-теге, как правило, исполняются, если страница доступна к обходу, а в canonical – просто рекомендация.

Что делает meta-тег robots?

Как уже было сказано выше, сочетание директив управляет индексацией и обходом ссылок. Index дает разрешение на индексацию, а noindex, соответственно, запрещает индексацию документа.

Как он работает для уже проиндексированных страниц? Очень просто – при смене директивы на запрещающую, после того, как бот обойдет страницу и увидит noindex, URL начнет удаляться из индекса (не в моменте, а с некоторой задержкой).

Теперь рассмотрим сочетание follow и nofollow, когда они имеют смысл. Follow разрешает обход по ссылкам даже для страницы с директивой noindex. Это означает, что робот не будет индексировать документ, но будет переходить по ссылкам, находить новые и быстрее переобходить связанные URL.

Для большинства фильтровых страниц с товарами правильное решение:

<meta name="robots" content="noindex, follow" />.

Исключением, пожалуй, являются «мусорные» результаты фильтрации, которые плодят еще больше таких же бесполезных результатов – своеобразный бесконечный фильтр. В этом случае верной будет директива:

<meta name="robots" content="noindex, nofollow" /> .

Как видим, nofollow управляет краулингом и применяется там, где расход краулингового бюджета рискует быть бесконечным.

Какие же есть риски использования директивы nofollow? Например, если на страницах фильтраций есть ссылки на товары, которых нет ни в карте сайта, ни на других листингах, то поисковый робот может никогда не добраться до них. Таким образом, при слабой структуре сайта или отсутствии уверенности в ней, лучше директиву nofollow не использовать.

Что делает canonical?

Если на сайте по той или иной причине есть ряд дублей, то с помощью canonical можно указать роботу, какой документ считать основным (каноническим). С помощью этого атрибута можно «схлопывать» дубликаты в рамках сайта, но он является лишь рекомендательным. То есть это скорее подсказка, чем строгое указание.

Конфликты meta-тега robots и canonical

Noindex, nofollow + canonical на себя

Пример типовой фильтровой страницы интернет-магазина:

У нее есть:

<meta name="robots" content="noindex, nofollow">
rel=canonical указывает на сам URL

Мы с одной стороны говорим, что это документ «мусорный», а с другой - указываем, что это основной URL. Более того, еще и запрещаем ходить по ссылкам.

Это не столько конфликт, сколько бессмысленная связка: страница помечена как неиндексируемая, поэтому canonical не решает задачу выбора канонической версии.

Решением видится заменить директивы meta-тега robots на noindex, follow. А в качестве канонической указать раздел (без фильтра), которому они принадлежат (если результаты фильтрации не являются самостоятельными страницами с ЧПУ).

Атрибут canonical помогает нормализовать индекс, но для краулинга важно также не генерировать параметрические URL и исключить их из sitemap.xml.

Что нам это даст? «Схлопнем» сотни тысяч комбинаций фильтра и дадим роботу новые пути обхода карточек товаров.

Index, follow + canonical на другую страницу

Встречаются примеры обратных конфликтов. Для пагинаций может быть настроено так:

Мы разрешаем роботу индексировать документ (index, follow), а далее ставим canonical на первую страницу и говорим, что это дубли и основной считаем другую. Если сайт — крупный интернет-магазин, бот будет активно обходить пагинацию, но canonical на первую сообщает, что эти страницы не самостоятельны, что дает перерасход краулингового бюджета без пользы.

Как поступить правильно? Если товары доступны через категории, карты сайта, и у нас нет цели индексировать пагинацию, то:

<meta name="robots" content="noindex, follow">

Если же пагинация — это единственный путь к части товаров, то придется оставлять:

<meta name="robots" content="index, follow"> (но canonical настроить на сами пагинации).

Noindex + canonical на другую страницу

Это довольно частый пример смешанной команды, когда мы просим не индексировать один документ, но при этом говорим, что основным из списка таких же дубликатов надо считать другой.

Какие цели преследуют сочетанием таких директив? Скорее всего, хотят убрать исходную страницу из индекса, но склеить ее с другой, считают canonical аналогом 301-редиректа (якобы он способен перенести вес) или борются с результатами фильтрации, ставя canonical на категорию.

Такое сочетание, как правило, некорректно, так как представляет собой противоречивые сигналы. Поисковая система может удалить из индекса исходную страницу, но не принять рекомендацию canonical, особенно, если контент отличается.

Кроме того, указание канонической страницы может быть не просто проигнорировано, но робот выберет такой URL на свое усмотрение или будет «колебаться» при каждом обходе.

В редких случаях связка noindex + canonical на другой документ может использоваться как компромисс: например, когда существует технический дубль, а настроить 301-редирект или нормализацию URL нельзя из-за ограничений платформы. В общем случае связка noindex + canonical на другую страницу смешивает задачи и может дать непредсказуемый результат.

А что же robots.txt?

Важно помнить, что robots.txt управляет обходом, а не индексацией и вот здесь шутки совсем плохи. Если закрыть в нем «мусорные» страницы и добавить на них meta-тег robots и canonical, то вне зависимости от правильности или неправильности их указания ничего не поменяется – робот туда даже не придет, и соответственно, никогда не увидит ни рекомендаций, ни директив. А «мусор» может долго оставаться в индексе и фигурировать в отчетах со статусом «Заблокировано в файле robots.txt». Вряд ли нам это нужно?

Мини чек-лист

Нужно убрать URL из индекса? Не закрываем его в robots.txt. Сначала отдаем noindex с помощью meta-тега.
«Мусорные» результаты фильтрации? Ставим по умолчанию <meta name="robots" content="noindex, follow">
Бесконечные комбинации фильтра? Указываем <meta name="robots" content="noindex, nofollow">.
Пагинации? Не делаем канонической первую страницу. Ставим <meta name="robots" content="index, follow"> и canonical на саму пагинацию, либо <meta name="robots" content="noindex, follow"> (если товары доступны другими путями).
Исключаем противоречия сигналов noindex, canonical и robots.txt друг другу.
Помним, что noindex работает только если URL не закрыт в robots.txt и отдает HTTP 200.

Автор

Максим Муромский

Канал про развитие бизнеса

от Дмитрия Севальнева

Перейти

Канал про SEO‑продвижение

от Сергея Просветова

Перейти

Кейсы, инсайты и внутрянка ПИКСЕЛЬ ПЛЮС

Перейти

Подписывайтесь
на рассылку

Понравилась статья?

— по оценке 15 пользователей

25 февраля, 08:27

Оставить комментарий

Комментариев пока что нет

Наши достижения

Входим в число лучших компаний России в сферах интернет-рекламы и разработки сайтов по результатам самых авторитетных рейтингов

Победитель в номинации «SEO для e-commerce» по итогам WORKSPACE DIGITAL AWARDS 2025

Победитель в номинации «SEO под ключ» по итогам WORKSPACE DIGITAL AWARDS 2024

Рейтинг с самой прозрачной методологией SEO глазами клиентов 2023

Рейтинг известности SEO-компаний 2020 по версии SEO-news

Подробнее о компании Наши достижения

Другие статьи автора

Вернуться в раздел

Что прямо сейчас можно сделать...
Специфика органического трафика любого регионального СМИ такова, что в его основе лежат новости и лонгриды общественной жизни региона.
5 февраля
Что не так с вашей пагинацией ...
Ключевой задачей постраничной навигации является повышение удобства просмотра длинного контента.
13 ноября

Другие статьи рубрики

Вернуться в раздел

Разработка мобильных приложени...
Разработка мобильного приложения как бизнес-стратегия. Как создать приложение, которое станет каналом продаж с понятным ROI.
25 мая
Корпоративное мобильное прилож...
Кому надо и когда пора делать корпоративное мобильное приложение
1 мая
4 фактора устойчивой популярно...
Если вы хотите сделать приложение, начинайте с Android. Для этого есть 4 веские причины…
1 мая
IoT разработка: как создать ре...
IoT разработка — это создание систем, в которых физические устройства собирают данные и обмениваются ими через интернет. В этой статье разобрано всё: ...
10 апреля
Что такое API и как это работа...

В этой статье объясняется, что такое API, как устроен принцип его работы и где он применяется. Материал будет полезен разработчикам, предпринимател...
10 апреля
UX-исследования: методы, виды ...
Создание цифровых продуктов сегодня — это сложный процесс, где каждая ошибка может стоить миллионы. Чтобы не действовать вслепую и не тратить бю...
16 марта
Когда пора заказать разработку...
Когда разработка собственного приложения становится спасением для бизнеса?
12 марта
Купить готовое приложение или ...
Сколько можно сэкономить, если купить готовое приложение для бизнеса
11 марта
MVP приложение для бизнеса: чт...
Что такое MVP приложение,зачем и когда оно нужно бизнесу
11 марта
Как проектировать медицинские ...
Экспертный разбор с реальными кейсами 2025

10 марта
Цена мобильного приложения для...
Сколько стоит мобильное приложение в 2026 году: порядок цен на разные виды мобильных сервисов
10 марта
Core Web Vitals: как измерять ...
Core Web Vitals — это фундаментальный набор метрик, разработанный Google для оценки качества пользовательского опыта при взаимодействии с веб-ст...
12 февраля