Каждый месяц сотни сайтов теряют позиции в поиске из-за неправильных настроек для роботов поисковых систем. Одна неправильная строка в robots.txt или некорректно настроенный meta-тег robots может привести к исчезновению целых разделов из выдачи или, наоборот, к индексации «мусора» и, что еще критичнее, конфиденциальных данных.
Предлагаем разобраться и закрыть вопрос: как правильно закрывать страницы от индексации, какой вариант лучше использовать и почему?
Начнем с небольшого теоретического блока, он тоже важен!
Robots.txt — это текстовый файл, который в 99% случаях лежит в корневой папке сайта, содержащий список инструкций для поисковых роботов о том, какие разделы сайта следует или не следует сканировать.
Файл robots.txt — для управления сканированием.
Meta-тег robots — это HTML-тег, размещаемый в коде страницы (внутри тега <head>), который дает точные указания поисковым системам о том, индексировать ли конкретную страницу и учитывать ли в формуле PageRank исходящие ссылки на ней.
Meta-тег robots — для управления индексацией.
Представьте, что ваш сайт — это музей. Если позволить посетителям свободно ходить по всем помещениям, включая служебные комнаты, подсобки и реставрационные мастерские, главные экспонаты останутся без внимания. Точно так же и с поисковыми роботами: без четких указаний они будут тратить ограниченное время на изучение технических разделов вместо индексации важных для бизнеса страниц.
Простыми словами — это количество страниц вашего сайта, которое поисковая система может обойти за определенный промежуток времени. Если поисковый робот потратит выделенный бюджет на архивы, «мусор» и технические дубли, ключевые продвигаемые страницы страницы могут просканироваться не сразу (не попасть в индекс, не обновятся корректировки оптимизации).
Грамотное управление роботами поисковиков — это не ограничение, а оптимизация их работы. Как опытный администратор музея направляет посетителей по самым ценным экспозициям, так и веб-мастер должен направлять роботов к самым важным страницам сайта.
Представьте, что ваш сайт — это бизнес-центр с охраной на входе. Файл robots.txt — это именно тот охранник, который дает роботам-посетителям первоначальные указания: «Какие коридоры можно обследовать, а какие — обойти стороной». Это текстовый документ, к которому роботы обращаются в первую очередь, еще до начала изучения каких-либо страниц.
Рассмотрим основные команды Robots.txt
| Команда | Простой смысл | Когда применять | Пример |
|---|---|---|---|
| User-agent | «Это указание для...» | Когда нужно дать команду конкретному поисковому роботу | User-agent: Yandex (только для Яндекса) User-agent: * (для всех роботов) |
|
Disallow |
«Не заходи сюда» | Для закрытия целых разделов, папок или типов файлов | Disallow: /admin/ Disallow: /tmp/ |
|
Allow |
«Но сюда можно» | Для создания исключений внутри запрещенной зоны | Disallow: /admin/ Allow: /admin/public/ |
| Sitemap | «Вот карта сайта» | Чтобы помочь роботу быстрее найти все важные страницы | Sitemap: https://site.ru/sitemap_new.xml |
✅ Плюсы:
❌ Минусы:
Важное уточнение: robots.txt — это указание для сканирования, а не для индексации. Директива в файле может запретить роботу загружать содержимое страницы, но не может гарантировать, что эта страница не попадет в поисковый индекс, если на нее ведут ссылки внутри сайта и с других ресурсов.
Если файл robots.txt — это охранник на входе в бизнес-центр, то мета-тег robots — это индивидуальная табличка на двери каждого конкретного кабинета. Этот HTML-код размещается в коде страницы (внутри тега <head>) и содержит прямые указания для поисковых роботов, которые уже зашли внутрь.
Комбинации <meta name=”robots”> и их смысл:
| Команда | Что означает | Где использовать |
|---|---|---|
| index, follow | «Индексируй эту страницу и переходи по ссылкам на ней» | Обычные страницы, которые должны быть в поиске (стандартное поведение) |
| noindex, follow | «Не показывай в поиске, но ссылки с нее учитывай» | Страницы-воронки, формы заявок, контент для партнёров |
| index, nofollow | «Показывай в поиске, но по ссылкам не переходи» | Страницы с пользовательским контентом, комментариями |
| noindex, nofollow | «Полностью игнорируй эту страницу» | Служебные страницы, черновики, временные акции |
✅ Плюсы:
❌ Минусы:
Ключевое отличие: meta-тег robots работает на уровне индексации, а не сканирования. Он не запрещает роботу заходить на страницу, но точно указывает, что с ней делать после загрузки. Это инструмент точечного контроля и он незаменимый когда есть потребность управлять видимостью отдельных страниц без ограничения доступа к ним.
Самая распространенная ошибка — сочетание закрытия страниц обоими способами. На практике и согласно инструкциям поисковых систем, их одновременное применение приводит к прямо противоположному результату.
Конкретный пример: интернет-магазин решил скрыть от индексации страницы с архивными товарами. В robots.txt добавили:
А на самих страницах архива прописали:
Результат: через месяц трафик на основные категории упал на 30%, а в поиске появились дубли страниц.
Механизм конфликта: почему робот не видит noindex.
1. Робот следует цепочке действий:
2. Что происходит дальше:
Как проверить наличие такой ошибки на сайте:
1. Аудит robots.txt
2. Анализ в Google Search Console
3. Практический чек-лист:
Простое правило: запрещаете сканирование — не рассчитывайте на индексацию. Нужно скрыть страницу из поиска — дайте роботу возможность прочитать meta-тег.
Чтобы избежать распространенных ошибок, используйте эту таблицу как практическое руководство для ежедневной работы. Здесь собраны типовые сценарии и оптимальные решения для них.
Что выбрать в конкретной ситуации
| Ваша задача | Инструмент | Пример настройки | Важные нюансы |
|---|---|---|---|
| Закрыть служебные папки | robots.txt | Disallow: /admin/ Disallow: /cgi-bin/ | Не защищает от прямого доступа, требует дополнительных мер безопасности |
| Убрать страницу из поиска | meta-тег robots | <meta name="robots" content="noindex"> | Страница все равно грузится роботом, но гарантированно исключается из выдачи |
| Скрыть дубли страниц | robots.txt | Disallow: /?sort=* Disallow: /?filter=* | Эффективно экономит краулинговый бюджет, блокируя параметры сортировки. Убедиться, что нет прямых внутренних ссылок |
| Закрыть PDF-файл | robots.txt + доп. меры | Disallow: /price.pdf | Для полной защиты нужна авторизация или дополнительная настройка сервера |
| Страница «Спасибо за заявку» | meta-тег robots | noindex, follow | Сохраняет вес ссылок для SEO, но не индексируется в поиске |
| Страница с комментариями | meta-тег robots | index, nofollow | Индексируется, но ссылки в комментариях не передают вес |
| Архивные товары | meta-тег robots | noindex, nofollow | Полностью исключает страницы из поиска и не учитывает ссылки |
| Технические файлы | robots.txt | Disallow: /*.js$ Disallow: /*.css$ | Запрещает сканирование JS/CSS файлов для экономии бюджета. Убедиться, что поисковики рендерят страницы корректно |
Ключевые выводы:
Эта шпаргалка поможет принимать верные решения без глубокого погружения в технические детали, сохраняя эффективность SEO-продвижения и разумное использование ресурсов.
Даже опытные специалисты допускают ошибки в настройках для поисковых роботов. Вот самые распространенные из них, которые могут серьезно навредить видимости сайта.
1. Критическая ошибка. Закрытие в robots.txt страниц, которые должны быть в поиске.
2. Опасное действие. Использование noindex для главной страницы.
3. Стратегическая ошибка. Закрытие целых разделов через meta-теги
4. Распространенная оплошность. Неправильные символы в директивах.
4. Техническая ловушка. Конфликт настроек разных систем (CMS, плагины)
Потратьте 10 минут, чтобы проверить ваш сайт по этому списку и избежать серьезных проблем.
1. ✅ Проверьте главную страницу на наличие noindex.
2. ✅ Проверьте robots.txt на наличие запретов для ключевых разделов.
Останется только ввести URL продвигаемых страниц:
И убедиться, что доступ к ним согласно текущей версии сайта, открыт (при условии, что правила общие для всех поисковиков):
3. ✅ Убедитесь, что для страниц, закрытых в robots.txt, не назначен noindex.
4. ✅ Проверьте синтаксис robots.txt на валидность.
5. ✅ Проверьте наличие конфликтующих инструкций из CMS и плагинов.
6. ✅ Проверьте наличие страниц в индексе поисковой системы Google, несмотря на закрытие их в файле robots.txt.
Регулярное выполнение этого чек-листа — лучшая страховка от технических ошибок, которые могут подорвать SEO-усилия.
После детального разбора двух инструментов становится очевидной простая, но эффективная стратегия их использования. Запомните эти три правила — они избавят вас от 95% возможных ошибок.
Потратьте 10 минут прямо сейчас на проверку текущих настроек вашего проекта по нашему чек-листу — эти простые действия уберегут ваш бизнес от неожиданных потерь трафика и дохода в будущем!
🚀 Узнай первым секреты SEO и прокачай свои скиллы!
Входим в число лучших компаний России в сферах интернет-рекламы и разработки сайтов по результатам самых авторитетных рейтингов
Нужна помощь с сайтом? Заполните форму, и наши менеджеры проконсультируют вас уже сегодня!
Уникальный тариф «Оборот», где доход агентства больше не зависит от визитов и позиций вашего сайта, а привязан исключительно к росту оборота вашей компании.
Тариф, который хотели сделать многие, но реализовали только мы.