Как составить верный robots.txt для Yandex’а и Гугл. {Инструкция}

Реклама. ООО «Клик.ру», ИНН:7743771327, ERID: 2VtzqubSg4i

Когда поисковые машины сканируют веб-сайт, они действуют по своим методам и не постоянно обходят странички так, как необходимо обладателю ресурса. В итоге в выдаче могут появляться технические URL, фильтры, дубль-контент либо временные странички, которые не предусмотрены для юзеров. Чтоб навести ботов и управлять тем, что вправду попадает в индекс, употребляется файл robots.txt – маленькой, но критически принципиальный инструмент технической оптимизации.

Невзирая на ординарную структуру, robots.txt способен решить сходу несколько задач: понизить нагрузку на сервер, улучшить краулинговый бюджет, защитить поисковую выдачу от «мусорных» страничек и посодействовать поисковикам резвее добраться до главных разделов веб-сайта. Но лишь при условии, что файл составлен без ошибок и уважает правила, по которым работают краулеры.

В этом материале мы разберемся, как формируется robots.txt, какие директивы употребляют различные CMS, какие ошибки встречаются почаще всего и как обеспечить корректную работу файла на всех платформах.

Для чего же нужен robots.txt

Файл robots.txt служит точкой взаимодействия веб-сайта с поисковыми роботами Гугл и Yandex’а. Через него обладатель ресурса докладывает краулерам, какие разделы можно просматривать, а какие лучше пропускать. На самом деле, это набор директив, которые помогают управлять индексацией: бот получает советы, какие URL исследовать, а какие странички не трогать совсем.

Если поисковая машина учтет эти указания, в обход пойдут излишние дубли, технические URL, странички с GET-параметрами и остальные материалы, не представляющие ценности для юзера.

Обычно в robots.txt ограничивают доступ к:

  • сервисным разделам;

  • неинформативным URL;

  • дублям;

  • страничкам, формирующимся динамически.

Это делается для того, чтоб:

  • понизить нагрузку на сервер за счет уменьшения количества запросов ботов;

  • правильно расходовать краулинговый бюджет – размер URL, которые поисковик способен просканировать за одну сессию;

  • защитить поисковую выдачу от попадания неподходящих страничек.

Как закрыть страничку от поисковых роботов

Принципиально осознавать: правила в robots.txt – не приказы, а советы. Даже если URL запрещен для сканирования, он все равно может оказаться в выдаче, если на него ведут внутренние либо наружные ссылки. В этом случае карточка такового URL будет отображаться без сниппета: бот увидит сам факт существования странички, но не сумеет прочесть ее содержимое.

Если нужно стопроцентно исключить страничку из индекса, 1-го запрета в robots.txt не много.

Надежные методы:

  1. Ограничить доступ по паролю. Для служебных разделов это лучший вариант. Если контент закрыт авторизацией, краулер на физическом уровне не сумеет получить доступ.

Употреблять метатеги noindex и nofollow. Подключают их снутри блока < head >:

< meta name="robots" content="noindex, nofollow"/ >

  1. В этом случае бот усвоит, что страничку регистрировать недозволено, а ссылки на ней – не учесть.

Основной аспект: не закрывайте такую страничку сразу через robots.txt. Если бот не сумеет зайти на URL, он не увидит метатеги и проигнорирует запрет.

Требования поисковых машин к robots.txt

Гугл и Yandex предъявляют фактически схожие требования к оформлению и размещению файла:

  • Формат: только .txt.

  • Размер: до 32 КБ.

  • Заглавие: строго строчными знаками – robots.txt. Модифицированный регистр поисковики не распознают.

  • Язык записи: вся структура – лишь латиницей. Исключение – домены на кириллице; их нужно переводить в punycode (к примеру, «окна.рф» → xn--80atjc.xn--p1ai).

  • Комменты: можно писать на любом языке, потому что они не анализируются ботами. Для объяснений употребляется знак #.

  • Количество: должен существовать один общий robots.txt для домена и его поддоменов.

  • Размещение: лишь в корневом каталоге веб-сайта. При наличии поддоменов – файл необходимо положить раздельно в корень всякого из их.

  • Доступность: файл должен корректно раскрываться по адресу https://example.com/robots.txt и отдавать код 200 OK.

Подробные гайды доступны в официальных справках Yandex’а и Гугл.

Как хорошо сформировать robots.txt

Файл robots.txt – это набор инструкций, которые докладывают поисковым ботам, какие разделы веб-сайта можно просматривать, а какие лучше игнорировать. Любая директива применяется к определенным ботам, обозначенным в строке User-agent, и описывает правила доступа для избранных частей ресурса.

Хотя набор установок для Yandex’а и Гугл в крайние годы стал фактически схожим, у Yandex’а все есть еще своя изюминка – директива Clean-param, созданная для борьбы с дублями, возникающими из-за GET-параметров.

Главные директивы и что они значат

User-agent

Через эту команду определяется адресат. Опосля двоеточия записывают имя определенного бота либо знак *, если правила должны применяться ко всем.

Примеры:

  • User-agent: * – аннотации для всех поисковых ботов.

  • User-agent: Googlebot – команды лишь для Googlebot.

Disallow

Эта директива перекрывает сканирование определенных страничек либо разделов. Опосля наклонной черты указывают путь, который должен быть закрыт.

Пустой Disallow: значит, что веб-сайт стопроцентно открыт для обхода. А запись Disallow: / воспрещает ботам просматривать веб-сайт полностью – принципиально убедиться, что таковой запрет случаем не остается в файле опосля разработки новейшего проекта.

Можно управлять доступом избирательно. К примеру, разрешить лишь Googlebot просканировать веб-сайт, но ограничить других ботов:

Наличие либо отсутствие косой черты меняет смысл директивы.

  • Disallow: /about/ – закрывает лишь раздел «О нас».

  • Disallow: /about – перекрывает все URL, начинающиеся с /about, включая вложенные странички.

Любая директива записывается отдельной строчкой – перечислять несколько запретов попорядку в одной записи недозволено.

Allow

Употребляется для точечного открытия отдельных URL. К примеру, если полностью раздел закрыт, но одно конкретное изображение обязано индексироваться:

Clean-param – особая директива Yandex’а

Эта команда помогает биться с дублями, которые появляются при использовании UTM-меток либо случайных характеристик. Гугл ее не учитывает, потому по мере необходимости можно поменять Clean-param на Disallow.

К примеру, если у странички есть URL:

https://example.com/index.php?page=1&sid=2564126ebdec301c607e5df

https://example.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

Либо подобные ссылки с параметрами, которые не влияют на содержимое странички, структура в robots.txt будет таковой:

Clean-param: sid /index.php

Если характеристик несколько, их перечисляют через амперсанд:

Clean-param: sid&utm&ref /index.php

Строчка не обязана превосходить 500 знаков, но при большенном количестве характеристик правило можно разбить на несколько наиболее маленьких.

Sitemap в robots.txt

Если на веб-сайте есть карта веб-сайта, ее путь можно указать через директиву Sitemap – поисковым ботам так проще ориентироваться в структуре ресурса:

Sitemap: https://example.com/sitemap.xml

Спецсимволы в robots.txt

  • * – подставляет всякую последовательность знаков.

  • $ – показывает, что правило действует лишь при совпадении конца URL.

К примеру:

Disallow: /catalog/category1$

Таковая команда воспретит доступ к разделу /catalog/category1, но оставит открытым просмотр продуктов снутри него.

Для чего употреблять генераторы robots.txt

Собирать файл вручную не непременно. Есть бесплатные онлайн-инструменты, которые помогают автоматом сформировать robots.txt: указать путь к sitemap, закрыть либо открыть разделы, добавить ограничения для краулеров и настроить интервал посещений.

Для фаворитных CMS есть плагины, дозволяющие управлять robots.txt прямо из админки.

Как убедиться, что robots.txt работает корректно

Опосля размещения файла в корневом каталоге веб-сайта принципиально проверить, как его лицезреют поисковые машины. Для этого есть особые инструменты:

  • Проверка robots от Yandex’а – дозволяет выявить ошибки в структуре и содержимом.

  • Robots Tester от Гугл – помогает оценить доступность файла и правильность опций.

  • PR-CY Анализ веб-сайта – указывает наличие robots.txt, ошибки индексации и огромное количество остальных технических характеристик – дата обновления файла, статус доступности, отысканные предупреждения и советы.

Готовые варианты robots.txt для фаворитных CMS

Файл robots.txt размещается в корне веб-сайта и редактируется или через FTP-доступ, или через интегрированные инструменты CMS (если они предусмотрены). Некие системы управления разрешают работать с файлом прямо из админки, что упрощает процесс опции. Разглядим, какие способности дают пользующиеся популярностью движки и какие примеры файлов подступают для различных типов веб-сайтов.

WordPress

В экосистеме WordPress есть огромное количество плагинов, позволяющих автоматом сформировывать либо изменять robots.txt. Таковая функция встроена в большие SEO-плагины Yoast SEO и All in One SEO, но есть и узкоспециализированные решения – к примеру:

  • Virtual Robots.txt

  • WordPress Robots.txt optimization (+XML Sitemap)

Пример robots.txt для контентного проекта на WordPress

Это базисная версия файла, пригодная для блогов и информационных веб-сайтов, где нет личного кабинета, корзины либо остальных e-commerce частей.

Пример robots.txt для интернет-магазина на WordPress

Если веб-сайт работает на WooCommerce, к обычным правилам добавляют запрет на индексацию:

  • корзины;

  • странички дизайна заказа;

  • URL прибавления продукта в корзину.

Таковым образом, поисковики не будут обходить технические странички, которые не должны появляться в выдаче.

1C-Битрикс

В Битриксе можно управлять robots.txt прямо из панели админа, начиная с версии 14.0.0. Опции находятся в разделе:

Маркетинг → Оптимизация поисковых машин → Настройка robots.txt

Пример robots.txt для веб-сайта на Битрикс

В файле обычно указывают обычный набор запретов, но добавляют учет личных кабинетов, что типично для большинства проектов на данной для нас CMS.

OpenCart

Для OpenCart существует официальный модуль, позволяющий редактировать robots.txt без FTP.

Пример robots.txt для магазина на OpenCart

Потому что OpenCart почаще всего употребляется для интернет-магазинов, правила нацелены на e-commerce: запираются акк, корзина, поиск, характеристики сортировки, фильтры и остальные технические URL.

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: *page=*

Disallow: *search=*

Disallow: /cart/

Disallow: /forgot-password/

Disallow: /login/

Disallow: /compare-products/

Disallow: /add-return/

Disallow: /vouchers/

Sitemap: https://example.com/sitemap.xml

Joomla

В Joomla система сама делает robots.txt при установке и сходу включает нужные запреты. Отдельные расширения для генерации файла не требуются.

Пример robots.txt для веб-сайта на Joomla

Почаще всего закрывают служебные сборники, шаблоны, плагины, модули и остальные элементы, которые не должны быть доступны поисковикам.

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

Allow: *.css

Allow: *.js

Sitemap: https://example.com/sitemap.xml

Поисковики разглядывают правила в robots.txt как советы. Если в файле нет противоречий и на закрытые URL не ведут ссылки, то возможность игнорирования директив мала. Хорошо настроенный robots.txt помогает избежать утечки технических страничек в выдачу и сберегает краулинговый бюджет.

Как PromoPult помогает с настройкой robots.txt

Перед стартом продвижения SEO-модуль PromoPult автоматом инспектирует техническое состояние веб-сайта, включая robots.txt, и сформировывает чек-лист задач по внутренней оптимизации. Исправления можно выполнить без помощи других, передать сотрудникам либо поручить спецам платформы.

Благодаря AI-инструментам PromoPult почти все сложные процессы автоматизированы: система анализирует семантику, проводит техно диагностику, дает подсказку ошибки и сформировывает советы. Протестировать SEO в сервисе можно безвозмездно в течение 14 дней, а удачные кейсы из вашей ниши – поглядеть в подборке.

Оригинал статьи на SEOnews

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *