Главные ошибки в robots.txt

Боты поисковых машин употребляют файл robots.txt для определения того, какие странички веб-сайта они могут исследовать. Маленькие ошибки в этом файле могут привести к дилеммам с индексацией и ранжированием в поисковых системах. В данной нам статье разглядим главные ошибки в robots.txt и методы их исправления.

Что такое robots.txt

Robots.txt – это текстовый файл, который вебмастера располагают на собственном веб-сайте для управления поведением поисковых ботов, таковых как Googlebot. Данный файл показывает поисковым ботам, какие странички веб-сайта они могут исследовать и регистрировать, а какие – нет.

Файл robots.txt содержит аннотации для поисковых ботов в виде директив, таковых как:

  • User-agent (указание агента – поискового бота).
  • Disallow (запрет доступа к определенным разделам веб-сайта).
  • Allow (разрешение индексирования к определенным разделам веб-сайта).

При помощи robots.txt вебмастера могут надзирать доступ поисковых ботов к разным разделам веб-сайта, перекрыть ненужные странички либо директории, также указывать положение карты веб-сайта и остальные характеристики.

Этот файл является принципиальным инвентарем для SEO-оптимизации, так как дозволяет сделать лучше индексацию и ранжирование веб-сайта в поисковых системах. Но некорректная настройка либо ошибки в файле robots.txt могут привести к дилеммам с индексацией и видимостью веб-сайта в поисковой выдаче. Потому принципиально пристально настраивать и часто инспектировать этот файл для хорошей работы веб-сайта в поисковых системах.

Главные ошибки в robots.txt

Ошибка №1: Неверное внедрение символов-джокеров

Один из более всераспространенных типов ошибок в файле robots.txt – это неверное внедрение символа-джокера.

Выделяют два типа знаков подстановки:

  • Звездочка (*)
  • Бакс ($)

Знак подстановки звездочка (*) значит хоть какое количество знаков. К примеру, вы желаете закрыть от индексации все странички с вхождением в URL-адрес – «example». Это можно создать при помощи директивы:

User-agent: *

Disallow: *example*

Знак подстановки бакса ($) обозначает конец URL и дозволяет добавлять правила к крайней части URL, к примеру, файловое расширение.

Пример использования:

User-agent: *

Disallow: /example/$

Данная директива воспрещает индексацию папки example, но не воспрещает сканирование папок /example/folder-1/ либо /example/folder-2/.

Как видно из примеров обрисованных выше, неточное внедрение символов-джокеров может плохо сказаться на индексации веб-сайта и привести к падению позиций.

Ошибка №2: Запрет сканирования скриптов и стилей

Одной из всераспространенных ошибок в файле robots.txt является блокировка скриптов и страничек стилей при помощи директивы Disallow:

Disallow: *.js

Disallow: *css

Хотя таковой подход быть может использован для предотвращения индексации ненужных ресурсов, это может оказаться вредным для SEO-продвижения вашего веб-сайта. Блокировка скриптов и CSS-файлов может воздействовать на корректное отображение и функционирование вашего веб-сайта в результатах поиска и для юзеров.

Если же для вас нужна блокировка определенных JS-скриптов либо CSS-файлов, вставьте исключение при помощи директивы Allow, которое даст поисковым ботам доступ лишь к необходимым материалам.

Ошибка № 3. Не указана ссылка на файл sitemap.xml

Файл sitemap.xml дает ботам информацию о структуре веб-сайта и его основных страничках. Данный файл оказывает существенное воздействие на процесс индексации веб-сайта. Потому принципиально указывать путь к XML-карте веб-сайта в robots.txt. Значимость директивы Sitemap в robots.txt можно осознать в том числе поэтому, что поисковые боты Гугл сканируют ее сначала.

Директива Sitemap смотрится так:

Sitemap: https://site.ru/sitemap.xml

Если вы желаете сделать лучше процесс индексирования веб-сайта, непременно дополните файл robots.txt директивой Sitemap.

Ошибка № 4. Противоречивые директивы Allow и Disallow

Нередкой ошибкой в настройке robots.txt является указание противоречивых директив, поначалу разрешающих сканирование папки либо странички, а потом запрещающих.

Как инспектировать правильность работы robots.txt

Для проверки правильности работы robots.txt файлов можно пользоваться сервисами, таковыми как:

  • Гугл Search Console,
  • Yandex.Webmaster.

В Yandex Веб-мастере функционал проверки robots.txt находится на вкладке «Инструменты»:

В поле «Разрешены ли URL?» вбиваете URL-адрес, который желаете проверить на возможность либо запрет индексации, и смотрите статус.

В Гугл Search Console нет подобного инструмента, как в Yandex Веб-мастере, чтоб проверить возможность сканирования нескольких страничек.

Для проверки разрешения на индексирование странички вбивается URL-адрес в поле «Проверка всех URL..»:

Но зато в Гугл Search Console в разделе «Индексирование страничек» есть функционал «Заблокировано в файле robots.txt», где можно поглядеть странички, которые не попали в индекс из-за запрета в robots.txt.

Помните, что индексация веб-сайта – это процесс, который может плохо сказаться на позициях веб-сайта, а настройка robots.txt является фундаментом опции индексации. Чтоб ваш веб-сайт не только лишь индексировался, да и занимал топ-10 в поисковой выдаче, обращайтесь в рекламное агентство для бизнеса «СЕО-Импульс»!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *