Гугл запамятовал про веб-сайт: пошаговая {инструкция} по спасению

Индексация – это процесс, при котором поисковая машина вносит странички веб-сайта в свою базу. Лишь опосля этого странички могут появляться в поисковой выдаче. Если страничка не проиндексирована – для Гугл ее как как будто не существует. А сейчас представьте, что из индекса выпадают ВСЕ странички веб-сайта. 

Конкретно с таковой критичной ситуацией мы столкнулись, работая над поисковым продвижением веб-сайта образовательной платформы 1-го из больших производителей алюминия. Разбираемся, почему это вышло, как вернули видимость веб-сайта и какие выводы сделали.

Полное обнуление в поиске

С середины марта 2025 года Гугл начал исключать из индекса странички веб-сайта, реализованного при помощи JS-фреймворка React.

Уже к началу апреля ни одна страничка веб-сайта, включая главную, не индексировалась в Гугл.

Отметим, что неувязка затронула лишь Гугл, индексация в Yandex’е осуществлялась без приреканий. Вот что показал технический аудит:

  • все странички открываются нормально – сервер отвечает кодом 200 OK, другими словами странички доступны и загружаются без ошибок;

  • Гугл лицезреет контент – через Search Console узнали, что странички доступны и показываются корректно;

  • есть серверный рендеринг (SSR) – поисковики получают полные HTML-версии страничек, а не только лишь «пустую оболочку» без контента;

  • правильные canonical-ссылки – на всех страничках обозначено, какая версия считается главный;

  • нет запретов на индексацию – в метатегах robots не стоит запрет на сканирование;

  • файл robots.txt не мешает – он воспрещает лишь дублирующие странички с параметрами, а не главные.

То все есть странички были на техническом уровне доступны, но при всем этом Гугл их не регистрировал.

Проверили веб-сайт под микроскопом

Мы решили провести детализированную проверку и выдвинули несколько догадок, почему веб-сайт не индексируется в Гугл.

  1. Ответ сервера 403 либо иной блокирующий код.

Предположение: если сервер возвращает код 403 Forbidden, Googlebot не сумеет просканировать страничку.

Проверка: странички доступны для всех поисковых роботов, включая Googlebot, и возвращают код ответа 200 OK.

Вывод: серверные ответы корректны, блокировки по статус-кодам отсутствуют.

  1. Защита на стороне сервера (WAF либо антибот-защита).

Предположение: некие серверы либо CDN (к примеру, Cloudflare) могут перекрыть автоматических роботов (включая Googlebot), если они подозрительно смотрятся либо не проходят проверку. В особенности нередко это делают веб-файрволы (WAF), если веб-сайт защищен.

Проверка: на веб-сайте вправду установлена защита, ограничивающая доступ из неких государств. Но воззвания от Googlebot из всех регионов удачно проходят, блокировки не зафиксированы.

Вывод: защитные механизмы не препятствуют доступу Googlebot к веб-сайту.

  1. Неправильный пустой < meta name="robots"/ >.

Предположение: на страничках веб-сайта находится < meta name="robots"/ > без корректного значения атрибута content. В неких вариантах поисковые машины могут интерпретировать неправильные либо пустые значения как noindex.

В нашем случае было зафиксировано:

{«name»:»robots»,»content»:»$undefined»}

Такое значение быть может интерпретировано Googlebot как отсутствие аннотации или как запрет на индексацию.

Проверка: протестировано, метатеги robots устранены, значения content=»$undefined» убраны.

Вывод: в этом случае наличие content=»$undefined» в метатеге robots не оказывает воздействия на сканирование и индексацию со стороны Googlebot.

  1. Лишний вес страничек.

Предположение: странички (к примеру, основная) могли стать очень «томными» за счет огромного размера CSS, JavaScript и неоптимизированных изображений. Это потенциально влияет на рендеринг: Googlebot имеет ограничения по ресурсам и времени обработки, и при перегрузке скриптами он может не успевать добраться до основного HTML-контента, в особенности на React-проектах.

Также учитывалась возможность несовместимости с освеженной версией React, которая могла случаем добавить излишний код либо нарушить SSR.

Проверка: структура бандла не поменялась, новейшие библиотеки не добавлялись, размер CSS и JS файлов оставался размеренным. Вес страничек не имел значимого роста.

Вывод: производительность и вес страничек не поменялись, заморочек с рендерингом и индексацией по данной для нас причине не выявлено.

Сокрытая ошибка, которую мы все-же отыскали

Основную причину выпадения страничек из индекса мы нашли спустя пару недель. Кто же был «виновником» торжества?

Источником трудности была конфигурация файла robots.txt и индивидуальности реализации веб-сайта на React.

Хотя веб-сайт был настроен на серверный рендеринг (SSR), Googlebot по некий причине не употреблял готовую HTML-версию страничек для индексации. Заместо этого он пробовал загружать и обрабатывать контент через клиентский рендеринг – другими словами «собирать» страничку прямо в браузере. Для этого Googlebot обращался к URL с query-параметрами, основным из которых был «?rsc=» – конкретно через него подгружался главный контент. Но эти характеристики были запрещены в файле robots.txt, потому бот не мог получить доступ к необходимым данным.

Хотя Гугл и трактует robots.txt как рекомендацию, в этом случае он воспринял запрет практически (как прямое указание к действию!) и на сто процентов исключил такие странички из индексации.

Наиболее того, Googlebot также обращался к поддомену с API (api.site.ru), который дает данные в формате JSON для клиентского рендеринга. Да и там файл robots.txt копировал правила с основного веб-сайта, включая запреты на характеристики – в итоге бот не мог получить даже начальные данные.

При всем этом все странички при проверке в Search Console были на сто процентов доступны боту и имели весь нужный контент.

Добавочно были заблокированы характеристики «?url=» и «?search=», которые Googlebot тоже употребляет для загрузки контента. Все совместно это делало главную информацию труднодоступной для индексации.

Починили все: от robots.txt до поддоменов

Чтоб возвратить странички в индекс, мы пересмотрели правила в файле robots.txt на основном домене – убрали запреты на главные query-параметры (rsc, url и остальные), через которые подгружается принципиальный контент.

Такие же правки занесли и в robots.txt поддомена api.site.ru, так как Googlebot обращался к нему за данными при попытке собрать страничку через клиентский рендеринг.

Опосля этих конфигураций Гугл в конце концов получил доступ ко всем нужным ресурсам – странички начали ворачиваться в индекс, а видимость и трафик – расти.

Инсайты опосля кризиса индексации

Если Гугл в один момент исключает странички из индекса при видимой технической доступности (в особенности на веб-сайтах, реализованных на фреймворке):

  • проверьте robots.txt – может быть, в нем случаем заблокированы query-параметры либо динамические URL, через которые подгружается контент;

  • не забудьте про поддомены и API – Googlebot может ходить за данными не только лишь на главный веб-сайт, да и на посторонние сервисы. Удостоверьтесь, что доступ к ним не ограничен;

  • используйте Гугл Search Console – в разделе «Просмотр странички» → «Заблокированные ресурсы» видно, что конкретно мешает боту получить подходящий контент.

Чем труднее веб-сайт, тем внимательнее необходимо подступать к деталям. В нашем случае грамотная диагностика (процесс установления диагноза, то есть заключения о сущности болезни и состоянии пациента) и точечные правки возвратили веб-сайт в индекс и вернули трафик. Шаг за шагом и без паники.

Оригинал статьи на SEOnews

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *