Гугл запамятовал про веб-сайт: пошаговая {инструкция} по спасению
Индексация – это процесс, при котором поисковая машина вносит странички веб-сайта в свою базу. Лишь опосля этого странички могут появляться в поисковой выдаче. Если страничка не проиндексирована – для Гугл ее как как будто не существует. А сейчас представьте, что из индекса выпадают ВСЕ странички веб-сайта.
Конкретно с таковой критичной ситуацией мы столкнулись, работая над поисковым продвижением веб-сайта образовательной платформы 1-го из больших производителей алюминия. Разбираемся, почему это вышло, как вернули видимость веб-сайта и какие выводы сделали.

Полное обнуление в поиске
С середины марта 2025 года Гугл начал исключать из индекса странички веб-сайта, реализованного при помощи JS-фреймворка React.

Уже к началу апреля ни одна страничка веб-сайта, включая главную, не индексировалась в Гугл.
Отметим, что неувязка затронула лишь Гугл, индексация в Yandex’е осуществлялась без приреканий. Вот что показал технический аудит:
-
все странички открываются нормально – сервер отвечает кодом 200 OK, другими словами странички доступны и загружаются без ошибок;
-
Гугл лицезреет контент – через Search Console узнали, что странички доступны и показываются корректно;
-
есть серверный рендеринг (SSR) – поисковики получают полные HTML-версии страничек, а не только лишь «пустую оболочку» без контента;
-
правильные canonical-ссылки – на всех страничках обозначено, какая версия считается главный;
-
нет запретов на индексацию – в метатегах robots не стоит запрет на сканирование;
-
файл robots.txt не мешает – он воспрещает лишь дублирующие странички с параметрами, а не главные.
То все есть странички были на техническом уровне доступны, но при всем этом Гугл их не регистрировал.
Проверили веб-сайт под микроскопом
Мы решили провести детализированную проверку и выдвинули несколько догадок, почему веб-сайт не индексируется в Гугл.
-
Ответ сервера 403 либо иной блокирующий код.
Предположение: если сервер возвращает код 403 Forbidden, Googlebot не сумеет просканировать страничку.
Проверка: странички доступны для всех поисковых роботов, включая Googlebot, и возвращают код ответа 200 OK.
Вывод: серверные ответы корректны, блокировки по статус-кодам отсутствуют.
-
Защита на стороне сервера (WAF либо антибот-защита).
Предположение: некие серверы либо CDN (к примеру, Cloudflare) могут перекрыть автоматических роботов (включая Googlebot), если они подозрительно смотрятся либо не проходят проверку. В особенности нередко это делают веб-файрволы (WAF), если веб-сайт защищен.
Проверка: на веб-сайте вправду установлена защита, ограничивающая доступ из неких государств. Но воззвания от Googlebot из всех регионов удачно проходят, блокировки не зафиксированы.
Вывод: защитные механизмы не препятствуют доступу Googlebot к веб-сайту.
-
Неправильный пустой < meta name="robots"/ >.
Предположение: на страничках веб-сайта находится < meta name="robots"/ > без корректного значения атрибута content. В неких вариантах поисковые машины могут интерпретировать неправильные либо пустые значения как noindex.
В нашем случае было зафиксировано:
{«name»:»robots»,»content»:»$undefined»}
Такое значение быть может интерпретировано Googlebot как отсутствие аннотации или как запрет на индексацию.
Проверка: протестировано, метатеги robots устранены, значения content=»$undefined» убраны.
Вывод: в этом случае наличие content=»$undefined» в метатеге robots не оказывает воздействия на сканирование и индексацию со стороны Googlebot.
-
Лишний вес страничек.
Предположение: странички (к примеру, основная) могли стать очень «томными» за счет огромного размера CSS, JavaScript и неоптимизированных изображений. Это потенциально влияет на рендеринг: Googlebot имеет ограничения по ресурсам и времени обработки, и при перегрузке скриптами он может не успевать добраться до основного HTML-контента, в особенности на React-проектах.
Также учитывалась возможность несовместимости с освеженной версией React, которая могла случаем добавить излишний код либо нарушить SSR.
Проверка: структура бандла не поменялась, новейшие библиотеки не добавлялись, размер CSS и JS файлов оставался размеренным. Вес страничек не имел значимого роста.
Вывод: производительность и вес страничек не поменялись, заморочек с рендерингом и индексацией по данной для нас причине не выявлено.
Сокрытая ошибка, которую мы все-же отыскали
Основную причину выпадения страничек из индекса мы нашли спустя пару недель. Кто же был «виновником» торжества?
Источником трудности была конфигурация файла robots.txt и индивидуальности реализации веб-сайта на React.
Хотя веб-сайт был настроен на серверный рендеринг (SSR), Googlebot по некий причине не употреблял готовую HTML-версию страничек для индексации. Заместо этого он пробовал загружать и обрабатывать контент через клиентский рендеринг – другими словами «собирать» страничку прямо в браузере. Для этого Googlebot обращался к URL с query-параметрами, основным из которых был «?rsc=» – конкретно через него подгружался главный контент. Но эти характеристики были запрещены в файле robots.txt, потому бот не мог получить доступ к необходимым данным.
Хотя Гугл и трактует robots.txt как рекомендацию, в этом случае он воспринял запрет практически (как прямое указание к действию!) и на сто процентов исключил такие странички из индексации.
Наиболее того, Googlebot также обращался к поддомену с API (api.site.ru), который дает данные в формате JSON для клиентского рендеринга. Да и там файл robots.txt копировал правила с основного веб-сайта, включая запреты на характеристики – в итоге бот не мог получить даже начальные данные.
При всем этом все странички при проверке в Search Console были на сто процентов доступны боту и имели весь нужный контент.
Добавочно были заблокированы характеристики «?url=» и «?search=», которые Googlebot тоже употребляет для загрузки контента. Все совместно это делало главную информацию труднодоступной для индексации.
Починили все: от robots.txt до поддоменов
Чтоб возвратить странички в индекс, мы пересмотрели правила в файле robots.txt на основном домене – убрали запреты на главные query-параметры (rsc, url и остальные), через которые подгружается принципиальный контент.
Такие же правки занесли и в robots.txt поддомена api.site.ru, так как Googlebot обращался к нему за данными при попытке собрать страничку через клиентский рендеринг.
Опосля этих конфигураций Гугл в конце концов получил доступ ко всем нужным ресурсам – странички начали ворачиваться в индекс, а видимость и трафик – расти.


Инсайты опосля кризиса индексации
Если Гугл в один момент исключает странички из индекса при видимой технической доступности (в особенности на веб-сайтах, реализованных на фреймворке):
-
проверьте robots.txt – может быть, в нем случаем заблокированы query-параметры либо динамические URL, через которые подгружается контент;
-
не забудьте про поддомены и API – Googlebot может ходить за данными не только лишь на главный веб-сайт, да и на посторонние сервисы. Удостоверьтесь, что доступ к ним не ограничен;
-
используйте Гугл Search Console – в разделе «Просмотр странички» → «Заблокированные ресурсы» видно, что конкретно мешает боту получить подходящий контент.
Чем труднее веб-сайт, тем внимательнее необходимо подступать к деталям. В нашем случае грамотная диагностика (процесс установления диагноза, то есть заключения о сущности болезни и состоянии пациента) и точечные правки возвратили веб-сайт в индекс и вернули трафик. Шаг за шагом и без паники.
Оригинал статьи на SEOnews