Главное из выступления Гэри Иллиеса о понимании контента Google
Гэри Иллиес из Google на мероприятии #searchcentrallive #scldd2025 поделился ценными инсайтами о том, как поисковая система анализирует контент. Вот ключевые моменты и мои размышления по этому поводу:
Основной контент — король для ранжирования
Системы Google в значительной степени отдают приоритет «основному контенту» (который он также называет «центральным элементом») страницы для ранжирования и извлечения. Слова и фразы, расположенные в этой области, имеют значительно больший вес, чем те, что находятся в заголовках, нижних колонтитулах или боковых панелях навигации. Чтобы ранжироваться по важным терминам, вы должны убедиться, что они заметно представлены в основной части вашей страницы.
Расположение определяет важность
Google выполняет позиционный анализ отображаемой страницы, чтобы понять, где расположен контент. Затем он использует эти данные для присвоения показателя важности словам (токенам) на странице. Перемещение термина из области с низкой важностью (например, боковой панели) в область основного контента напрямую увеличит его вес и потенциал для ранжирования.
Токенизация — основа индекса
Google не индексирует необработанный HTML. Он разбивает текст на «токены» (слова или фразы). Для таких языков, как китайский, японский и корейский, которые не используют пробелы между всеми словами, это требует сложных, основанных на словарях «сегментаторов» для идентификации значимых терминов. Эти токены, аннотированные их расположением на странице, сохраняются в поисковом индексе.
«Мягкие 404» — критическая ошибка
Страница, которая возвращает код состояния 200 OK, но отображает сообщение об ошибке или имеет очень тонкий/пустой основной контент, считается «мягкой 404». Google активно выявляет и деприоритизирует такие страницы, поскольку они тратят краулинговый бюджет и обеспечивают плохой пользовательский опыт. Иллиес поделился, что в течение многих лет собственная страница документации Google о мягких 404 была помечена как мягкая 404 ее собственными системами и не могла быть проиндексирована.
----
✅Main Content is King for Ranking: Google's systems heavily prioritize the "main content" (which he also calls the "centerpiece") of a page for ranking and retrieval. Words and phrases located in this area carry significantly more weight than those in headers, footers, or navigation sidebars. To rank for important terms, you must ensure they are featured prominently within the main body of your page.
✅Location Determines Importance: Google performs positional analysis on the rendered page to understand where content is located. It then uses this data to assign an importance score to the words (tokens) on the page. Moving a term from a low-importance area (like a sidebar) to the main content area will directly increase its weight and potential to rank.
✅Tokenization is the Foundation of the Index: Google doesn't index raw HTML. It breaks down text into "tokens" (words or phrases). For languages like Chinese, Japanese, and Korean that don't use spaces between all words, this requires sophisticated, dictionary-based "segmenters" to identify meaningful terms. These tokens, annotated with their on-page location, are what get stored in the search index.
✅"Soft 404s" are a Critical Error: A page that returns a 200 OK status code but displays an error message or has very thin/empty main content is considered a "soft 404." Google actively identifies and de-prioritizes these pages as they waste crawl budget and provide a poor user experience. Illyes shared that for years, Google's own documentation page about soft 404s was flagged as a soft 404 by its own systems and couldn't be indexed.
Links at linkedin.com