Как определяется сид-сайт для поисковых роботов

Опубликовано

Интернет обновляется с невообразимой скоростью. Каждый день в сети появляются новые страницы, удаляются старые, обновляются новости, блоги, сайты, в интернет-магазинах появляются новые товары. Запускаются новые сайты и исчезают старые.

Поисковики стараются вовремя обновлять индекс и поддерживать его в актуальном состоянии, поэтому поисковые пауки каждый день проверяют обновления в сети. Когда поисковый робот начинает процесс краулинга сети, то стартовой точкой служит так называемый сид-сайт, по ссылкам которого паук переходит в первую очередь. Но как поисковики выбирают сид-сайты? Это довольно важный момент для всех, кто занимается раскруткой сайтов.

С каких сайтов выгоднее начинать краулинг? Facebook или Twitter? Yahoo Directory или DMOZ? А может, и вовсе с Википедии?

Выбор сид-сайтов очень важен, ведь он имеет значительное влияние на качество работы поисковика и наличие в индексе страниц с различной тематикой и географическим расположением. Если сид-сайты выбраны неверно, качество и релевантность поиска снижается.

Патент Yahoo описывает процесс выбора краулерами сид-сайтов для обнаружения адресов других страниц в сети. Естественно, выбор сид-сайта считается удачным, если возможно обнаружение большого количества новых ссылок, краулинг большего количества важных документов, распределение сайтов по рынкам или категориям сайтов.

В большинстве обсуждений процесса веб-краулинга в качестве примера точек входа и обнаружения новых страниц в сети используются Yahoo directory или DMOZ. Однако всегда ли они достаточно хороши для краулинга? Может, возможно использование других сид-сайтов?

Процесс выбора сид-сайтов основан на алгоритме выбора на основе хостов. Этот алгоритм предполагает определение подмножества хостов, к которым получает доступ краулер, на основе их важности и качества, а также потенциальной отдачи.

Важность сайта определяется по значению уровня «доверия хосту» или другим параметрам, показывающим популярность, надежность, качество хоста. Одним из показателей может служить PageRank, который является одним из наиболее важных параметров в SEO.

Качество (или недостаток качества) сайта как потенциального сида определяется количеством исходящих ссылок, наличием порнографического контента, ссылками на спам-страницы или спамом. Естественно, для получения качественной выдачи краулеру нужно индексировать высококачественные сайты.

Потенциальная отдача – потенциал обнаружения новых адресов или отдача документов – определяется по сравнению с предыдущими проходами по сайту.

В патенте также сказано, что обычно процесс выбора сид-сайта варьируется в зависимости от страны и региона, так как в каждом регионе могут быть свои особенности. Кроме того, некоторые рынки содержат меньше хостов и меньше важных хостов, поэтому чтобы доминирующие рынки не вытеснили все остальные хосты, последним также отдается часть веб-краулинга.