Яндекс: легко ли быть зеркалом?

20 августа 2010

2a5bef0ef807d2cd706b95d74567f28fОбщеизвестно стремление Яндекса быть зеркалом интернета. Осуществить это на 100% не представляется возможным, и мы желаем делать вид, что мы есть зеркало для тех, кто смотрит на нас. Мир, находящийся за пустой рамой воображаемого зеркала, должен обладать отличной реакцией и быть особо внимательным для создания иллюзии, будто он является отражением. В Яндексе специалисты работают над технологией «свежести», для того, чтобы отличие поискового индекса от интернета сделать незаметным для пользователей.

Веб-мастерам Рунета известно о том, что в последние годы на Яндексе имелся «быстрый робот». Его задачей являлось быстрое индексирование и выкладывание в поиске самых ценных свежеиспечённых документов. Эта задача неплохо решалась быстрым роботом, но имелись и определённые ограничения.

Подобно «большому роботу», быстрый также строился по «пакетному» принципу: некоторое время подготавливал индекс с новыми документами, после чего выкладывал в поиск. Это вызывало задержку времени обработки, сократить которую до 20 минут можно было посредством различных ухищрений, но не представлялось возможным полностью устранить. Мир изменился с запуском быстрого робота. В сети появилось множество людей, чьи интересы далеки от проблем поиска, и их крайне удивляет ситуация, когда на сайте страница есть, а в поиске нет. По этой причине в ближайшие годы станет правилом хорошего тона индексация нового сайта за секунды.

Чтобы превратить поисковый индекс в отражение окончательно, специалистами были созданы и запущены новые технологии – «Real-Time поиск» и робот «Orange Crawler». Специалисты калифорнийского отделения Яндекса в содружестве с программистами офиса в Москве, выполнили основную разработку.

Новым апельсиновым роботом из интернета извлекается сочный, свежий контент, вместо прокачки всех страниц. Для первоочередного скачивания страниц, содержащих ценную информацию, важно обходить страницы в определённом порядке, поскольку их количество в сети бесконечно.

Веб не является набором отдельных страниц, рассматриваемых независимо. Страницы имеют основательную связь друг с другом, в ранжировании и отборе, из бесконечного числа интернет-страниц,  интересных для человека, весьма интенсивно используются данные о ссылках.

Как правило, на новые урлы человек попадает через первые страницы предпочитаемых сайтов или через ссылки в других новых сообщениях. Поисковому роботу необходимо найти эти же ссылки, при этом, почаще освежая старые страницы, и входить по ссылкам из уже скачанных новых документов. Зная структуру веба, робот обязан работать со всем вебом, а не только с новыми документами. Orange знакомится со ссылочной структурой интернета. Для этой цели робот скачивает и переобходит только часть старых страниц, хотя и весьма большую. Знания, полученные Orange, дают ему возможность находить почти каждую новую страницу, выбирая из их огромного количества всё то, что представляет хоть какой-то интерес, и моментально рассчитывая для них ссылочный фактор ранжирования. Real-Time поиск берёт документы в работу вслед за роботом Orange, подхватывая выбранный документ, индексируя, и за секунду выкладывая в поиск.

Orange позволил нам достичь ощутимых улучшений свежести базы. В дальнейшем наши разработчики ещё придадут ему агрессивности: роботом будет использоваться каждый доступный источник информации об изменениях в сети, и на изменения он отреагирует мгновенно.

Кластер Orange Crawler представляет собой распределительную вычислительную систему: каждая машина выполняет сотни небольших задач одновременно, результаты работы отправляются на другие машины в виде маленьких асинхронных сообщений. Сегодня кластером обрабатывается более 100 тыс. сообщений за секунду. Данная архитектура исключает задержки при работе с информацией в режиме реального времени, вполне надёжна и открывает бесконечные возможности для масштабирования кластера.

Ещё одной составляющей поиска, простой эффект которого достигается с помощью сложных средств, является свежесть. Хорошо, если глядя в зеркало, человек видит лишь то, что оно отражает, а отнюдь не его особенности.

Данная статья опубликована благодаря партнерской программе KoniBrothers.com, с которой я успешно работаю. Тут вы можете превратить свой трафик в чистую прибыль. Высокий конверт и стабильные выплаты уже давно стали принципом компании. Всем высокого конверта!

Понравилась запись? Подписывайтесь на обновления через RSS или e-mail.

Оставить комментарий