Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

К второй задаче из домашнего задания мало кто приступал, но в комментарии к соответствующему посту в ЖЖ был правильный ответ. Задание было [1]

Содержание

1 Сбор документов и подготовка к индексированию

[править] Сбор документов и подготовка к индексированию

В Академии Наук
Изучается Паук.
Академики гурьбой
Лупят стенку головой.
<...>
И не смиримся, пока
Не решим про Паука.

/Владлен Гаврильчик, 1975/

На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС.

[править] Клиентская сторона

В файл /robots.txt можно записать подсказки для ПС. Стандарт: [2]. С # начинается комментарий. User-Agent: * — инструкции для всех ПС. Директива Disallow: / — запретить всё. Disallow: /abc* — именно путь со *, а не любые пути, начинающиеся с abc. Запрещаются любые пути с соответствующим началом, например, /abc*a. На одной строчке — один путь. Пустая строка — новый поток инструкций. Директива Allow идёт перед директивами Disallow.

В тегах <meta> можно задавать метаинформацию о странице. Для роботов атрибуты тега: name="robots" content="NOINDEX" — не индексировать. Бывают также значения INDEX (по умолчанию, индесировать), NOFOLLOW — не надо переходить по ссылкам, FOLLOW — переходить по ссылкам (по умолчанию). Также бывают значения ALL и NONE. Крупные ПС обрабатывают также name="google" content="nocache" — не помещать в кэш. Исторически использовались теги с name="description", name="keywords". Чёрные оптимизаторы, к сожалению, зафлудили данные тэги, поэтому, google, например, их не использует. Нестандартным также является тег <noindex>этот текст не проиндексируется</noindex>, используется яндексом, поддерживается также рамблером. Также в теге <a href="…" rel="nofollow"></a> — не индексировать содержимое по данной ссылке. При индексации (для борьбы со спамерами) не учитывается вес ссылок с форумов и википедии.

Для «положительной» рекомендации по индексации (как индексировать сайт) можно указать директиву Sitemap в robots.txt. Сайтмап — это xml. Далее идёт <urlset xmlns="…"><url>…</url>… </urlset>. Размер Sitemap — не более 10МБ. Также имеется тэг loc, в нём можно указать дату последнего изменения и другую информацию (приоритет, частота изменения).

[править] Серверная сторона

Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [3].

Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.

Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.