Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

Перейти к: навигация, поиск

К второй задаче из домашнего задания мало кто приступал, но в комментарии к соответствующему посту в ЖЖ был правильный ответ. Задание было [1]

Содержание

[править] Сбор документов и подготовка к индексированию

В Академии Наук
Изучается Паук.
Академики гурьбой
Лупят стенку головой.
<...>
И не смиримся, пока
Не решим про Паука.

/Владлен Гаврильчик, 1975/

На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС.

[править] Клиентская сторона

В файл /robots.txt можно записать подсказки для ПС. Стандарт: [2]. С # начинается комментарий. User-Agent: * — инструкции для всех ПС. Директива Disallow: / — запретить всё. Disallow: /abc* — именно путь со *, а не любые пути, начинающиеся с abc. Запрещаются любые пути с соответствующим началом, например, /abc*a. На одной строчке — один путь. Пустая строка — новый поток инструкций. Директива Allow идёт перед директивами Disallow.

В тегах <meta> можно задавать метаинформацию о странице. Для роботов атрибуты тега: name="robots" content="NOINDEX" — не индексировать. Бывают также значения INDEX (по умолчанию, индесировать), NOFOLLOW — не надо переходить по ссылкам, FOLLOW — переходить по ссылкам (по умолчанию). Также бывают значения ALL и NONE. Крупные ПС обрабатывают также name="google" content="nocache" — не помещать в кэш. Исторически использовались теги с name="description", name="keywords". Чёрные оптимизаторы, к сожалению, зафлудили данные тэги, поэтому, google, например, их не использует. Нестандартным также является тег <noindex>этот текст не проиндексируется</noindex>, используется яндексом, поддерживается также рамблером. Также в теге <a href="…" rel="nofollow"></a> — не индексировать содержимое по данной ссылке. При индексации (для борьбы со спамерами) не учитывается вес ссылок с форумов и википедии.

Для «положительной» рекомендации по индексации (как индексировать сайт) можно указать директиву Sitemap в robots.txt. Сайтмап — это xml. Далее идёт <urlset xmlns="…"><url>…</url>… </urlset>. Размер Sitemap — не более 10МБ. Также имеется тэг loc, в нём можно указать дату последнего изменения и другую информацию (приоритет, частота изменения).

[править] Серверная сторона

Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [3].

Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.

Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.

[править] Выделение ссылок

Ссылки бывают абсолютные и относительные.

Книга по теме спецкурса: Маннинг «Введение в ИП».


Введение в информационный поиск


01 02 03 04 05 06 07 08 09


Календарь

Октябрь
13 20 27
Ноябрь
17 24
Декабрь
01 08 15 22


Эта статья является конспектом лекции.
Личные инструменты
Разделы