Редактирование: Поиск, 02 лекция (от 20 октября)
Материал из eSyr's wiki.
Внимание: Вы не представились системе. Ваш IP-адрес будет записан в историю изменений этой страницы.
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия | Ваш текст | ||
Строка 4: | Строка 4: | ||
==Сбор документов и подготовка к индексированию== | ==Сбор документов и подготовка к индексированию== | ||
- | ''В | + | ''В академии наук изучается паук''<br /> |
- | + | ''Академики гурьбой бьются в стенку головой''<br /> | |
- | ''Академики гурьбой | + | ''Не успокоимся пока не изучим паука!''<br /> |
- | + | / Владлен Гаврильчик / | |
- | '' | + | |
- | + | ||
- | + | ||
- | + | ||
- | /Владлен Гаврильчик | + | |
На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС. | На сбор данных можно смотреть как со стороны поисковой системы, так и со стороны администратора сайта. Со стороны ПС это называется робот или «паук». Сперва владельцы сайтов стеснялись предоставлять контент роботу, теперь же, наоборот, стараются сделать страницы более привлекательными для ПС. | ||
Строка 30: | Строка 25: | ||
Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов. | Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов. | ||
- | Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns- | + | Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резлолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая. |
===Выделение ссылок=== | ===Выделение ссылок=== |