Слайд 2
Поиск информации
Задача, которую человечество решает уже многие столетия.
Слайд 3
Все найденные за много лет средства и приемы
поиска информации доступны и эффективны и при поиске информации
в Интернет.
Слайд 4
“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”
Слово “пертинентный” происходит от английского “pertinent”, что
значит “относящийся к делу, подходящий по сути”.
Слайд 5
Цель информационного поиска
Найти все пертинентные и только пертинентные
документы (мы хотим найти “только то, что хотим, и
ничего больше”).
Эта цель - идеальна и пока недостижима.
Слайд 6
Для того, чтобы было с чем сравнивать, необходимо
некоторое количество непертинентных документов.
Эти документы называются - “ШУМ”.
Слайд 7
Когда документов много, используется информационно-поисковая система (ИПС).
В
этом случае информационная потребность должна быть выражена средствами, которые
“понимает” ИПС - должен быть сформулирован ЗАПРОС.
Слайд 8
РЕЛЕВАНТНОСТЬ
Степень соответствия документа запросу.
Слайд 9
Виды информационно поисковых систем
Слайд 10
Классификационные ИПС
В классификационных ИПС используется иерархическая (древовидная) организация
информации, которая называется КЛАССИФИКАТОРОМ.
Слайд 11
Разделы классификатора называются РУБРИКАМИ.
Библиотечный аналог классификационной ИПС
- систематический каталог.
ИПС Web-кольца
Поиск названия нужного предмета своего интереса
(предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.
Слайд 13
Словарные ИПС
Основная идея словарной ИПС - создать словарь
из слов, встречающихся в документах Интернет, в котором при
каждом слове будет храниться список документов, из которых взято данное слово.
Слайд 14
Два основных алгоритма работы словарных ИПС:
-с использованием ключевых слов,
-с использованием дескрипторов.
Слайд 15
Использование ключевых слов
Для оценки содержимого документа используются только
те слова, которые в нем встречаются, и по запросу
ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.
Слайд 16
Использование дескрипторов
Индексируемые документы переводятся на некоторый дескрипторный информационный
язык.
Дескрипторный информационный язык, как и любой другой язык,
состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами.
Слайд 17
Ранжирование результатов поиска
Все ИПС в настоящее время уделяют
основное внимание именно алгоритму ранжирования полученных ссылок.
Слайд 18
Критерии при ранжировании в ИПС
наличие слов из
запроса в документе, их количество, близость к началу документа,
близость друг к другу;
наличие слов из запроса в заголовках и подзаголовках документов;
количество ссылок на данный документ с других документов;
«респектабельность» ссылающихся документов.
Слайд 19
Современные проблемы поисковых систем
Когда эти технологии разрабатывались никто
из разработчиков не представлял себе, что Интернет станет глобальной
информационной средой.
Слайд 20
Архитектура
crawler (сборщик) - осуществляет сканирование Интернет ресурсов
в поисках изменений на страницах;
indexer (индексатор) - индексирует
ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
Слайд 21
Алгоритмы поиска и ранжирования
Основной проблемой современных поисковых систем
является то, что по причине фактически устаревшей архитектуры они
не могут обеспечить качественный поиск информации.