Слайд 2
Поиск в Интернете
По статистическим данным суммарное число Web-страниц
в конце 2001 г. составляло 7,5 миллиардов, а к
концу 2005 г. это число возрастет до 25 миллиардов, причем количество пользо-вателей Интернет к указан-ному году превысит миллиард человек.
Слайд 3
Инструменты информационного поиска
Поисковые машины (search engines)
Поисковая машина состоит
из баз данных и программного обеспечения для их обработки,
которое делится на две части: анализатор содержимого Web-страниц (Spider - спайдер, или «паук») и классификатор-определитель рейтинга, осуществляющий сортировку ссылок, найденных по запросу пользователя.
Каталоги (directories)
Тщательно подобранные (чаще вручную) ссылки на ресурсы, сопровождаемые описаниями. Некоторые каталоги содержат внутренние поисковые машины.
Порталы
Поисковые машины с интегрированным предложением собственного информационного содержания, которые могут также предоставлять дополнительные услуги: бесплатные адреса электронной почты, места для размещения домашних Web-страниц и другие.
Метапоисковые системы
Надстройки над поисковыми машинами, которые не имеют собственной базы данных и при поиске по запросу пользователя формируют, в свою очередь, запросы для нескольких внешних поисковых машин, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким поисковым машинам. Проще говоря, такая машина ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собственному алгоритму.
Слайд 4
Глобальные справочники ресурсов
Yahoo! (http://www.yahoo.com)
Один из самых первых, надежных
и авторитетных справочников Всемирной паутины.
Транснациональный проект.
Внушительный объем (2 000
000 сайтов, 25 000 категорий).
Научность и логичность используемой схемы классификации.
14 категорий: Бизнес и Экономика, Новости и СМИ, Образование, …
Перекрестная структура.
Встроенная поисковая система.
Слайд 5
Глобальные справочники ресурсов
Open Directory Project (http://dmoz.org)
Один из наиболее
полных справочников в мире (6 000 000 сайтов, 540
000 категорий).
Некоммерческая направленность.
Научная и логическая иерархическая структура.
Русскоязычный вариант (22 000 сайтов).
Динамически развивающийся проект (среднее увеличение справочника более чем на 1000 сайтов в день).
Слайд 6
Глобальные справочники ресурсов
About (http://www.about.com/)
Справочник, поддерживаемый экспертами различных областей
знания.
24 категории: Автомобили, Хобби, Подростки, ...
Огромное количество рекламы.
Слайд 7
Российские справочники ресурсов
Апорт (http://aport.ru)
Единственный профессионально поддерживаемый отечественный справочник.
Является
порталом.
Многоуровневая иерархическая структура.
Сортировка ссылок (по дате, по алфавиту, …).
Низкая
скорость актуализации сведений.
Слайд 8
Российские справочники ресурсов
Пингвин
Иван Сусанин
Улитка
http://www.pingwin.ru
http://www.susanin.net
http://www.ulitka.ru
Слайд 9
Глобальные поисковые системы
Google (http://www.google.com)
Система запущена в 1998 году.
Единоличный
лидер среди глобальных поисковых систем (3 3000 000 000
web-страниц).
Лучшие на сегодня возможности поиска иллюстраций (425 000 иллюстраций).
Специальный модуль ранжирования результатов.
Наличие русскоязычного интерфейса (http://www.google.com.ru).
Высокая степень комфорта для пользователя.
Простая методика поиска.
Слайд 10
Глобальные поисковые системы
Lycos
HotBot
Excite
http://www.lycos.com
http://www.hotbot.com
http://www.excite.com
Слайд 11
Российские поисковые системы
Яндекс (http://www.yandex.ru/)
Запущен в сентябре 1997 года.
Признанный
лидер российского поискового сервиса.
Еженедельная актуализация базы.
Простая форма запроса.
На начало
февраля 2004 года Яндексом проиндексировано свыше 970 000 российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено более 140 000 000 оригинальных документов).
Слайд 12
Российские поисковые системы
Rambler (http://www.rambler.ru)
Запущен в октябре 1996 года.
Проведенная
в декабре 2002 года коренная модернизация программно-аппаратной части позволил
поисковой системе вновь приобрести былой авторитет (занимает второе место после Яндекса по величине базы данных).
Производительность робота – 6 900 000 страниц в сутки.
Простая и расширенная форма ввода запроса.
Rambler Top 100.
Слайд 13
Российские поисковые системы
Turtle (http://www.turtle.ru)
Запущена в июне 2002 года.
Около
100 000 000 оригинальных документов.
Быстрый результат запроса.
Перспективная развивающаяся система.
Слайд 14
Мета-поисковые системы
MetaCrawler (http://www.metacrawler.com)
Мета-поисковые системы не имеют собственных поисковых
роботов и баз данных (индексированных файлов). Их достоинство заключается
в умении рассылать запросы по другим системам, а затем суммировать результаты.
Слайд 15
Структура информационно-поисковых запросов
Слайд 16
Стратегия поиска информации в Интернете
Выберите основные понятия, описывающие
предмет вашего поиска.
Выберите ключевые слова, подходящие к данному понятию.
Подыщите
как можно больше синонимов к вашим ключевым словам.
Определите, какой тип операторов поиска (OR, AND, NOT) лучше подойдет в вашем случае.
Выберите подходящую поисковую систему.
Изучите особенности поисковой системы, воспользовавшись разделом Помощь.
Подготовьте заранее выражения для поиска, проверив орфографию.
Проведите запросы несколько раз, слегка изменяя выражение.
Модифицируйте свои запросы в зависимости от результатов.
Попробуйте выполнить тот же запрос на других поисковых системах.
Слайд 17
Язык поисковых запросов
РЕГИСТР
В общем случае, регистр написания поисковых
слов и операторов значения не имеет, то есть дом
и ДОМ, Not и nOt воспринимаются одинаково.
МОРФОЛОГИЯ
По каждому слову запроса поиск ведется с учетом правил словоизменения соответствую-щего языка. Например, при поиске по слову 'человек' будут также найдены документы, содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.
ОГРАНИЧЕНИЕ НА РАССТОЯНИЕ
Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста. Например, по запросу 'красная армия' будут найдены те документы, в которых слова 'красная' и 'армия' хотя бы один раз встретятся менее чем в 40 словах друг от друга.
Значение ограничения контекста можно изменять конструкцией '(число, запрос)‘. Например, '(2, красная армия)‘.
НЕНАЙДЕННЫЕ СЛОВА
Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены.