Слайд 2
Подходы к поиску информации в ГВС
В современных условиях
научно-техническая и инженерная деятельность специалистов, независимо от прикладной области,
немыслима без использования распределенных информационных систем глобальной вычислительной сети, предоставляющих пользователю доступ к различным знаниям.
Успех получения информации из ГВС зависит:
От знания компьютерного оборудования
От знания пользователя техники поиска, особенностей построения документов и баз данных в электронном виде
От профессионального владения предметной областью деятельности
Слайд 3
Алгоритм поиска информации в ГВС
Слайд 4
Разработка предпоисковой и поисковой стратегии
Предпоисковое взаимодействие пользователя с
системой основывается на понятии информационной потребности (ИП). Границы ИП
практически никогда не бывают четко определены, они стечением времени могут изменяться. Причем чем большими знаниями обладает человек, тем границы ИП шире.
Информационная потребность - потребность, возникающая, когда цель, стоящая перед пользователем в процессе его профессиональной деятельности либо в его социально-бытовой практике, не может быть достигнута без привлечения дополнительной информации.
Обычно используют два типа удовлетворения ИП:
Информационный поиск, в котором четко определены границы поиска;
Предпоисковое взаимодействие не предусматривает ведение диалога пользователя с информационной системой
Информационный поиск используется для получения из систем фактографической информации
Решается одноразовым ретроспективным способом
Информационный поиск, в котором не определены границы поиска (в дальнейшем могут изменяться).
Диалог пользователя с системой принципиально необходим
Используется для получения документальной информации
Решение осуществляется при помощи итеративного поискового процесса
Требования к необходимости создания поискового предписания
Составление типовых задач или определение своих задач
Основой любого ПП является информационно-поисковый тезаурус (ИПТ).
Слайд 5
Разработка предпоисковой и поисковой стратегии
Информационно-поисковый тезаурус - словарь
дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями
лексических единиц.
Формирование ИПТ объединяет следующие этапы:
Набор по специализированным текстам слов и словосочетаний, характерных для исследуемой предметной области;
Просмотр экспертом выявленных слов и терминологических словосочетаний;
Выбор из терминологических словосочетаний дескрипторов, установление синонимии и других связей между дескрипторами;
Пользователь должен сам сформировать свой ИПТ, на основе которого и производить формирование ПП.
Слайд 6
Разработка предпоисковой и поисковой стратегии
В процессе формирования ПП
пользователь определяет следующие декларативные компоненты:
перечень стандартных фраз, в которых
предусмотрено включение переменных элементов в виде ключевых
слов и словосочетаний, отражающих специфику предметной области;
словарь ключевых слов и словосочетаний (он может быть специфичным для каждой предметной области), из которой берутся переменные элементы.
Слайд 7
Разработка предпоисковой и поисковой стратегии
Целесообразно при формировании стандартных
фраз, словарей ключевых слов и словосочетаний использовать следующие смысловые
аспекты:
описание основной темы или предмета;
описание документа, раскрывающего или уточняющего основную тему;
описание, посвящённое изложению (оценке) современного состояния разработок;
цель использования;
описание материала или объекта использования;
описание методов (методик), приёмов и способов, использованных в процессе исследования;
описание технических средств, инструментов или аппаратуры;
описание конкретных результатов исследований;
указание на область применения результатов исследований;
описание рекомендаций использования;
описание возможностей и перспектив развития.
Поисковое предписание должно обеспечивать соответствие информационного запроса информационным потребностям пользователя.
Слайд 8
Разработка предпоисковой и поисковой стратегии
Сложность формирования ПП определяется
и тем, что к пользователю предъявляется ряд требований, специфичных
для специалистов в определенной предметной области. В связи с этим, пользователь должен:
быть квалифицированным специалистом в той области знаний, по которой производится информационный поиск;
знать структуру и правила подготовки документов, образующих массивы информации;
иметь знания основ математической логики и технологии поиска информации с помощью конкретного прикладного пакета программ, т.е. знать набор используемых логических операторов, оценивать их влияние на результат поиска;
знать состав и возможности лингвистических средств, из единиц которых должно быть сформировано ПП;
уметь правильно формулировать запрос на поиск информации.
Слайд 9
Разработка предпоисковой и поисковой стратегии
При формулировании запроса, а
как следствие и подготовки ПП необходимо:
минимизировать текст запроса, т.е.
удалить неинформативные, а при необходимости и избыточные термины;
провести лексикографическую обработку оставшихся терминов, т.е. осуществить проверку на орфографические ошибки;
осуществить расстановку логических элементов;
провести пополнение логических единиц ПП нижестоящими и ассоциативными дескрипторами, т.е. провести уточнение дополнительными ключевыми словами для дальнейшего уточнения поиска.
Слайд 10
Инструменты, позволяющие реализовать эти стратегии
Поисковые системы в сети
Интернет
CRAWLER. «путешествующий» паук, который автоматически идет по всем
ссылкам, найденным на странице.
SPIDER (паук). браузероподобная программа, которая скачивает веб-страницы
Indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
The database (база данных): хранилище скаченных и обработанных страниц.
Search engine results (система выдачи результатов): извлекает результаты поиска из базы данных
Слайд 11
Инструменты, позволяющие реализовать эти стратегии
Механизм работы поисковых машин
Слайд 12
Инструменты, позволяющие реализовать эти стратегии
Основные принципы определения релевантности
следующие:
Количество слов запроса в текстовом содержимом документа (т.е. в
html-коде).
Тэги, в которых эти слова располагаются.
Местоположение искомых слов в документе.
Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
Время - как долго страница находится в базе поискового сервера.
Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
Слайд 13
Инструменты, позволяющие реализовать эти стратегии
Метаданные, как механизм описания
данных в сети интернет
Субканальная информация об используемых данных.
Структурированные данные,
представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими.
Набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых может помочь найти объект.
Данные из более общей формальной системы, описывающей заданную систему данных.
Информация о содержащейся на веб-странице информации.
Формат метаданных
Дублинское ядро (DCIM) - стандарт метаданных, простой и эффективный набор для описания широчайшего диапазона сетевых ресурсов.
ГОСТ Р 7.0.10-2010 (ИСО 15836:2003)
Слайд 14
Инструменты, позволяющие реализовать эти стратегии
Описание метаданных с помощью
мета тегов
Мета-теги — HTML- или XHTML-теги, предназначенные для предоставления
структурированных метаданных о веб-странице.
Группы мета-тегов
Мета-теги разделены на две основные группы — NAME и HTTP-EQUIV.
Группа NAME отвечает за текстовую информацию о странице, ее авторе, а также — рекомендации для поисковых систем.
Группа HTTP-EQUIV фактически эквивалентны гипертекстовым заголовкам, формируют заголовок страницы и определяют его обработку. Как правило, они управляют действиями браузеров и используются для формирования информации, выдаваемой обычными заголовками.
Слайд 15
Инструменты, позволяющие реализовать эти стратегии
Группа NAME
Мета-тег Author и
Copyright (идентификация автора или принадлежности документа)
Мета-тег Description (создании краткого
описания страницы, индексация)
Мета-тег Document-state (Static и Dynamic, индексация)
Мета-тег Generator (для редактирования веб-страниц с целью саморекламы )
Мета-тег Keywords (Ключевые слова)
Мета-тeг Resource-type (описывает свойство или состояние страницы)
Мета-тeг Revisit (управлять частотой индексации документа )
Мeтa-тeг Robots (разрешение индексации)
Мeтa-тeг Subject (Определяет тематику документа)
Мeтa-тeг url (перенаправляет робота поисковой машины по указанной ссылке)
Слайд 16
Теоретико-множественная модель системы поиска НТИ
Система поиска НТИ представляет
собой пространство состояний S в произвольный момент времени t
и включает в себя следующие основные компоненты:
S1 ― совокупность функций (заказов) на обработку информации, поставленных на исполнение и ожидающих (если таковая образовалась) в очереди;
S2 ― использование оборудования из множества рабочих мест А;
S3 ― привлечение персонала из множества V.
Первая компонента описывает поток поступающих заданий на информационное обеспечение рассчитанной на предельное скопление заказов S1 на обработку информации, еще не поступивших на исполнение.
Для второй компоненты номер выполняемого задания из S1 приписывается конкретному оборудованию.
На третью компоненту возлагается задача по распределению элементарных функций обработки информации из S1 между оборудованием S2 и персоналом S3.
Слайд 17
Теоретико-множественная модель системы поиска НТИ
Обработка информации, необходимой для
информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, включает следующие
элементарные функции:
1(µ,) – прием задания заказчика (оператора) µ на обработку информации с объекта ;
2(b,g) – доступ к информационному ресурсу b с целью поиска по заданным в заказе признакам информационного объекта g;
3(g,ПА) – поиск и обработка информационного объекта с признаками g по варианту сложности (уровню аналитической нагрузки) ПА с использованием существующих систем обработки информации в сети интернет;
4(,y) – перенос копии информационного носителя с использованием средств доставки y;
5(µ,y) – отправка результата обработки информации заказчику µ с использованием средств доставки y.
Отсюда, функция опишется композицией элементарных функций:
Слайд 18
Математическая постановка задачи поиска НТИ сети интерент
Первую группу
задач
Вторая группа задач
Пертине́нтность (pertineo — касаюсь, отношусь) — соответствие
найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса.
6(γ,λ) – разработка тематического запроса γ на аналитическую обработку информации λ.
Слайд 19
Информационная модель процесса обработки информации в сети интернет
Для представления процесса обработки информации в сети интернет в
качестве информационного объекта z рассмотрим элементарный фрагмент информации информационного ресурса Z,
Описать информационный объект (запись) можно четверкой:
Аz- алфавит (русский, латинский, …);
Rz- разделительные знаки (« » – пробел, :, -, …);
Ψz- словарь, являющийся языком в алфавите А:
Lz-язык информационного объекта:
Произвольная совокупность записей ИР Z1, также опишется четверкой:
Пz – полный набор всех возможных записей ИР характеризующегоинформацию находящеюся на данном ресурсе.
Слайд 20
Модель обработки информации в сети интернет
Обработка информации в
сети интернет относится к классу итеративных задач.
- среднее время решения одной задачи;
- эфирное время обработки информации в РИС сети интернет;
- среднее число входящих в нее процедур обработки;
- средняя продолжительность одной процедуры обработки.
Слайд 21
Модель обработки информации в сети интернет
Время одной процедуры
обработки информации складывается из двух разнохарактерных по реализации составляющих:
- время затрачивается на аналитическую работу по построению очередной функции обработки информации,
- время на ее решение в интернет, т.е. машинной составляющей, связанной с работой вычислительных и коммуникационных средств.
Слайд 22
Модель обработки информации в сети интернет
Аналитическая составляющая лежит
в основе:
Формирования тезаурусов ПО, необходимых для составления поисковых предписаний
(ПП) на обработку информации, и предусматривает использование имитационных моделей синонимии, дедукции и индукции.
Синонимия используется для расширения ПО,
Дедукция – для формирования тезаурусов с использованием подхода от общего к частному,
Индукция – для формирования тезаурусов с использованием подхода от частного к общему.
Аналитическая составляющая базируется на использовании известных рубрикаторов (ГРНТИ, УДК, МПК и других). Тезаурусы формируются как тезаурусы КС и дескрипторов. Сформированные тезаурусы лежат в основе составления оптимальных ПП, отражающих в своей сути искомый поисковый образ документа (ПОД) в РИС сети интернет.
Слайд 25
1. Анализ и краткое описание предметной области.
2. Выявление(определение)
информационной потребности.
3. Формирование информационно-поисковых задач.
4. Определение поисковой стратегии:
Поиска структурированной
информации
Определение предметной области поиска информации (ГРНТИ, УДК, МПК и т.п.)
Составление списка ключевых слов.
Формирование дескрипторов
Формирование поисковых предписаний
Поиска неструктурированной информации
Определение предметной области поиска информации (ГРНТИ, УДК, МПК и т.п.)
Составление списка ключевых слов.
Формирование дескрипторов (Эталонных)
Формирование словоформ (Словарь Зализняка)
Формирование синонимии (Синонимов)
Расширение предметной области поиска информации ((ГРНТИ, УДК, МПК и т.п., по методу дедукции и индукции))
Формирование дескрипторов с учетом синонимов и расширения ПО
Формирование поисковых предписаний