Слайд 2
10/05/2021
ИИТ СГМУ
Содержание
АИС
Документальные и фактографические ИС
Документальные ИС
Пертинентность и релевантность
Функциональная
структура ДИПС
Информационно-поисковые языки
Оценка качества ДИПС
Слайд 3
10/05/2021
ИИТ СГМУ
АИС
В 60-х годах была осознана необходимость применения
средств компьютерной обработки хранимой информации там, где были накоплены
значительные объемы полезных данных – в военной промышленности, в бизнесе. Появились автоматизированные информационные системы (АИС) – программно-аппаратные комплексы, предназначенные для хранения, обработки информации и обеспечения ею пользователей.
Слайд 4
10/05/2021
ИИТ СГМУ
АИС
Первые АИС работали преимущественно с информацией фактического
характера, например, характеристиками объектов и их связей. По мере
«интеллектуализации» АИС появилась возможность обрабатывать текстовые документы на естественном языке, изображения и другие виды и форматы представления данных.
Принципы хранения данных в системах обработки фактической и документальной (текстовой) информацией схожи, но алгоритмы обработки заметно отличаются.
Слайд 5
10/05/2021
ИИТ СГМУ
Документальные и фактографические ИС
Поэтому в зависимости от
характера информационных ресурсов, которыми оперируют такие системы, принято различать
два крупных класса – документальные и фактографические.
Документальные системы служат для работы с документами на естественном языке – монографиями, публикациями в периодике, сообщениями пресс-агентств, текстами законодательных актов.
Слайд 6
10/05/2021
ИИТ СГМУ
Документальные и фактографические ИС
Фактографические системы оперируют фактическими
сведениями, представленными в виде специальным образом организованных совокупностей формализованных
записей данных. Центральное функциональное звено фактографических информационных систем – системы управления базами данных (СУБД).
Слайд 7
10/05/2021
ИИТ СГМУ
Документальные ИС
Классические модели и методы в теории
ИС изначально ориентировались на организацию хранения и обработки детально
структурированных данных.
Однако, на практике оказалось, что информация чаще представлена в виде простых текстовых документов.
Итак, ДИС – это системы, ориентированные на работу с текстовыми документами, с данными, имеющими приближенное представление, сложную структуру.
Слайд 8
10/05/2021
ИИТ СГМУ
Документальные ИС
Наиболее распространенный тип документальных систем –
информационно-поисковые системы (ДИПС), предназначенные для накопления и поиска по
различным критериям документов на естественном языке.
Слайд 9
10/05/2021
ИИТ СГМУ
Документальные ИС
В отличие от ФИПС, которые в
ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов),
ДИПС в результате поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует запросу.
Слайд 10
10/05/2021
ИИТ СГМУ
Документальные ИС
Потребность человека в определенной информации в
процессе его практической деятельности носит название информационной потребности.
Частное значение
информационной потребности в определенные моменты времени, выраженное на ЕЯ, представляет собой информационный запрос, с которым пользователь обращается к системе.
Слайд 11
10/05/2021
ИИТ СГМУ
Документальные ИС
В теории ДИПС введены два фундаментальных
понятия: пертинентность и релевантность.
Документы, содержание которых удовлетворяет информационной потребности,
называют пертинентными (от англ. pertinence – уместность, связь, отношение).
Релевантность (от англ. relevance – уместность) представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован.
Слайд 12
10/05/2021
ИИТ СГМУ
Документальные ИС
Автоматизация процесса информационного поиска потребовала формализации
представления основного смыслового содержания информационного запроса и документов в
виде соответственно поискового предписания (ПП) и поисковых образцов документов (ПОД).
Для записи ПП и ПОД применяются специальные информационно-поисковые языки.
Слайд 13
10/05/2021
ИИТ СГМУ
Документальные ИС
Решение о выдаче или невыдаче документа
в ответ на запрос принимается на основе некоторого набора
правил, по которому данной ДИСП определяется степень смысловой близости между ПОД и ПП.
Такой набор правил получил название критерия смыслового соответствия (КСС).
Слайд 14
10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
В состав типичной
ДИПС входят четыре основные подсистемы:
Подсистема ввода и регистрации.
Подсистема обработки.
Подсистема
хранения
Подсистема поиска.
Слайд 15
10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
Подсистема ввода
и
регистрации
Подсистема
обработки
Подсистема
поиска
Словарь
Индекс
КСС
Подсистема
хранения
База
документов
ПП
ПОД
Запрос
Слайд 16
10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
Задачи подсистемы ввода
и регистрации:
Создание электронных копий бумажных документов (сканирование, распознавание, ввод
с клавиатуры);
Обеспечение подключения к каналам доставки электронных документов;
Присвоение эл.документам уникальных идентификаторов, ведение таблицы синхронизации имен;
Преобразование формата эл.документов.
Слайд 17
10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
Для хранения документов
применяют средства сжатия и быстрого поиска информации.
Система хранения:
Средства архивации
СУБД
для доступа к данным по идентификатору.
Подсистема обработки формирует для каждого документа ПОД.
Слайд 18
10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
ПОД сохраняются в
индексе. Логически индекс – таблица, строки которой соответствуют документам,
а столбцы информационным признакам.
В ячейках таблицы могут хранится либо 1, либо 0 – в зависимости наличия или отсутствия данного признака в данном документе.
Такая таблица сильно разрежена, на практике хранят свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной.
Слайд 19
10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
При поступлении на
вход системы запроса пользователя он преобразуется в ПП и
передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
Слайд 20
10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Недостатки естественного языка (с точки зрения
машинной технологии):
Многообразие средств передачи смысла;
Семантическая неоднозначность;
Синонимия;
Многозначность (полисемия – команда,
омонимия - лук);
Эллипсность (пропуски подразумеваемых слов).
Слайд 21
10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный
язык, предназначенный для описания основного смысла содержания поступающих в
систему сообщений, с целью обеспечения возможности последующего поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
Слайд 22
10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
ИПЯ принято разбивать на два основных
типа:
Классификационные языки
Дескрипторные языки
Разница между данными типами – в процедуре
построения предложений.
С помощью языков первого типа производится классификация сообщений.
Слайд 23
10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Например, частным случаем классификационного ИПЯ является
рубрикатор.
Рубрикатор формируется группой экспертов, на основании их знаний о
предметной области с учетом информационных потребностей пользователей.
Лексическими единицами являются названия тематических рубрик.
Слайд 24
10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
В целом под рубрикатором некоторой предметной
области понимается ориентированный граф, состоящий из независимых деревьев.
Листья деревьев
будем называть рубриками – объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области.
Все нелистовые вершины являются классификационными родово-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.
Слайд 25
10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Другой тип языков составляют дескрипторные ИПЯ,
в которых ЛЕ заранее не связаны никакими текстуальными отношениями.
ДИПЯ
различают с грамматикой и без грамматики. В первом случае имеет смысл порядок формирования синтаксических конструкций:
Иванов владеет автомобилем ---- владеть Иванов автомобиль
Слайд 26
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
В ПОД и ПП отражается
лишь основное смысловое содержание поступающих сообщений в сокращенном виде.
Поэтому метод поиска, основанный на сопоставлении ПП с ПОД, не в состоянии полностью обеспечить отыскания всех документов, отвечающих информационному запросу.
Слайд 27
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Т.о., любой ДИСП присущи следующие
ошибки:
Ошибки 1-го рода (или пропуск цели): невыдача потребителю фактически
релевантных его запросу документов;
Ошибки 2-го рода (или ложная тревога, шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу.
Слайд 28
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Разбиение массива документов:
Введем следующие обозначения:
a
– кол-во выданных релевантных документов
b – кол-во выданных нерелевантных
документов
c – кол-во невыданных релевантных документов
d – кол-во невыданных нерелевантных документов
Слайд 29
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Существуют следующие показатели эффективности ДИПС:
1)
Коэффициент полноты p, характеризующих долю выданных релевантных документов во
всем массиве релевантных документов:
Слайд 30
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
2) Коэффициент точности n, характеризующих
долю выданных релевантных документов во всем массиве выданных документов:
3)
Коэффициент шума e, характеризующих долю выданных нерелевантных документов во всем массиве выданных документов:
Слайд 31
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
4) Коэффициент осадка q, характеризующих
долю выданных нерелевантных документов во всем массиве нерелевантных документов:
5)
Коэффициент специфичности k, характеризующих долю невыданных нерелевантных документов во всем массиве нерелевантных документов:
Слайд 32
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Наиболее часто используются показатели полноты
и точности.
Для удобства перечисленные показатели измеряют в %, у
идеальной ДИСП полнота и точность 100%.
Однако такое качество поиска невозможно, поэтому на фиксированном уровне мощности поискового средства попытки улучшить один параметр приводят к ухудшению другого.
Слайд 33
10/05/2021
ИИТ СГМУ
Пример зависимости между p и n
Слайд 34
10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Другие показатели эффективности ДИПС:
Быстродействие
Пропускная способность
Производительность
(кол-во пользователей и частота их обращения)
Надежность работы (оценивается вероятностью
того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени)
Тип запросов, обслуживаемых системой