Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Информационные системы. Документальные и фактографические ИС. (Лекция 2)

Содержание

10/05/2021ИИТ СГМУСодержаниеАИСДокументальные и фактографические ИСДокументальные ИСПертинентность и релевантностьФункциональная структура ДИПСИнформационно-поисковые языкиОценка качества ДИПС
ИНФОРМАЦИОННЫЕ СИСТЕМЫЛекция 2Документальные и фактографические ИС 10/05/2021ИИТ СГМУСодержаниеАИСДокументальные и фактографические ИСДокументальные ИСПертинентность и релевантностьФункциональная структура ДИПСИнформационно-поисковые языкиОценка качества ДИПС 10/05/2021ИИТ СГМУАИСВ 60-х годах была осознана необходимость применения средств компьютерной обработки хранимой 10/05/2021ИИТ СГМУАИСПервые АИС работали преимущественно с информацией фактического характера, например, характеристиками объектов 10/05/2021ИИТ СГМУДокументальные и фактографические ИСПоэтому в зависимости от характера информационных ресурсов, которыми 10/05/2021ИИТ СГМУДокументальные и фактографические ИСФактографические системы оперируют фактическими сведениями, представленными в виде 10/05/2021ИИТ СГМУДокументальные ИСКлассические модели и методы в теории ИС изначально ориентировались на 10/05/2021ИИТ СГМУДокументальные ИСНаиболее распространенный тип документальных систем – информационно-поисковые системы (ДИПС), предназначенные 10/05/2021ИИТ СГМУДокументальные ИСВ отличие от ФИПС, которые в ответ на запрос потребителя 10/05/2021ИИТ СГМУДокументальные ИСПотребность человека в определенной информации в процессе его практической деятельности 10/05/2021ИИТ СГМУДокументальные ИСВ теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность.Документы, 10/05/2021ИИТ СГМУДокументальные ИСАвтоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания 10/05/2021ИИТ СГМУДокументальные ИСРешение о выдаче или невыдаче документа в ответ на запрос 10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСВ состав типичной ДИПС входят четыре основные 10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСПодсистема ввода и регистрацииПодсистемаобработкиПодсистема поискаСловарьИндексКССПодсистема храненияБаза документовПППОДЗапрос 10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСЗадачи подсистемы ввода и регистрации:Создание электронных копий 10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСДля хранения документов применяют средства сжатия и 10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСПОД сохраняются в индексе. Логически индекс – 10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСПри поступлении на вход системы запроса пользователя 10/05/2021ИИТ СГМУИнформационно-поисковые языкиНедостатки естественного языка (с точки зрения машинной технологии):Многообразие средств передачи 10/05/2021ИИТ СГМУИнформационно-поисковые языкиИнформационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания 10/05/2021ИИТ СГМУИнформационно-поисковые языкиИПЯ принято разбивать на два основных типа:Классификационные языкиДескрипторные языкиРазница между 10/05/2021ИИТ СГМУИнформационно-поисковые языкиНапример, частным случаем классификационного ИПЯ является рубрикатор.Рубрикатор формируется группой экспертов, 10/05/2021ИИТ СГМУИнформационно-поисковые языкиВ целом под рубрикатором некоторой предметной области понимается ориентированный граф, 10/05/2021ИИТ СГМУИнформационно-поисковые языкиДругой тип языков составляют дескрипторные ИПЯ, в которых ЛЕ заранее 10/05/2021ИИТ СГМУОценка качества ДИПСВ ПОД и ПП отражается лишь основное смысловое содержание 10/05/2021ИИТ СГМУОценка качества ДИПСТ.о., любой ДИСП присущи следующие ошибки:Ошибки 1-го рода (или 10/05/2021ИИТ СГМУОценка качества ДИПСРазбиение массива документов:Введем следующие обозначения:a – кол-во выданных релевантных 10/05/2021ИИТ СГМУОценка качества ДИПССуществуют следующие показатели эффективности ДИПС:1) Коэффициент полноты p, характеризующих 10/05/2021ИИТ СГМУОценка качества ДИПС2) Коэффициент точности n, характеризующих долю выданных релевантных документов 10/05/2021ИИТ СГМУОценка качества ДИПС4) Коэффициент осадка q, характеризующих долю выданных нерелевантных документов 10/05/2021ИИТ СГМУОценка качества ДИПСНаиболее часто используются показатели полноты и точности.Для удобства перечисленные 10/05/2021ИИТ СГМУПример зависимости между p и n 10/05/2021ИИТ СГМУОценка качества ДИПСДругие показатели эффективности ДИПС:БыстродействиеПропускная способностьПроизводительность (кол-во пользователей и частота 10/05/2021ИИТ СГМУВопросы?
Слайды презентации

Слайд 2 10/05/2021
ИИТ СГМУ
Содержание
АИС
Документальные и фактографические ИС
Документальные ИС
Пертинентность и релевантность
Функциональная

10/05/2021ИИТ СГМУСодержаниеАИСДокументальные и фактографические ИСДокументальные ИСПертинентность и релевантностьФункциональная структура ДИПСИнформационно-поисковые языкиОценка качества ДИПС

структура ДИПС
Информационно-поисковые языки
Оценка качества ДИПС


Слайд 3 10/05/2021
ИИТ СГМУ
АИС
В 60-х годах была осознана необходимость применения

10/05/2021ИИТ СГМУАИСВ 60-х годах была осознана необходимость применения средств компьютерной обработки

средств компьютерной обработки хранимой информации там, где были накоплены

значительные объемы полезных данных – в военной промышленности, в бизнесе. Появились автоматизированные информационные системы (АИС) – программно-аппаратные комплексы, предназначенные для хранения, обработки информации и обеспечения ею пользователей.

Слайд 4 10/05/2021
ИИТ СГМУ
АИС
Первые АИС работали преимущественно с информацией фактического

10/05/2021ИИТ СГМУАИСПервые АИС работали преимущественно с информацией фактического характера, например, характеристиками

характера, например, характеристиками объектов и их связей. По мере

«интеллектуализации» АИС появилась возможность обрабатывать текстовые документы на естественном языке, изображения и другие виды и форматы представления данных.
Принципы хранения данных в системах обработки фактической и документальной (текстовой) информацией схожи, но алгоритмы обработки заметно отличаются.

Слайд 5 10/05/2021
ИИТ СГМУ
Документальные и фактографические ИС
Поэтому в зависимости от

10/05/2021ИИТ СГМУДокументальные и фактографические ИСПоэтому в зависимости от характера информационных ресурсов,

характера информационных ресурсов, которыми оперируют такие системы, принято различать

два крупных класса – документальные и фактографические.

Документальные системы служат для работы с документами на естественном языке – монографиями, публикациями в периодике, сообщениями пресс-агентств, текстами законодательных актов.

Слайд 6 10/05/2021
ИИТ СГМУ
Документальные и фактографические ИС
Фактографические системы оперируют фактическими

10/05/2021ИИТ СГМУДокументальные и фактографические ИСФактографические системы оперируют фактическими сведениями, представленными в

сведениями, представленными в виде специальным образом организованных совокупностей формализованных

записей данных. Центральное функциональное звено фактографических информационных систем – системы управления базами данных (СУБД).

Слайд 7 10/05/2021
ИИТ СГМУ
Документальные ИС
Классические модели и методы в теории

10/05/2021ИИТ СГМУДокументальные ИСКлассические модели и методы в теории ИС изначально ориентировались

ИС изначально ориентировались на организацию хранения и обработки детально

структурированных данных.
Однако, на практике оказалось, что информация чаще представлена в виде простых текстовых документов.
Итак, ДИС – это системы, ориентированные на работу с текстовыми документами, с данными, имеющими приближенное представление, сложную структуру.

Слайд 8 10/05/2021
ИИТ СГМУ
Документальные ИС
Наиболее распространенный тип документальных систем –

10/05/2021ИИТ СГМУДокументальные ИСНаиболее распространенный тип документальных систем – информационно-поисковые системы (ДИПС),

информационно-поисковые системы (ДИПС), предназначенные для накопления и поиска по

различным критериям документов на естественном языке.

Слайд 9 10/05/2021
ИИТ СГМУ
Документальные ИС
В отличие от ФИПС, которые в

10/05/2021ИИТ СГМУДокументальные ИСВ отличие от ФИПС, которые в ответ на запрос

ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов),

ДИПС в результате поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует запросу.

Слайд 10 10/05/2021
ИИТ СГМУ
Документальные ИС
Потребность человека в определенной информации в

10/05/2021ИИТ СГМУДокументальные ИСПотребность человека в определенной информации в процессе его практической

процессе его практической деятельности носит название информационной потребности.

Частное значение

информационной потребности в определенные моменты времени, выраженное на ЕЯ, представляет собой информационный запрос, с которым пользователь обращается к системе.

Слайд 11 10/05/2021
ИИТ СГМУ
Документальные ИС
В теории ДИПС введены два фундаментальных

10/05/2021ИИТ СГМУДокументальные ИСВ теории ДИПС введены два фундаментальных понятия: пертинентность и

понятия: пертинентность и релевантность.
Документы, содержание которых удовлетворяет информационной потребности,

называют пертинентными (от англ. pertinence – уместность, связь, отношение).
Релевантность (от англ. relevance – уместность) представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован.

Слайд 12 10/05/2021
ИИТ СГМУ
Документальные ИС
Автоматизация процесса информационного поиска потребовала формализации

10/05/2021ИИТ СГМУДокументальные ИСАвтоматизация процесса информационного поиска потребовала формализации представления основного смыслового

представления основного смыслового содержания информационного запроса и документов в

виде соответственно поискового предписания (ПП) и поисковых образцов документов (ПОД).
Для записи ПП и ПОД применяются специальные информационно-поисковые языки.

Слайд 13 10/05/2021
ИИТ СГМУ
Документальные ИС
Решение о выдаче или невыдаче документа

10/05/2021ИИТ СГМУДокументальные ИСРешение о выдаче или невыдаче документа в ответ на

в ответ на запрос принимается на основе некоторого набора

правил, по которому данной ДИСП определяется степень смысловой близости между ПОД и ПП.
Такой набор правил получил название критерия смыслового соответствия (КСС).

Слайд 14 10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
В состав типичной

10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСВ состав типичной ДИПС входят четыре

ДИПС входят четыре основные подсистемы:
Подсистема ввода и регистрации.
Подсистема обработки.
Подсистема

хранения
Подсистема поиска.

Слайд 15 10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС








Подсистема ввода
и

10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСПодсистема ввода и регистрацииПодсистемаобработкиПодсистема поискаСловарьИндексКССПодсистема храненияБаза документовПППОДЗапрос

регистрации
Подсистема
обработки
Подсистема
поиска
Словарь
Индекс
КСС
Подсистема
хранения
База
документов
ПП
ПОД
Запрос


Слайд 16 10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
Задачи подсистемы ввода

10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСЗадачи подсистемы ввода и регистрации:Создание электронных

и регистрации:
Создание электронных копий бумажных документов (сканирование, распознавание, ввод

с клавиатуры);
Обеспечение подключения к каналам доставки электронных документов;
Присвоение эл.документам уникальных идентификаторов, ведение таблицы синхронизации имен;
Преобразование формата эл.документов.

Слайд 17 10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
Для хранения документов

10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСДля хранения документов применяют средства сжатия

применяют средства сжатия и быстрого поиска информации.
Система хранения:
Средства архивации
СУБД

для доступа к данным по идентификатору.

Подсистема обработки формирует для каждого документа ПОД.

Слайд 18 10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
ПОД сохраняются в

10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСПОД сохраняются в индексе. Логически индекс

индексе. Логически индекс – таблица, строки которой соответствуют документам,

а столбцы информационным признакам.
В ячейках таблицы могут хранится либо 1, либо 0 – в зависимости наличия или отсутствия данного признака в данном документе.
Такая таблица сильно разрежена, на практике хранят свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной.

Слайд 19 10/05/2021
ИИТ СГМУ
Общая функциональная структура документальных ИПС
При поступлении на

10/05/2021ИИТ СГМУОбщая функциональная структура документальных ИПСПри поступлении на вход системы запроса

вход системы запроса пользователя он преобразуется в ПП и

передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

Слайд 20 10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Недостатки естественного языка (с точки зрения

10/05/2021ИИТ СГМУИнформационно-поисковые языкиНедостатки естественного языка (с точки зрения машинной технологии):Многообразие средств

машинной технологии):
Многообразие средств передачи смысла;
Семантическая неоднозначность;
Синонимия;
Многозначность (полисемия – команда,

омонимия - лук);
Эллипсность (пропуски подразумеваемых слов).

Слайд 21 10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный

10/05/2021ИИТ СГМУИнформационно-поисковые языкиИнформационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для

язык, предназначенный для описания основного смысла содержания поступающих в

систему сообщений, с целью обеспечения возможности последующего поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

Слайд 22 10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
ИПЯ принято разбивать на два основных

10/05/2021ИИТ СГМУИнформационно-поисковые языкиИПЯ принято разбивать на два основных типа:Классификационные языкиДескрипторные языкиРазница

типа:
Классификационные языки
Дескрипторные языки

Разница между данными типами – в процедуре

построения предложений.
С помощью языков первого типа производится классификация сообщений.

Слайд 23 10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Например, частным случаем классификационного ИПЯ является

10/05/2021ИИТ СГМУИнформационно-поисковые языкиНапример, частным случаем классификационного ИПЯ является рубрикатор.Рубрикатор формируется группой

рубрикатор.
Рубрикатор формируется группой экспертов, на основании их знаний о

предметной области с учетом информационных потребностей пользователей.
Лексическими единицами являются названия тематических рубрик.

Слайд 24 10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
В целом под рубрикатором некоторой предметной

10/05/2021ИИТ СГМУИнформационно-поисковые языкиВ целом под рубрикатором некоторой предметной области понимается ориентированный

области понимается ориентированный граф, состоящий из независимых деревьев.
Листья деревьев

будем называть рубриками – объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области.
Все нелистовые вершины являются классификационными родово-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.

Слайд 25 10/05/2021
ИИТ СГМУ
Информационно-поисковые языки
Другой тип языков составляют дескрипторные ИПЯ,

10/05/2021ИИТ СГМУИнформационно-поисковые языкиДругой тип языков составляют дескрипторные ИПЯ, в которых ЛЕ

в которых ЛЕ заранее не связаны никакими текстуальными отношениями.
ДИПЯ

различают с грамматикой и без грамматики. В первом случае имеет смысл порядок формирования синтаксических конструкций:
Иванов владеет автомобилем ---- владеть Иванов автомобиль

Слайд 26 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
В ПОД и ПП отражается

10/05/2021ИИТ СГМУОценка качества ДИПСВ ПОД и ПП отражается лишь основное смысловое

лишь основное смысловое содержание поступающих сообщений в сокращенном виде.

Поэтому метод поиска, основанный на сопоставлении ПП с ПОД, не в состоянии полностью обеспечить отыскания всех документов, отвечающих информационному запросу.

Слайд 27 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Т.о., любой ДИСП присущи следующие

10/05/2021ИИТ СГМУОценка качества ДИПСТ.о., любой ДИСП присущи следующие ошибки:Ошибки 1-го рода

ошибки:

Ошибки 1-го рода (или пропуск цели): невыдача потребителю фактически

релевантных его запросу документов;

Ошибки 2-го рода (или ложная тревога, шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу.

Слайд 28 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Разбиение массива документов:





Введем следующие обозначения:
a

10/05/2021ИИТ СГМУОценка качества ДИПСРазбиение массива документов:Введем следующие обозначения:a – кол-во выданных

– кол-во выданных релевантных документов
b – кол-во выданных нерелевантных

документов
c – кол-во невыданных релевантных документов
d – кол-во невыданных нерелевантных документов

Слайд 29 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Существуют следующие показатели эффективности ДИПС:

1)

10/05/2021ИИТ СГМУОценка качества ДИПССуществуют следующие показатели эффективности ДИПС:1) Коэффициент полноты p,

Коэффициент полноты p, характеризующих долю выданных релевантных документов во

всем массиве релевантных документов:


Слайд 30 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
2) Коэффициент точности n, характеризующих

10/05/2021ИИТ СГМУОценка качества ДИПС2) Коэффициент точности n, характеризующих долю выданных релевантных

долю выданных релевантных документов во всем массиве выданных документов:


3)

Коэффициент шума e, характеризующих долю выданных нерелевантных документов во всем массиве выданных документов:



Слайд 31 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
4) Коэффициент осадка q, характеризующих

10/05/2021ИИТ СГМУОценка качества ДИПС4) Коэффициент осадка q, характеризующих долю выданных нерелевантных

долю выданных нерелевантных документов во всем массиве нерелевантных документов:


5)

Коэффициент специфичности k, характеризующих долю невыданных нерелевантных документов во всем массиве нерелевантных документов:



Слайд 32 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Наиболее часто используются показатели полноты

10/05/2021ИИТ СГМУОценка качества ДИПСНаиболее часто используются показатели полноты и точности.Для удобства

и точности.
Для удобства перечисленные показатели измеряют в %, у

идеальной ДИСП полнота и точность 100%.
Однако такое качество поиска невозможно, поэтому на фиксированном уровне мощности поискового средства попытки улучшить один параметр приводят к ухудшению другого.

Слайд 33 10/05/2021
ИИТ СГМУ
Пример зависимости между p и n

10/05/2021ИИТ СГМУПример зависимости между p и n

Слайд 34 10/05/2021
ИИТ СГМУ
Оценка качества ДИПС
Другие показатели эффективности ДИПС:
Быстродействие
Пропускная способность
Производительность

10/05/2021ИИТ СГМУОценка качества ДИПСДругие показатели эффективности ДИПС:БыстродействиеПропускная способностьПроизводительность (кол-во пользователей и

(кол-во пользователей и частота их обращения)
Надежность работы (оценивается вероятностью

того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени)
Тип запросов, обслуживаемых системой

  • Имя файла: informatsionnye-sistemy-dokumentalnye-i-faktograficheskie-is-lektsiya-2.pptx
  • Количество просмотров: 147
  • Количество скачиваний: 0