Слайд 2
Отличия информационных технологии КИС
Изменяется масштаб, форма организации и
средства управления БД - создаются хранилища и витрины данных.
Используется
компьютерная сеть Интранет, объединяющая в себе возможности локальных сетей, информационные технологии и сервис Интернет.
Представлены два типа систем обработки данных, различающиеся составом и структурой данных, объемами хранимых и обрабатываемых данных, алгоритмами поиска и обработки данных и т.д.
Слайд 3
Два типа систем обработки данных в КИС
Система
OLTP (On-Line transaction processing) — транзакционного типа.
Система OLAP
(On-Line Analytic Processing) — аналитического типа.
Слайд 4
Два типа систем отработки данных в КИС
Слайд 5
Информационные базы КИС
базы данных (Data Base - DB,
БД),
хранилища данных (Data Warehouse - DW или ХД),
базы знаний (Knowledge Base - KB, БЗ).
Слайд 7
Концептуальная схема - абстрагированное описание предметной области с
фиксированной (логической) точки зрения.
Логическое (концептуальное) проектирование - систематизация понятий
и связей предметной области.
Модель данных - совокупность функциональных характеристик объектов и особенностей представления информации, используемая при абстрагировании.
Внутренняя схема - отображение концептуальной схемы на физический уровень.
Слайд 8
Модель данных – модель логического уровня проектирования БД.
иерархическая
модель данных
(hierarchical data model);
сетевая модель данных (network
data model);
реляционная модель данных (relational data model).
Слайд 9
Структура данных
(Под структурой данных в общем случае понимают
множество элементов данных и множество связей между ними.)
Манипулирование
данными
Целостность
данных
Модель данных
(Целостность данных означает систему правил, используемых для поддержания связей между записями в связанных таблицах, а также для обеспечения защиты от случайного удаления или изменения связанных данных. )
Слайд 10
Реляционная модель данных
Структура
Кадровый состав
Слайд 11
Реляционная модель для ПрО
«сотрудники-проекты-детали-поставщики»
Слайд 12
Реляционная модель (ключевые группы)
Слайд 13
Иерархическая модель данных
Структура
Кадровый состав
ВУЗ
Слайд 14
Иерархическая модель для ПрО
«сотрудники-проекты-детали-поставщики»
Отдел
Сотрудник
Сотрудник
Сотрудник
…
.
Подч
Подч
Подч.
Проект
Проект
.
Проект
…
.
.
.
Поставка
Поставка
.
Поставка
…
.
Деталь
Деталь
Деталь
Деталь
Поставщик
Поставщик
Поставщик
Поставщик
Слайд 15
Сетевая модель данных
Структура
Кадровый состав
Слайд 16
Сетевая модель для ПрО
«сотрудники-проекты-детали-поставщики»
Отдел
Сотрудник
Сотрудник
Сотрудник
…
.
Подч
Подч
Подч.
Проект-
сотрудник
Проект-
сотрудник
Проект-
сотрудник
…
.
.
.
Поставка
для проекта
Поставка
для проекта
Поставка
для
проекта
…
Деталь
Деталь
Деталь
Деталь
Поставщик
Поставщик
Поставщик
Поставщик
Составляющая
Составляющая
Составляющая
Проект
Проект
Проект
…
Поставка
Поставка
Поставка
Слайд 17
Преимущества и недостатки моделей
Слайд 20
Нормализация –
это процесс последовательной замены таблицы ее
полными декомпозициями до тех пор, пока все они не
будут находиться в 5НФ.
Процедура нормализации:
в таблице единственными функциональными зависимостями должны быть зависимости вида
А→K
K - первичный ключ,
А - некоторый атрибут
Слайд 21
Пример:
ХРАНЕНИЕ (ФИРМА, СКЛАД, ОБЪЕМ)
Содержит информацию о фирмах, получающих
товары со складов, и объемах этих складов.
Каждая фирма
может получать товар только с одного склада.
Функциональные зависимости (транзитивная):
фирма -> склад
склад -> объем
При этом возникают аномалии:
если в данный момент ни одна фирма не получает товар со склада, то в базу данных нельзя ввести данные о его объеме (т.к. не определен ключевой атрибут)
если объем склада изменяется, необходим просмотр всего отношения и изменение кортежей для всех фирм, связанных с данным складом.
Для устранения этих аномалий необходимо декомпозировать исходное отношение на два:
ХРАНЕНИЕ (ФИРМА, СКЛАД)
ОБЪЕМ_СКЛАДА (СКЛАД, ОБЪЕМ)
Слайд 22
Пример:
ПОСТАВКИ (N_ПОСТАВЩИКА, ТОВАР, ЦЕНА, КОЛИЧЕСТВО)
Поставщик может поставлять различные
товары.
Один и тот же товар может поставляться разными поставщиками.
Все
поставщики поставляют товар по одной и той же цене.
Ключ отношения: "N_поставщика + товар".
Функциональная зависимость
N_поставщика, товар -> количество
товар -> цена
Следующее разложение дает отношения во 2НФ:
ПОСТАВКИ (N_ПОСТАВЩИКА, ТОВАР, КОЛИЧЕСТВО)
ЦЕНА_ТОВАРА (ТОВАР, ЦЕНА)
Слайд 24
Архитектура системы поддержки принятия решений (СППР)
Слайд 25
Хранилище данных
Технология ХД предназначена для хранения и анализа
больших объемов данных с целью дальнейшего обнаружения в них
скрытых закономерностей.
Data Mining изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных.
ХД - предметно-ориентированный, интегрированный, редко меняющийся, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений.
Слайд 26
Основные характеристики хранилищ данных
содержит исторические данные;
хранит подробные сведения,
а также частично и полностью обобщенные данные;
данные в основном
являются статическими;
нерегламентированный, неструктурированный и эвристический способ обработки данных;
средняя и низкая интенсивность обработки транзакций;
непредсказуемый способ использования данных;
предназначено для проведения анализа;
ориентировано на предметные области;
поддержка принятия стратегических решений;
обслуживает относительно малое количество работников руководящего звена.
Слайд 28
Проблемы, возникающие при создании ХД
интеграция разнородных данных;
эффективное
хранение и обработка больших объемов данных;
организация многоуровневых справочников метаданных;
обеспечение
информационной безопасности ХД.
Слайд 31
OLAP
OLAP (Online Analytical Processing) - технология оперативной аналитической
обработки данных, использующая методы и средства для сбора, хранения
и анализа многомерных данных в целях поддержки процессов принятия решений.
Основное назначение OLAP-систем - поддержка аналитической деятельности, произвольных запросов пользователей - аналитиков.
Цель OLAP-анализа - проверка возникающих гипотез.
Слайд 32
Категории данных в ХД
детальные данные (измерения и факты)
агрегированные
(обобщенные) данные
метаданные - данные о данных, содержащихся в
ХД
Информационные потоки в ХД
входной поток
поток обобщения
архивный поток
поток метаданных
выходной поток
обратный поток
Слайд 35
Операции, выполняемые над гиперкубом
Срез
Слайд 39
Таблица фактов
факты, связанные с транзакциями (Transaction facts);
факты, связанные
с "моментальными снимками" (Snapshot facts);
факты, связанные с элементами документа
(Line-item facts);
факты, связанные с событиями или состоянием объекта (Event or state facts).
Слайд 40
Фрагмент схемы данных хранилища данных AdventureWorks
Слайд 41
Таблицы измерений
Таблицы измерений содержат неизменяемые либо редко изменяемые
данные.
Каждая таблица измерений должна находиться в отношении "один
ко многим" с таблицей фактов.