Слайд 2
4.1. Основные понятия
Системы оперативной обработки транзакций
–
Online Transaction Processing (OLTP)
Системы поддержки принятия решений –
Decision
Support System (DSS)
Усовершенствованная технология баз данных:
специальные средства управления процессом
хранения информации
мощные инструменты анализа накопленных
данных
Слайд 3
4.2. Определение
Bill Inmon, 1993 г.
Хранилище данных (Data
Warehouse) –
это предметно-ориентированный,
интегрированный,
привязанный ко времени и
неизменяемый набор данных,
предназначенный для поддержки
принятия решений
Слайд 4
4.3. Сравнение систем
1. Характер данных
OLTP + базы
данных
DSS + хранилища данных
Текущие данные
Исторические данные
Подробные сведения
Обобщенные данные
Динамические данные
Статические
данные
Слайд 5
4.3. Сравнение систем
(продолжение)
2. Обработка данных
Повторяющийся
способ обработки
Нерегламентированный,
неструктурированный,
эвристический способ
Высокая
интенсивность
обработки транзакций
Средняя
и низкая
интенсивность обработки
транзакций
Предсказуемый
Непредсказуемый
способ использования
способ использования
Слайд 6
4.3. Сравнение систем
(продолжение)
3. Назначение системы
Обработка транзакций
Проведение анализа
Ориентирована на
прикладную
область
Ориентирована на
предметную область
Поддержка принятия
Поддержка принятия
повседневных
стратегических решений
решений
Слайд 7
4.3. Сравнение систем
(продолжение)
4. Пользователи
Обслуживает
большое количество
пользователей
исполнительного
звена
Обслуживает относительно
небольшое количество
работников руководящего
звена
Слайд 8
4.4. Конфигурация хранилища данных
OLTP-системы
Загрузочная секция
Хранилище данных
источники данных
Слайд 9
4.5. Архитектура хранилища данных
.
.
.
Источники
Архив и
Средства
DW
L
M
Q
M
WM
WM
оперативных
данных
резервные копии
доступа
конечного
пользователя
Слайд 10
4.5. Архитектура хранилища данных
(продолжение)
Мета данные
Детальные данные
Частично
обобщенные данные
Глубоко обобщенные данные
извлечение и загрузка данных
обслуживание хранилища
обслуживание запросов
Постоянные
данные
Временные данные
Слайд 11
4.5. Архитектура хранилища данных
(продолжение)
Менеджер загрузки – Load Manager
(LM):
внешний (front-end) компонент;
извлечение данных,
загрузка данных в
хранилище
инструменты репликации информации
генераторы кода
механизмы динамического преобразования
Слайд 12
4.5. Архитектура хранилища данных
(продолжение)
Менеджер хранилища –
Warehouse Manager
(WM):
управление информацией,
помещенной в хранилище данных
анализ непротиворечивости данных
создание
необходимых индексов
денормализация
обобщение
резервное копирование
Слайд 13
4.5. Архитектура хранилища данных
(продолжение)
Менеджер запросов – Query Manager
(QM):
внутренний (back-end) компонент;
управление запросами пользователей.
Создается на
базе предоставляемых
СУБД инструментов доступа к данным и
инструментов мониторинга хранилища
Слайд 14
4.6. Средства доступа к данным
Инструменты информационной
системы
руководителя –
Executive Information System (EIS;
сейчас – Everybody
Information System);
предоставление поддержки
управляющему персоналу всех уровней.
Предопределенный набор сценариев
обработки данных и составления отчетов
Express Analyzer фирмы Oracle
Слайд 15
4.6. Средства доступа к данным
(продолжение)
2. Инструменты оперативной
аналитической
обработки –
Online Analytical Processing (OLAP);
оценка эффективности деятельности
предприятия, предсказание объемов
продаж и планирование товарных запасов.
Построение и выполнение
нерегламентированных запросов
Express Server фирмы Oracle
Слайд 16
4.6. Средства доступа к данным
(продолжение)
3. Инструменты разработки данных
–
Data mining;
открытие новых осмысленных
корреляций, распределений и
тенденций, создание предсказательных,
а не ретроспективных моделей.
Создание предсказательных моделей
Intelligent Miner фирмы IBM
Слайд 17
4.7. Витрины данных
Data Mart – витрины (магазины)
данных
доступ к данным, которые приходится
анализировать чаще других
предоставление данных
в форме,
соответствующей коллективному
представлению подразделения
сокращение времени ответа на вопрос
Слайд 18
4.9. Витрины данных
(продолжение)
Хранили-ще данных
Витрина данных
архив
Слайд 19
4.7. Витрины данных
(продолжение)
Отличие от хранилища данных:
отвечает требованиям только
одного из
подразделений организации или
некоторой ее деловой сферы
обычно
не содержит детальных
оперативных сведений
структура информации более понятна и
проста в управлении
Слайд 20
4.7. Витрины данных
(продолжение)
Создание:
хранилище данных витрины данных
витрины данных
хранилище данных
хранилище данных + витрины данных
Слайд 21
4.8. Проектирование хранилища данных
Слайд 22
4.8. Проектирование хранилища данных (продолжение)
Слайд 23
4.9. Схема типа «звезда»
Таблица фактов
1
2
n
Таблицы
измерений
Слайд 24
4.9. Схема типа «звезда»
(продолжение)
Категории измерений
Таблица фактов
Люди
Время
Места
Вещи
Слайд 26
4.10. Пример проектирования
(продолжение)
Слайд 27
4.11. Особенности проектирования
Таблица фактов:
использование суррогатного ключа
вычисляемые колонки
(объем продаж, стоимость в . . .
)
секционирование
вертикальное
(восстановление – через join)
горизонтальное
(восстановление – через union)
Слайд 28
4.11. Особенности проектирования
(продолжение)
Таблицы измерений:
существующие таблицы OLTP базы
данных (Товар, Магазин)
новые измерения (из других таблиц
базы
данных – Район или из элементов таблиц
базы данных – Время)
денормализация таблицы измерений
развертывание измерений – схема типа
«снежинка»
Слайд 29
4.11. Особенности проектирования
(продолжение)
Слайд 30
4.12. Технология OLAP
Термин OLAP был предложен Коддом
в 1993 г.
и определяет архитектуру, которая
поддерживает сложные
аналитические
приложения
Назначение OLAP (Online Analytical Processing)
инструментов:
предоставить средства извлечения большого
количества записей и вычисления на их
основе некоторых итоговых значений
Слайд 31
4.13. Правила для OLAP систем
E. Codd, 1993
г.
Многомерное концептуальное
представление данных
Доступность
Неизменная производительность
подготовки отчетов
Слайд 32
4.13. Правила для OLAP систем
(продолжение)
Неограниченные перекрестные
операции между
размерностями
Неограниченное число измерений и
уровней обобщения
Гибкость средств формирования
отчетов
Универсальность
измерений
Слайд 33
4.13. Правила для OLAP систем
(продолжение)
Прозрачность
Динамическое управление
разреженностью
матриц
Архитектура клиент-сервер
Многопользовательская поддержка
Поддержка интуитивно понятного
манипулирования данными
Слайд 34
4.14. Критерий FASMI
Fast –
время отклика:
среднее ~ 5 сек;
для простых запросов -
~ 1 сек;
для самых сложных - ~ 20 сек;
более 30 сек – недопустимо
Слайд 35
4.14. Критерий FASMI
(продолжение)
Analysis –
система должна справляться с
любым
логическим и статистическим анализом,
характерным для данного приложения;
пользователь может определять новые
вычисления как часть анализа и
формировать нужные отчеты
без необходимости программирования
Слайд 36
4.14. Критерий FASMI
(продолжение)
Shared –
широкие возможности разграничения
доступа
к данным и одновременной
работы многих пользователей
Слайд 37
4.14. Критерий FASMI
(продолжение)
Multidimensional –
должно быть обеспечено многомерное
концептуальное представление данных
Information –
необходимая информация должна быть
получена
там, где она необходима
Слайд 38
4.15. Многомерное представление
Анализ изменения объема продаж и
дохода торговых предприятий во
времени
Номер записи
Tid (FK1)
Sid (FK2)
Объем продаж
Доход
(руб)
. . .
Продажи
Tid
Месяц
Квартал
Год
Время
Sid
Название
Адрес
Регион
Предприятие
Слайд 39
4.15. Многомерное представление
(продолжение)
Таблица РБД («плоская»)
Слайд 40
4.15. Многомерное представление
(продолжение)
Двухмерное представление
Слайд 41
4.15. Многомерное представление
(продолжение)
Слайд 42
4.15. Многомерное представление
(продолжение)
Достоинства многомерных структур:
очень компактны
обеспечивают простые средства
просмотра и манипулирования
элементами данных, обладающих
многими взаимосвязями
Слайд 43
4.15. Многомерное представление
(продолжение)
Достоинства многомерных структур:
легко расширяются при включении
новой размерности
допускают выполнение операций
матричной арифметики, позволяющих
легко вычислять
средние и общие
значения
Слайд 44
4.15. Многомерное представление
(продолжение)
«Типичная реляционная СУБД способна
сканировать всего
несколько сотен
строк в секунду, тогда как типичная
многомерная
СУБД способна выполнять
обобщающие операции со скоростью до
10000 строк в секунду и даже выше.»
[Коннолли Т. и др.]
Слайд 45
4.16. Аналитические операции
Консолидация – обобщающие
операции, такие
как простое
суммирование значений (свертка), или
расчет с использованием
сложных
выражений, включающих другие
связанные данные
Слайд 46
4.16. Аналитические операции
(продолжение)
Нисходящий анализ (drill-down) –
операция, обратная
консолидации;
включает возможность отображения
подробных сведений для
рассматриваемых консолидированных
данных
Слайд 47
4.16. Аналитические операции
(продолжение)
Разбиение с поворотом (slicing and
dicing)
– также называется созданием
сводной таблицы; позволяет получить
представление
данных с разных точек
зрения
Слайд 48
4.17. Категории OLAP инструментов
Berson and Smith, 1997
г.
Многомерные OLAP инструменты – Multidimensional OLAP, MOLAP
Реляционные OLAP инструменты
– Relational OLAP, ROLAP
Управляемая среда запросов – Managed Query Environment, MQE
Слайд 49
4.18. Многомерный OLAP
Специализированные структуры данных и многомерные
СУБД
Данные обобщаются и хранятся в соответствии с их предполагаемым
использованием
Высокая производительность
Тесное взаимодействие с уровнем приложения и уровнем отображения
Слайд 50
4.18. Многомерный OLAP
(продолжение)
Источники данных
Многомер-ные
кубы
загрузка
запрос
результат
Логический уровень
базы данных и
приложения
Уровень
отображения
Слайд 51
4.18. Многомерный OLAP
(продолжение)
Особенности:
Используемые структуры данных обладают ограниченной способностью
поддержки нескольких предметных областей и осуществления доступа к подробным
сведениям
Слайд 52
4.18. Многомерный OLAP
(продолжение)
Просмотр и анализ данных ограничен процессом
проектирования структуры данных в соответствии с заранее определенными требованиями
Необходимы
особый набор навыков и знаний, использование специальных инструментов создания и сопровождения базы данных
Слайд 53
4.19. Реляционный OLAP
Взаимодействие с СУБД – уровень
метаданных
Нет необходимости создания статичной многомерной структуры данных
Дополнительные средства поддержки
функций многомерного анализа
Создание сильно денормализованной базы данных
Слайд 54
4.19. Реляционный OLAP
(продолжение)
Источники данных
результат
запрос
результат
Уровень
базы данных
Уровень
отображения
Уровень логики
приложения
SQL
Сервер ROLAP
Слайд 55
4.19. Реляционный OLAP
(продолжение)
Особенности:
Необходима разработка промежуточного ПО для многомерных
приложений (преобразование отношений РБД в многомерную структуру)
Слайд 56
4.19. Реляционный OLAP
(продолжение)
Требуется разработка инструментов, предназначенных для создания
устойчивых многомерных структур со вспомогательными компонентами администрирования этих структур
Слайд 57
4.20. Дополнительные возможности SQL
Предложение SELECT:
SELECT . . .
FROM . . .
GROUP BY . . .
WITH
ROLLUP | WITH CUBE
Слайд 58
4.20. Дополнительные возможности SQL (продолжение)
Пример:
SELECT . . .
WITH CUBE | WITH ROLLUP
Слайд 59
4.20. Дополнительные возможности SQL (продолжение)
Пример:
SELECT SName, PName,
sum(qty) as sum
FROM S join SP on S.Sid
= SP.Sid
join P on SP.Pid = P.Pid
GROUP BY SName, PName
Слайд 60
4.20. Дополнительные возможности SQL (продолжение)
Слайд 61
4.20. Дополнительные возможности SQL (продолжение)
Пример:
SELECT SName, PName,
sum(qty) as sum
FROM S join SP on S.Sid
= SP.Sid
join P on SP.Pid = P.Pid
GROUP BY SName, Pname
WITH ROLLUP
Слайд 62
4.20. Дополнительные возможности SQL (продолжение)
Слайд 63
4.20. Дополнительные возможности SQL (продолжение)
Слайд 64
4.20. Дополнительные возможности SQL (продолжение)
Пример:
SELECT SName, PName,
sum(qty) as sum
FROM S join SP on S.Sid
= SP.Sid
join P on SP.Pid = P.Pid
GROUP BY SName, Pname
WITH CUBE
Слайд 65
4.20. Дополнительные возможности SQL (продолжение)
Слайд 66
4.20. Дополнительные возможности SQL (продолжение)
Слайд 68
Области применения ИС
Управление повседневными бизнес процессами (OLTP)
Поддержка принятия
стратегических решений (OLAP, Data mining)
Управление информационным содержанием
Слайд 69
Области применения ИС
Управление повседневными бизнес процессами (OLTP)
Слайд 70
Области применения ИС
Поддержка принятия стратегических решений (OLAP, Data
mining)
Слайд 71
Области применения ИС
Enterprise Content Management (ECM) – стратегии,
методы и инструментальные средства, используемые для ввода/сбора, управления, хранения,
архивирования и доставки информационного содержания (контента) и документов, относящихся к ключевым процессам организации
Слайд 72
Информационное содержание
Информационное содержание (контент) – информационные объекты, хранящиеся
в различных форматах, которые можно извлекать, повторно использовать публиковать
(Коммерческие
документы, сообщения электронной почты, образы документов, мультимедийные файлы, …)
Слайд 73
Управление контентом
Создание и сохранение документов
Обработка документов – поиск,
управление версиями, . . .
Получение доступа к содержимому –
управление доступом, аудит, . . .
Управление бизнес процессами – автоматизация, жизненный цикл контента,
. . .
Слайд 74
Управление контентом
Системы управления контентом (CMS, Content Management System)
– управление неструктурированными данными
Элемент контента
Метаданные
Слайд 75
Управление контентом
Репозиторий – управляемый блок хранения контента и
метаданных
Инфраструктура репозитория
Компоненты репозитория
Сервисы репозитория
Сервисы безопасности
Слайд 76
Компоненты репозитория
метаданные
Полнотекстовый индекс
Сервисы каталогов
Слайд 77
Сервисы репозитория
Объектная модель данным
Управление связями объектов
Словарь данных
Сервисы хранения
Поиск
/ запросы
Жизненный цикл
Распределенные / федеративные сервисы
Слайд 78
Сервисы безопасности
Управление доступом
Управление правами
Разрешения
Аудит
Шифрование
Слайд 79
Управление процессами
Workflow – представляет бизнес процессы и приложения,
ориентированные на события. Может быть определен для документов, папок
и виртуальных документов
Lifecycle – последовательность состояний, в которых в которых может находиться отдельный документ
Слайд 80
Workflow
Бизнес процесс – набор связанных действий, которые создают
некоторый результат, преобразуя исходные данные в более значимые выходные
данные
workflow
Исходные
данные –
документ
Выходные
данные –
документ
Слайд 81
Workflow
Описание процесса
Задача (activity)
Исполнитель (performer)
Поток информации (flow)
Конкретное выполнение
работ – процесс (workflow)
начало
Слайд 82
Lifecycle
Строго последовательное переключение состояний
Состояния жизненного цикла
Стартовое –
создание документа, ввод содержимого
Промежуточные состояния – различные стадии документа
Конечное
состояние – передача документа в архив