Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Распределенные системы

Содержание

Общая характеристика - Технология распределенных БД Distributed Database - Технология тиражирования данных Data ReplicationКоммуникаци-онная сетьБДБДБД
Распределенные системы Общая характеристика 						- Технология 						распределенных БД						Distributed Database						- Технология 						тиражирования 						данных 						Data ReplicationКоммуникаци-онная сетьБДБДБД Общая характеристикаСистемы распределенных баз данных – набор узлов, связанных вместе коммуникационной сетью:каждый Общая характеристикаРаспределенная БД – тип виртуального объектаНа каждом узле:собственные базы данных собственные Общая характеристикаДва вида систем распределенных БД:однородныенеоднородные Фундаментальный принцип системы распределенных БД:Для пользователя Общая характеристикаПроблемы сетевого взаимодействияПроблемы доступа к даннымПроблемы распределенных СУБДПроблемы тиражирования (репликации) данныхПроблемы неоднородных систем Проблемы сетевого взаимодействия КлиентСерверЛокальный узелУдаленный узелПрограмма связиClient NetКоммуникационный сервер Server NetСетевые компоненты СУБД Проблемы сетевого взаимодействияТребования:прозрачность сетинезависимость от аппаратного обеспеченияавтоматическая трансляция кодовнезависимость от СУБД Проблемы сетевого взаимодействияПрозрачность сети: независимость от использования сетевого аппаратного обеспечениянезависимость от протоколов Проблемы сетевого взаимодействияНезависимость от аппаратного обеспечения:необходимость согласования форматов представления данныхЗадача коммуникационного сервера Проблемы сетевого взаимодействияАвтоматическая трансляция кодов:необходимость преобразования кодов символов в соответствии с используемыми Проблемы сетевого взаимодействияНезависимость от СУБД:Все экземпляры СУБД, функционирующие на различных узлах сети, Проблемы доступа к даннымТребования:прозрачность (независимость от) расположенияпрозрачность (независимость от) фрагментации Проблемы доступа к даннымПрозрачность расположенияКоммуникаци-онная сетьБД СкладБД ПредприятиеДетальПоставщикПрикладная программаУзел 1Узел 2Узел 3Клиент Проблемы доступа к даннымИмя объекта в MS SQL Server:сервер.база_данных.пользователь.объектПрозрачный (для пользователя) доступ Проблемы доступа к даннымПрозрачность фрагментации:В системе поддерживается фрагментация данных, если некое хранимое Проблемы доступа к данным DeptID. . .EmpIDDeptID (FK). . .DepartmentEmployee Проблемы доступа к даннымПредполагается, что:все фрагменты данного отношения независимыфрагменты не должны допускать потерю информации Проблемы  распределенных СУБДЗадачи:управление именами в распределенной средеобработка распределенных запросовуправление распределенными транзакциями Проблемы  распределенных СУБДУправление именами в распределенной средеОрганизация системного каталога:Централизованный каталогПолностью тиражируемый Проблемы  распределенных СУБДУправление именами в System R*Системное имя объекта:кто_создал@где_создал.имя_объекта@где_размещен Проблемы  распределенных СУБД Коммуникаци-онная сетьОбъект STATSУзел MУзел PПользователь MaryУзел NMary@M.STATS@P Проблемы  распределенных СУБДСиноним системного имени:CREATE SYNONYM имя_синонимаFOR имя_объектаCREATE SYNONYM MSTATS FORMary@M.STATS@N Проблемы  распределенных СУБДСтруктура распределенного каталогаТаблица синонимовИнформация о локальных объектахИнформация родового узлаУзел Проблемы  распределенных СУБД Коммуникаци-онная сетьSTATSУзел XУзел PПрикладная программаУзел NSELECT *  FROM MSTAT Проблемы  распределенных СУБД Коммуникаци-онная сетьSTATSУзел XУзел PПрикладная программаУзел NSELECT *  FROM MSTAT Проблемы  распределенных СУБДОбработка распределенных запросовSELECT S.SName FROM S, P, SP WHERE Проблемы  распределенных СУБД Коммуникаци-онная сетьSУзел YУзел XSPP Проблемы  распределенных СУБДОбработка распределенных запросов (query processing) – преобразование декларативного определения Проблемы  распределенных СУБДЦентрализованные СУБДдекомпозиция запроса  оптимизация запросаРаспределенные   СУБДдекомпозиция Проблемы  распределенных СУБДДекомпозиция запроса – трансляция с языка SQL в выражение Проблемы  распределенных СУБДЛокализация данных – преобразование выражения реляционной алгебры с учетом Проблемы  распределенных СУБДУправление распределенными транзакциямиВыполнение транзакции, инициированной в некотором узле сети Проблемы  распределенных СУБДВ распределенных БД транзакция, выполнение которой заключается в обновлении Проблемы  распределенных СУБДДля глобальной транзакции – свойства АСИД.Проблемы:управление параллелизмомуправление восстановлением Проблемы  распределенных СУБДУправление параллелизмомТакже основано на механизме блокировокСвойство сериализуемости транзакций:Ни одна Проблемы  распределенных СУБДСвойство глобальной сериализуемости: Выполнение множества распределенных транзакций является сериализуемым Проблемы  распределенных СУБДМетоды блокирования:Централизованное блокирование – centralized lockingРаспределенное (децентрализованное) блокирование – distributed (decentralized) locking Проблемы  распределенных СУБДЦентрализованное блокированиеЕдиная таблица блокировок для всей распределенной БД, управляемая единым менеджером блокировокПроблемы:производительностьнадежность Проблемы  распределенных СУБДРаспределенное (децентрализованное) блокированиеУправление блокировками распределено между всеми узлами системы; Проблемы  распределенных СУБДПроблема тупиков (deadlock)Объект 1Объект 2Узел XУзел YТранзакция 1Транзакция 2ожиданиеожидание Проблемы  распределенных СУБДУправление восстановлениемТипы сбоев:программный (сбой транзакции)мягкий (сбой системы, узла; потеря Проблемы  распределенных СУБДКоммуникационные сбои:ошибки в сообщениях (сетевой протокол)нарушение упорядоченности сообщений (сетевой Проблемы  распределенных СУБДСвойства транзакции:Атомарность – протокол 2PCСогласованность ИзолированностьДолговременность – протокол распределенного восстановления Проблемы  распределенных СУБДАтомарность T = { TN, TX, TY, … } Проблемы  распределенных СУБДПротокол двухфазной фиксации – 2PC (two-phase commit)НачалотранзакцииКонецтранзакцииФаза 1Фаза 2КоординатортранзакцииУзел X Узел Y Проблемы  распределенных СУБДФаза 1 – Подготовиться к фиксации	Локальные журналы транзакций, ответФаза Проблемы  распределенных СУБДВажно:Каждый участник глобальной транзакции должен делать то, что ему Проблемы  распределенных СУБДОсобенности:Функция координатора выполняется узлом, на котором инициирована распределенная транзакция. Проблемы  распределенных СУБДПроблемы:1. Односторонний выбор участником аварийного завершенияУзел Х проголосовал за Проблемы  распределенных СУБДПроблемы:2. Блокирующий характер протокола 2PCУзел Х проголосовал за фиксацию Проблемы  распределенных СУБДПротокол восстановленияИщется запись в журнале координатора: есть – можно Проблемы  распределенных СУБДСбой координатора:до начала процедуры фиксации: начать процесс фиксации после Технология тиражирования данныхКонцепции:Отказ от распределения данныхВсе данные дублируются на каждом узле сети Технология тиражирования данныхВ системе поддерживается репликация данных (Data Replication), если заданное хранимое Технология тиражирования данныхНезависимость от репликации: пользователи, по крайней мере, с логической точки Технология тиражирования данныхПреимущества:данные всегда расположены там, где они обрабатываются;большая доступность: пока остается Технология тиражирования данныхГлавный недостаток:нарушение тождественности всех копий Требование:при обновлении некоторого реплицированного объекта Технология тиражирования данныхТиражирование данных – это асинхронный перенос изменений объектов исходной БД Технология тиражирования данныхГлавная проблема – нарушение целостности данных:При последовательном обращении к разным Технология тиражирования данныхЗадача 1 – стратегия обновления копий:синхронное обновление асинхронное обновлениеЗадача 2 Технология тиражирования данныхСтратегии доступа к даннымТолько некоторые копии доступны для обновления – Технология тиражирования данных Коммуникаци-онная сетьБДБДБДУзел первичной копии Технология тиражирования данныхКонцепция первичной копии: одновременный доступ – за счет блокировок первичной Технология тиражирования данныхВсе копии доступны для изменения – проблемы с точки зрения Технология тиражирования данныхПессимистические протоколы – предпочтение обеспечению целостности: на отдельных узлах сети Технология тиражирования данныхОптимистические протоколы – предпочтение обеспечению доступности данных: допускается независимое обновление Технология тиражирования данныхСтратегии обновления копийТиражирование обновлений:синхронноеасинхронное Технология тиражирования данныхСинхронное обновление: обновление всех копий – часть самой транзакции; используется Технология тиражирования данныхАсинхронное обновление: обновление целевых баз данных после выполнения обновлений исходной Технология тиражирования данныхКто инициирует распространение обновлений:узел, на котором выполнены измененияузел, которому нужны обновленные данные Технология тиражирования данныхРепликации в MS SQL ServerТерминология:Издатель – Publisher: сервер, который предоставляет Технология тиражирования данныхДистрибьютор – Distributor: промежуточный север, принимающий данные от издателя и распространяющий их подписчикам Технология тиражирования данныхПубликация – набор статей для обновления, принадлежащих одной базе данныхСтатья Технология тиражирования данныхФункции издателя: создание публикации отслеживание изменений, вносимых в данные подготовка публикации к тиражировнию Технология тиражирования данныхТипы репликацииТолько издатель может изменять публикациюрепликация моментальных снимковВсе могут изменять Технология тиражирования данныхРепликация моментальных снимков – Snapshot ReplicationДля тиражирования данных используются моментальные Технология тиражирования данныхПодписчики незамедлительного обновления – Immediate Updating SubscriberПодписчик, изменяя свою копию Технология тиражирования данныхРепликация сведением – Merge ReplicationСамый сложный тип репликацииНе требуется постоянное Технология тиражирования данныхНа издателе могут быть обнаружены конфликты измененийСпециальные алгоритмы разрешения конфликтов, Технология тиражирования данныхОтложенное обновление – Queue UpdatingОбновления, выполненные на подписчике, применяются на Технология тиражирования данныхПодписчик записывает информацию о выполненных изменениях в очередь; если информация Технология тиражирования данныхМетоды обновления информации на подписчиках1. Принудительная репликация – Push SubscriptionИнициатор Технология тиражирования данных2. Репликация по запросу – Pull SubscriptionИнициатор – подписчикДля каждого Хранилища данных Основные понятияСистемы оперативной обработки транзакций – Online Transaction Processing (OLTP)Системы поддержки принятия ОпределениеBill Inmon, 1993 г.Хранилище данных (Data Warehouse) – это предметно-ориентированный, интегрированный, привязанный Сравнение систем1. Характер данных Сравнение систем2. Обработка данных Сравнение систем3. Назначение системы Сравнение систем4. Пользователи Конфигурация  хранилища данных OLTP-системыисточники данныхЗагрузочная секцияХранилище данных Загрузочная секцияНазначение:устранение несогласованности, фрагментарности, дубликатов и пропусков – очистка данных (data scrubbing)обеспечение Архитектура хранилища данных ...Источники оперативныхданныхАрхив и резервные копииСредства доступаконечного пользователя Архитектура хранилища данныхМенеджер загрузки – Load Manager (LM): внешний (front-end) компонент; извлечение Архитектура хранилища данныхМенеджер хранилища – Warehouse Manager (WM): управление информацией, помещенной в Архитектура хранилища данныхМенеджер запросов – Query Manager (QM): внутренний (back-end) компонент; управление Структура хранилища данных Мета данныеДетальные данныеЧастично обобщенные данныеГлубоко обобщенные данныеизвлечение и загрузка Средства доступа к данным1. Инструменты информационной системы руководителя – Executive Information System Средства доступа к данным2. Инструменты оперативной аналитической обработки – Online Analytical Processing Средства доступа к данным3. Инструменты разработки данных – Data mining; открытие новых Витрины данныхData Mart – (магазины данных) – подмножество хранилища данных, которое поддерживает Витрины данных Хранили-ще данныхМагазин данныхархив Витрины данныхОтличие от хранилища данных:отвечает требованиям только одного из подразделений организации или Проектирование хранилища данных Схема типа «звезда» Таблица фактов12nТаблицы измерений Схема типа «звезда»Таблица фактов (fact table) – количественные значения; деловые факты, определяющие Схема типа «звезда»Таблицы измерений (dimension tables) – дескриптивные (описательные) значения; справочные данные, Схема типа «звезда»Категории измеренийТаблица фактовЛюдиВремяМестаВещи Пример проектирования Области применения ИСУправление повседневными бизнес процессами (OLTP)Поддержка принятия стратегических решений (OLAP, Data mining)Управление информационным содержанием Пример проектирования Особенности проектированияТаблица фактов: использование суррогатного ключа вычисляемые колонки (объем продаж, стоимость в Особенности проектированияТаблицы измерений: существующие таблицы OLTP базы данных (Товар, Магазин) новые измерения Особенности проектирования Технология OLAPНазначение OLAP (Online Analytical Processing) инструментов: предоставить средства извлечения большого количества Технология OLAPКритерий FASMI:Fast – время отклика: среднее ~ 5 сек; для простых Технология OLAPAnalysis – система должна справляться с любым логическим и статистическим анализом, Технология OLAPShared – широкие возможности разграничения доступа к данным и одновременной работы Многомерное представлениеАнализ изменения объема продаж и дохода торговых предприятий во времениНомер записиTid Многомерное представлениеТаблица РБД («плоская») Многомерное представлениеДвухмерное представление Многомерное представление Многомерное представлениеДостоинства многомерных структур:очень компактныобеспечивают простые средства просмотра и манипулирования элементами данных, обладающих многими взаимосвязями Многомерное представлениеДостоинства многомерных структур:легко расширяются при включении новой размерностидопускают выполнение операций матричной Многомерное представление«Типичная реляционная СУБД способна сканировать всего несколько сотен строк в секунду, Аналитические операцииКонсолидация – обобщающие операции, такие как простое суммирование значений (свертка), или Аналитические операцииНисходящий анализ (drill-down) – операция, обратная консолидации; включает возможность отображения подробных Аналитические операцииРазбиение с поворотом (slicing and dicing) – также называется созданием сводной Аналитические операцииПредварительное обобщение, использование иерархической структуры размерностей и управление заполнением пространства кубов Правила для OLAP системE. Codd, 1993 г.Многомерное концептуальное представление данныхДоступность (доступ к Правила для OLAP системНеограниченные перекрестные операции между размерностямиНеограниченное число измерений и уровней обобщенияГибкость средств формирования отчетов Категории OLAP инструментовBerson and Smith, 1997 г.Многомерные OLAP инструменты – Multidimensional OLAP, Многомерный OLAPСпециализированные структуры данных и многомерные СУБДДанные обобщаются и хранятся в соответствии Многомерный OLAP Источники данныхМногомер-ныекубызагрузказапросрезультатЛогический уровеньбазы данных и приложенияУровеньотображения Многомерный OLAPОсобенности:Используемые структуры данных обладают ограниченной способностью поддержки нескольких предметных областей и Многомерный OLAPПросмотр и анализ данных ограничен процессом проектирования структуры данных в соответствии Реляционный OLAPВзаимодействие с СУБД – уровень метаданныхНет необходимости создания статичной многомерной структуры Реляционный OLAP Источники данныхрезультатзапросрезультатУровень базы данныхУровеньотображения Уровень логики приложенияSQLСервер ROLAP Реляционный OLAPОсобенности:Необходима разработка промежуточного ПО для многомерных приложений (преобразование отношений РБД в многомерную структуру) Реляционный OLAPТребуется разработка инструментов, предназначенных для создания устойчивых многомерных структур со вспомогательными компонентами администрирования этих структур Дополнительные возможности SQLПредложение SELECT:SELECT . . .  FROM . . .GROUP Дополнительные возможности SQLПример:SELECT . . . WITH CUBE  |  WITH ROLLUP Дополнительные возможности SQLПример:SELECT  SName, PName, sum(qty) as sumFROM  S join Дополнительные возможности SQL Дополнительные возможности SQLПример:SELECT  SName, PName, sum(qty) as sumFROM  S join Дополнительные возможности SQL Дополнительные возможности SQL Дополнительные возможности SQLПример:SELECT  SName, PName, sum(qty) as sumFROM  S join Дополнительные возможности SQL Дополнительные возможности SQL Платформа EMC Documentum Области применения ИСУправление повседневными бизнес процессами (OLTP) Области применения ИСПоддержка принятия стратегических решений (OLAP, Data mining) Области применения ИСEnterprise Content Management (ECM) – стратегии, методы и инструментальные средства, Информационное содержаниеИнформационное содержание (контент) – информационные объекты, хранящиеся в различных форматах, которые Управление контентомСоздание и сохранение документовОбработка документов – поиск, управление версиями, . . Управление контентомСистемы управления контентом (CMS, Content Management System) – управление неструктурированными данными Управление контентомРепозиторий – управляемый блок хранения контента и метаданныхИнфраструктура репозиторияКомпоненты репозиторияСервисы репозиторияСервисы безопасности Компоненты репозиторияметаданныеПолнотекстовый индексСервисы каталогов Сервисы репозиторияОбъектная модель даннымУправление связями объектовСловарь данныхСервисы храненияПоиск / запросыЖизненный циклРаспределенные / федеративные сервисы Сервисы безопасностиУправление доступомУправление правамиРазрешенияАудитШифрование Управление процессамиWorkflow – представляет бизнес процессы и приложения, ориентированные на события. Может WorkflowБизнес процесс – набор связанных действий, которые создают некоторый результат, преобразуя исходные WorkflowОписание процессаЗадача (activity) Исполнитель (performer)Поток информации (flow)Конкретное выполнение работ – процесс (workflow)начало Lifecycle Строго последовательное переключение состоянийСостояния жизненного циклаСтартовое – создание документа, ввод содержимогоПромежуточные ПримерWorkflowLifecycleсогласо-ваниесогласо-ваниесогласо-ваниесогласо-ваниесозданиеархивчер-но-виксогла-сованакти-венотме-нен
Слайды презентации

Слайд 2 Общая характеристика
- Технология
распределенных БД
Distributed Database
- Технология

Общая характеристика 						- Технология 						распределенных БД						Distributed Database						- Технология 						тиражирования 						данных 						Data ReplicationКоммуникаци-онная сетьБДБДБД


тиражирования данных
Data Replication
Коммуникаци-онная сеть
БД
БД
БД


Слайд 3 Общая характеристика
Системы распределенных баз данных – набор узлов,

Общая характеристикаСистемы распределенных баз данных – набор узлов, связанных вместе коммуникационной

связанных вместе коммуникационной сетью:
каждый узел обладает своими собственными системами

баз данных;
узлы работают согласованно, предоставляя доступ к данным на любом узле сети.

Слайд 4 Общая характеристика
Распределенная БД – тип виртуального объекта
На каждом

Общая характеристикаРаспределенная БД – тип виртуального объектаНа каждом узле:собственные базы данных

узле:
собственные базы данных
собственные локальные пользователи
собственные СУБД и

средства управления транзакциями

Слайд 5 Общая характеристика
Два вида систем распределенных БД:
однородные
неоднородные
Фундаментальный принцип

Общая характеристикаДва вида систем распределенных БД:однородныенеоднородные Фундаментальный принцип системы распределенных БД:Для

системы распределенных БД:
Для пользователя система распределенных БД должна выглядеть

точно так же, как нераспределенная система

Слайд 6 Общая характеристика
Проблемы сетевого взаимодействия
Проблемы доступа к данным
Проблемы распределенных

Общая характеристикаПроблемы сетевого взаимодействияПроблемы доступа к даннымПроблемы распределенных СУБДПроблемы тиражирования (репликации) данныхПроблемы неоднородных систем

СУБД
Проблемы тиражирования (репликации) данных
Проблемы неоднородных систем


Слайд 7 Проблемы сетевого взаимодействия

Клиент
Сервер
Локальный узел
Удаленный узел
Программа связи
Client Net
Коммуникационный

Проблемы сетевого взаимодействия КлиентСерверЛокальный узелУдаленный узелПрограмма связиClient NetКоммуникационный сервер Server NetСетевые компоненты СУБД


сервер Server Net
Сетевые компоненты СУБД


Слайд 8 Проблемы сетевого взаимодействия
Требования:
прозрачность сети
независимость от аппаратного обеспечения
автоматическая трансляция

Проблемы сетевого взаимодействияТребования:прозрачность сетинезависимость от аппаратного обеспеченияавтоматическая трансляция кодовнезависимость от СУБД

кодов
независимость от СУБД


Слайд 9 Проблемы сетевого взаимодействия
Прозрачность сети:
независимость от использования сетевого

Проблемы сетевого взаимодействияПрозрачность сети: независимость от использования сетевого аппаратного обеспечениянезависимость от

аппаратного обеспечения
независимость от протоколов сетевого обмена
Коммуникационный сервер должен поддерживать

как можно более широкий диапазон сетевых протоколов

Слайд 10 Проблемы сетевого взаимодействия
Независимость от аппаратного обеспечения:
необходимость согласования форматов

Проблемы сетевого взаимодействияНезависимость от аппаратного обеспечения:необходимость согласования форматов представления данныхЗадача коммуникационного

представления данных
Задача коммуникационного сервера – на уровне обмена данными

обеспечить согласование их форматов между удаленными и локальными узлами

Слайд 11 Проблемы сетевого взаимодействия
Автоматическая трансляция кодов:
необходимость преобразования кодов символов

Проблемы сетевого взаимодействияАвтоматическая трансляция кодов:необходимость преобразования кодов символов в соответствии с

в соответствии с используемыми таблицами кодов (ASCII, EBCDIC)
Коммуникационный сервер

должен решать проблему трансляции кодов для каждой взаимодействующей пары

Слайд 12 Проблемы сетевого взаимодействия
Независимость от СУБД:
Все экземпляры СУБД, функционирующие

Проблемы сетевого взаимодействияНезависимость от СУБД:Все экземпляры СУБД, функционирующие на различных узлах

на различных узлах сети, должны поддерживать один и тот

же интерфейс


Слайд 13 Проблемы доступа к данным
Требования:
прозрачность (независимость от) расположения
прозрачность (независимость

Проблемы доступа к даннымТребования:прозрачность (независимость от) расположенияпрозрачность (независимость от) фрагментации

от) фрагментации


Слайд 14 Проблемы доступа к данным
Прозрачность расположения

Коммуникаци-онная сеть
БД Склад
БД Предприятие
Деталь
Поставщик
Прикладная

Проблемы доступа к даннымПрозрачность расположенияКоммуникаци-онная сетьБД СкладБД ПредприятиеДетальПоставщикПрикладная программаУзел 1Узел 2Узел 3Клиент

программа
Узел 1
Узел 2
Узел 3
Клиент


Слайд 15 Проблемы доступа к данным
Имя объекта в MS SQL

Проблемы доступа к даннымИмя объекта в MS SQL Server:сервер.база_данных.пользователь.объектПрозрачный (для пользователя)

Server:
сервер.база_данных.пользователь.объект

Прозрачный (для пользователя) доступ к удаленным данным предполагает использование

в прикладных программах такого интерфейса с сервером БД, который позволяет переносить данные в сети с одного узла на другой, не требуя при этом модификации текста прикладной программы

Слайд 16 Проблемы доступа к данным
Прозрачность фрагментации:
В системе поддерживается фрагментация

Проблемы доступа к даннымПрозрачность фрагментации:В системе поддерживается фрагментация данных, если некое

данных, если некое хранимое отношение в целях физического хранения

можно разделить на части, или фрагменты, хранимые на разных узлах сети

Слайд 17 Проблемы доступа к данным

DeptID
. . .
EmpID
DeptID (FK)
.

Проблемы доступа к данным DeptID. . .EmpIDDeptID (FK). . .DepartmentEmployee

. .
Department
Employee


Слайд 18 Проблемы доступа к данным
Предполагается, что:
все фрагменты данного отношения

Проблемы доступа к даннымПредполагается, что:все фрагменты данного отношения независимыфрагменты не должны допускать потерю информации

независимы
фрагменты не должны допускать потерю информации


Слайд 19 Проблемы распределенных СУБД
Задачи:
управление именами в распределенной среде
обработка распределенных

Проблемы распределенных СУБДЗадачи:управление именами в распределенной средеобработка распределенных запросовуправление распределенными транзакциями

запросов
управление распределенными транзакциями


Слайд 20 Проблемы распределенных СУБД
Управление именами в распределенной среде
Организация системного

Проблемы распределенных СУБДУправление именами в распределенной средеОрганизация системного каталога:Централизованный каталогПолностью тиражируемый

каталога:
Централизованный каталог
Полностью тиражируемый (реплицированный) каталог
Секционированный (локальный) каталог
1 + 3
.

. .

Слайд 21 Проблемы распределенных СУБД
Управление именами в System R*
Системное имя

Проблемы распределенных СУБДУправление именами в System R*Системное имя объекта:кто_создал@где_создал.имя_объекта@где_размещен

объекта:

кто_создал@где_создал.имя_объекта@где_размещен



Слайд 22 Проблемы распределенных СУБД

Коммуникаци-онная сеть
Объект STATS
Узел M
Узел P
Пользователь

Проблемы распределенных СУБД Коммуникаци-онная сетьОбъект STATSУзел MУзел PПользователь MaryУзел NMary@M.STATS@P

Mary
Узел N
Mary@M.STATS@P


Слайд 23 Проблемы распределенных СУБД
Синоним системного имени:
CREATE SYNONYM имя_синонима
FOR имя_объекта

CREATE

Проблемы распределенных СУБДСиноним системного имени:CREATE SYNONYM имя_синонимаFOR имя_объектаCREATE SYNONYM MSTATS FORMary@M.STATS@N

SYNONYM MSTATS FOR
Mary@M.STATS@N


Слайд 24 Проблемы распределенных СУБД
Структура распределенного каталога

Таблица синонимов
Информация о локальных

Проблемы распределенных СУБДСтруктура распределенного каталогаТаблица синонимовИнформация о локальных объектахИнформация родового узлаУзел

объектах
Информация родового узла
Узел P
Таблица синонимов
Информация о локальных объектах
Информация родового

узла

Узел N


Слайд 25 Проблемы распределенных СУБД


Коммуникаци-онная сеть
STATS
Узел X
Узел P
Прикладная

Проблемы распределенных СУБД Коммуникаци-онная сетьSTATSУзел XУзел PПрикладная программаУзел NSELECT * FROM MSTAT

программа
Узел N
SELECT * FROM MSTAT


Слайд 26 Проблемы распределенных СУБД

Коммуникаци-онная сеть
STATS
Узел X
Узел P
Прикладная программа
Узел

Проблемы распределенных СУБД Коммуникаци-онная сетьSTATSУзел XУзел PПрикладная программаУзел NSELECT * FROM MSTAT

N
SELECT * FROM MSTAT


Слайд 27 Проблемы распределенных СУБД
Обработка распределенных запросов





SELECT S.SName FROM S,

Проблемы распределенных СУБДОбработка распределенных запросовSELECT S.SName FROM S, P, SP WHERE

P, SP WHERE (S.Address = 'NNN' AND S.SId =

SP.SId AND SP.PId = P.PId AND P.Mat = 'MMM')

SId

SName
Address
. . .

S

PId

PName
Mat
Qty
. . .

P

SPId

SId (FK1)
PId (FK2)
Qty
. . .

SP


Слайд 28 Проблемы распределенных СУБД

Коммуникаци-онная сеть
S
Узел Y
Узел X
SP
P

Проблемы распределенных СУБД Коммуникаци-онная сетьSУзел YУзел XSPP

Слайд 29 Проблемы распределенных СУБД
Обработка распределенных запросов (query processing) –

Проблемы распределенных СУБДОбработка распределенных запросов (query processing) – преобразование декларативного определения

преобразование декларативного определения запроса в операции манипулирования данными низкого

уровня

Слайд 30 Проблемы распределенных СУБД
Централизованные СУБД
декомпозиция запроса


оптимизация запроса
Распределенные

Проблемы распределенных СУБДЦентрализованные СУБДдекомпозиция запроса оптимизация запросаРаспределенные  СУБДдекомпозиция запросалокализация данныхглобальная оптимизация запросаоптимизация запроса

СУБД
декомпозиция запроса
локализация данных
глобальная оптимизация запроса
оптимизация запроса


Слайд 31 Проблемы распределенных СУБД
Декомпозиция запроса – трансляция с языка

Проблемы распределенных СУБДДекомпозиция запроса – трансляция с языка SQL в выражение

SQL в выражение реляционной алгебры
Оптимизация запроса – выбор «наилучшей»

стратегии выполнения запроса из множества альтернатив (минимальная сумма затрат, необходимых для выполнения запроса)

Слайд 32 Проблемы распределенных СУБД
Локализация данных – преобразование выражения реляционной

Проблемы распределенных СУБДЛокализация данных – преобразование выражения реляционной алгебры с учетом

алгебры с учетом физического размещения данных
Глобальная оптимизация – поиск

наилучшей стратегии выполнения запроса с учетом коммуникационных операций пересылки данных

Слайд 33 Проблемы распределенных СУБД
Управление распределенными транзакциями
Выполнение транзакции, инициированной в

Проблемы распределенных СУБДУправление распределенными транзакциямиВыполнение транзакции, инициированной в некотором узле сети

некотором узле сети N, влечет инициирование транзакции и в

других узлах:
T = { TN, TX, TY, … }

Слайд 34 Проблемы распределенных СУБД
В распределенных БД транзакция, выполнение которой

Проблемы распределенных СУБДВ распределенных БД транзакция, выполнение которой заключается в обновлении

заключается в обновлении данных на нескольких узлах сети, называется

глобальной, или распределенной транзакцией.
Глобальная транзакция состоит из нескольких агентов, или локальных транзакций.

Слайд 35 Проблемы распределенных СУБД
Для глобальной транзакции – свойства АСИД.
Проблемы:
управление

Проблемы распределенных СУБДДля глобальной транзакции – свойства АСИД.Проблемы:управление параллелизмомуправление восстановлением

параллелизмом
управление восстановлением


Слайд 36 Проблемы распределенных СУБД
Управление параллелизмом
Также основано на механизме блокировок
Свойство

Проблемы распределенных СУБДУправление параллелизмомТакже основано на механизме блокировокСвойство сериализуемости транзакций:Ни одна

сериализуемости транзакций:
Ни одна блокировка от имени какой-либо транзакции не

должна устанавливаться после снятия хотя бы одной ранее установленной блокировки

Слайд 37 Проблемы распределенных СУБД
Свойство глобальной сериализуемости: Выполнение множества распределенных

Проблемы распределенных СУБДСвойство глобальной сериализуемости: Выполнение множества распределенных транзакций является сериализуемым

транзакций является сериализуемым тогда и только тогда, когда:
выполнение

этого множества транзакций является сериализуемым на каждом узле,
порядок сериализации этих транзакций на всех узлах один и тот же

Слайд 38 Проблемы распределенных СУБД
Методы блокирования:
Централизованное блокирование – centralized locking
Распределенное

Проблемы распределенных СУБДМетоды блокирования:Централизованное блокирование – centralized lockingРаспределенное (децентрализованное) блокирование – distributed (decentralized) locking

(децентрализованное) блокирование – distributed (decentralized) locking


Слайд 39 Проблемы распределенных СУБД
Централизованное блокирование
Единая таблица блокировок для всей

Проблемы распределенных СУБДЦентрализованное блокированиеЕдиная таблица блокировок для всей распределенной БД, управляемая единым менеджером блокировокПроблемы:производительностьнадежность

распределенной БД, управляемая единым менеджером блокировок
Проблемы:
производительность
надежность


Слайд 40 Проблемы распределенных СУБД
Распределенное (децентрализованное) блокирование
Управление блокировками распределено между

Проблемы распределенных СУБДРаспределенное (децентрализованное) блокированиеУправление блокировками распределено между всеми узлами системы;

всеми узлами системы; взаимная координация менеджеров блокировок
Проблемы:
более сложные алгоритмы
выше

коммуникационные затраты

Слайд 41 Проблемы распределенных СУБД
Проблема тупиков (deadlock)
Объект 1
Объект 2
Узел X
Узел

Проблемы распределенных СУБДПроблема тупиков (deadlock)Объект 1Объект 2Узел XУзел YТранзакция 1Транзакция 2ожиданиеожидание

Y
Транзакция 1
Транзакция 2
ожидание
ожидание


Слайд 42 Проблемы распределенных СУБД
Управление восстановлением
Типы сбоев:
программный (сбой транзакции)
мягкий (сбой

Проблемы распределенных СУБДУправление восстановлениемТипы сбоев:программный (сбой транзакции)мягкий (сбой системы, узла; потеря

системы, узла; потеря данных в оперативной памяти)
жесткий (сбой носителей;

потеря данных во внешней памяти)
коммуникационные сбои

Слайд 43 Проблемы распределенных СУБД
Коммуникационные сбои:
ошибки в сообщениях (сетевой протокол)
нарушение

Проблемы распределенных СУБДКоммуникационные сбои:ошибки в сообщениях (сетевой протокол)нарушение упорядоченности сообщений (сетевой

упорядоченности сообщений (сетевой протокол)
потерянные (не доставленные) сообщения (СУБД)
повреждение линий

связи (СУБД)

Слайд 44 Проблемы распределенных СУБД
Свойства транзакции:
Атомарность – протокол 2PC
Согласованность
Изолированность
Долговременность

Проблемы распределенных СУБДСвойства транзакции:Атомарность – протокол 2PCСогласованность ИзолированностьДолговременность – протокол распределенного восстановления

– протокол распределенного восстановления


Слайд 45 Проблемы распределенных СУБД
Атомарность
T = { TN, TX,

Проблемы распределенных СУБДАтомарность T = { TN, TX, TY, … }

TY, … }
commit – должны быть зафиксированы изменения

для всех локальных транзакций
rollback – должны быть аннулированы изменения для всех локальных транзакций
Журнал распределенной транзакции

Слайд 46 Проблемы распределенных СУБД





Протокол двухфазной фиксации – 2PC (two-phase

Проблемы распределенных СУБДПротокол двухфазной фиксации – 2PC (two-phase commit)НачалотранзакцииКонецтранзакцииФаза 1Фаза 2КоординатортранзакцииУзел X Узел Y

commit)

Начало
транзакции
Конец
транзакции
Фаза 1
Фаза 2
Координатор
транзакции
Узел X
Узел Y


Слайд 47 Проблемы распределенных СУБД
Фаза 1 – Подготовиться к фиксации
Локальные

Проблемы распределенных СУБДФаза 1 – Подготовиться к фиксации	Локальные журналы транзакций, ответФаза

журналы транзакций, ответ
Фаза 2 – Принятие решения
Глобальный журнал транзакции,

фиксация решения, информирование участников

Слайд 48 Проблемы распределенных СУБД
Важно:
Каждый участник глобальной транзакции должен делать

Проблемы распределенных СУБДВажно:Каждый участник глобальной транзакции должен делать то, что ему

то, что ему предписано координатором во время фазы 2
Именно

появление записи решения в журнале координатора отмечает переход с фазы 1 на фазу 2.


Слайд 49 Проблемы распределенных СУБД
Особенности:
Функция координатора выполняется узлом, на котором

Проблемы распределенных СУБДОсобенности:Функция координатора выполняется узлом, на котором инициирована распределенная транзакция.

инициирована распределенная транзакция.
Координатор должен обмениваться данными с каждым

узлом-участником.
Локальные узлы – участники процесса двухфазной фиксации должны выполнять любые действия, предписанные координатором, и теряют локальную автономность.


Слайд 50 Проблемы распределенных СУБД
Проблемы:
1. Односторонний выбор участником аварийного завершения
Узел

Проблемы распределенных СУБДПроблемы:1. Односторонний выбор участником аварийного завершенияУзел Х проголосовал за

Х проголосовал за откат транзакции – не ожидает ответа

от координатора

Слайд 51 Проблемы распределенных СУБД
Проблемы:
2. Блокирующий характер протокола 2PC
Узел Х

Проблемы распределенных СУБДПроблемы:2. Блокирующий характер протокола 2PCУзел Х проголосовал за фиксацию

проголосовал за фиксацию транзакции; ожидает ответа от координатора –

сбой на линии связи

Слайд 52 Проблемы распределенных СУБД
Протокол восстановления
Ищется запись в журнале координатора:

Проблемы распределенных СУБДПротокол восстановленияИщется запись в журнале координатора: есть – можно

есть – можно восстановить, нет – откат
Потеря связи с

локальным узлом:
во время фазы 1 – откат транзакции
во время фазы 2 – попытки завершить транзакцию, пока связь не будет восстановлена

Слайд 53 Проблемы распределенных СУБД
Сбой координатора:
до начала процедуры фиксации: начать

Проблемы распределенных СУБДСбой координатора:до начала процедуры фиксации: начать процесс фиксации после

процесс фиксации после восстановления
координатор в состоянии готовности (фаза

1): перезапустить процедуру фиксации после восстановления
после принятия решения (фаза 2): никаких действий

Слайд 54 Технология тиражирования данных
Концепции:
Отказ от распределения данных
Все данные дублируются

Технология тиражирования данныхКонцепции:Отказ от распределения данныхВсе данные дублируются на каждом узле

на каждом узле сети (где они обрабатываются)
Транзакции в системе

выполняются и завершаются локально

Слайд 55 Технология тиражирования данных
В системе поддерживается репликация данных (Data

Технология тиражирования данныхВ системе поддерживается репликация данных (Data Replication), если заданное

Replication), если заданное хранимое отношение или заданный фрагмент могут

быть представлены несколькими разными копиями, или репликами, хранимыми на разных узлах сети

Слайд 56 Технология тиражирования данных
Независимость от репликации: пользователи, по крайней

Технология тиражирования данныхНезависимость от репликации: пользователи, по крайней мере, с логической

мере, с логической точки зрения, должны работать таком режиме,

как будто данные не реплицированы вовсе.

Слайд 57 Технология тиражирования данных
Преимущества:
данные всегда расположены там, где они

Технология тиражирования данныхПреимущества:данные всегда расположены там, где они обрабатываются;большая доступность: пока

обрабатываются;
большая доступность: пока остается доступной хотя бы одна реплика;
большая

надежность хранения данных: всегда можно восстановить целостное состояние БД, если существует хотя бы одна ее реплика на каком-либо узле сети.


Слайд 58 Технология тиражирования данных
Главный недостаток:
нарушение тождественности всех копий
Требование:
при

Технология тиражирования данныхГлавный недостаток:нарушение тождественности всех копий Требование:при обновлении некоторого реплицированного

обновлении некоторого реплицированного объекта все копии этого объекта также

должны обновляться (проблема тиражирования обновлений).

Слайд 59 Технология тиражирования данных
Тиражирование данных – это асинхронный перенос

Технология тиражирования данныхТиражирование данных – это асинхронный перенос изменений объектов исходной

изменений объектов исходной БД в принимающие БД, принадлежащие различным

узлам распределенной системы
В составе СУБД – сервер тиражирования данных (репликатор)


Слайд 60 Технология тиражирования данных
Главная проблема – нарушение целостности данных:
При

Технология тиражирования данныхГлавная проблема – нарушение целостности данных:При последовательном обращении к

последовательном обращении к разным копиям – когда передавать информацию

об изменениях?
При параллельном обращении – нужно ли (и как) запрещать доступ к данным со стороны других пользователей?

Слайд 61 Технология тиражирования данных
Задача 1 – стратегия обновления копий:
синхронное

Технология тиражирования данныхЗадача 1 – стратегия обновления копий:синхронное обновление асинхронное обновлениеЗадача

обновление
асинхронное обновление
Задача 2 – стратегия доступа к данным:
все

копии доступны для обновления
только некоторые копии доступны для обновления

Слайд 62 Технология тиражирования данных
Стратегии доступа к данным
Только некоторые копии

Технология тиражирования данныхСтратегии доступа к даннымТолько некоторые копии доступны для обновления

доступны для обновления – концепция первичной копии:
изменения выполняются только

на узле, выделенном для первичной копии
на остальных узлах – только чтение данных
за тиражирование изменений отвечает узел первичной копии

Слайд 63 Технология тиражирования данных

Коммуникаци-онная сеть
БД
БД
БД
Узел первичной копии

Технология тиражирования данных Коммуникаци-онная сетьБДБДБДУзел первичной копии

Слайд 64 Технология тиражирования данных
Концепция первичной копии: одновременный доступ –

Технология тиражирования данныхКонцепция первичной копии: одновременный доступ – за счет блокировок

за счет блокировок первичной копии
Используется:
в системах поддержки принятия решений
в

системах поддержки мобильных пользователей

Слайд 65 Технология тиражирования данных
Все копии доступны для изменения –

Технология тиражирования данныхВсе копии доступны для изменения – проблемы с точки

проблемы с точки зрения синхронизации обновлений:
обеспечение целостности данных
обеспечение доступности

данных
Оптимистические и пессимистические протоколы управления транзакциями


Слайд 66 Технология тиражирования данных
Пессимистические протоколы – предпочтение обеспечению целостности:

Технология тиражирования данныхПессимистические протоколы – предпочтение обеспечению целостности: на отдельных узлах

на отдельных узлах сети не допускается выполнение любых транзакций,

для которых не существует гарантии не нарушения целостности базы данных
Алгоритмы управления параллелизмом:
метод 2PC
метод распределенных блокировок


Слайд 67 Технология тиражирования данных
Оптимистические протоколы – предпочтение обеспечению доступности

Технология тиражирования данныхОптимистические протоколы – предпочтение обеспечению доступности данных: допускается независимое

данных: допускается независимое обновление данных в каждой копии, даже

если после объединения всех изменений вероятен переход базы данных в несогласованное состояние

Слайд 68 Технология тиражирования данных
Стратегии обновления копий
Тиражирование обновлений:
синхронное
асинхронное

Технология тиражирования данныхСтратегии обновления копийТиражирование обновлений:синхронноеасинхронное

Слайд 69 Технология тиражирования данных
Синхронное обновление: обновление всех копий –

Технология тиражирования данныхСинхронное обновление: обновление всех копий – часть самой транзакции;

часть самой транзакции; используется протокол 2PC, но по сети

передаются только изменения данных
Недостатки:
транзакция не может быть завершена, если один из узлов недоступен
дополнительная нагрузка на сеть

Слайд 70 Технология тиражирования данных
Асинхронное обновление: обновление целевых баз данных

Технология тиражирования данныхАсинхронное обновление: обновление целевых баз данных после выполнения обновлений

после выполнения обновлений исходной базы данных.
Задержка – от нескольких

секунд до нескольких часов и даже дней
Гарантируется, что в какой-то момент времени данные во всех копиях будут синхронизированы

Слайд 71 Технология тиражирования данных
Кто инициирует распространение обновлений:
узел, на котором

Технология тиражирования данныхКто инициирует распространение обновлений:узел, на котором выполнены измененияузел, которому нужны обновленные данные

выполнены изменения
узел, которому нужны обновленные данные


Слайд 72 Технология тиражирования данных
Репликации в MS SQL Server
Терминология:
Издатель –

Технология тиражирования данныхРепликации в MS SQL ServerТерминология:Издатель – Publisher: сервер, который

Publisher: сервер, который предоставляет информацию из своих баз данных

другим серверам
Подписчик – Subscriber: сервер, копирующий информацию от издателя

Слайд 73 Технология тиражирования данных
Дистрибьютор – Distributor: промежуточный север, принимающий

Технология тиражирования данныхДистрибьютор – Distributor: промежуточный север, принимающий данные от издателя и распространяющий их подписчикам

данные от издателя и распространяющий их подписчикам


Слайд 74 Технология тиражирования данных
Публикация – набор статей для обновления,

Технология тиражирования данныхПубликация – набор статей для обновления, принадлежащих одной базе

принадлежащих одной базе данных
Статья – минимальный набор данных, рассматриваемый

системой репликации как одно целое (обычно – таблица базы данных)


Слайд 75 Технология тиражирования данных
Функции издателя:
создание публикации
отслеживание изменений,

Технология тиражирования данныхФункции издателя: создание публикации отслеживание изменений, вносимых в данные подготовка публикации к тиражировнию

вносимых в данные
подготовка публикации к тиражировнию


Слайд 76 Технология тиражирования данных
Типы репликации
Только издатель может изменять публикацию
репликация

Технология тиражирования данныхТипы репликацииТолько издатель может изменять публикациюрепликация моментальных снимковВсе могут

моментальных снимков
Все могут изменять публикацию
подписчики незамедлительного обновления
репликация сведением
отложенные обновления


Слайд 77 Технология тиражирования данных
Репликация моментальных снимков – Snapshot Replication
Для

Технология тиражирования данныхРепликация моментальных снимков – Snapshot ReplicationДля тиражирования данных используются

тиражирования данных используются моментальные снимки – полная копия публикации,

сохраняемая в специальном файле

Слайд 78 Технология тиражирования данных
Подписчики незамедлительного обновления – Immediate Updating

Технология тиражирования данныхПодписчики незамедлительного обновления – Immediate Updating SubscriberПодписчик, изменяя свою

Subscriber
Подписчик, изменяя свою копию данных, одновременно должен выполнить изменение

данных на издателе
Нет конфликтов изменения данных
Постоянное соединение между подписчиком и издателем

Слайд 79 Технология тиражирования данных
Репликация сведением – Merge Replication
Самый сложный

Технология тиражирования данныхРепликация сведением – Merge ReplicationСамый сложный тип репликацииНе требуется

тип репликации
Не требуется постоянное соединение подписчика с издателем
Подписчики работают

автономно, накапливая изменения данных
На издателе объединяются все изменения данных


Слайд 80 Технология тиражирования данных
На издателе могут быть обнаружены конфликты

Технология тиражирования данныхНа издателе могут быть обнаружены конфликты измененийСпециальные алгоритмы разрешения

изменений
Специальные алгоритмы разрешения конфликтов, в основе которых – «шкала

приоритетов»

Слайд 81 Технология тиражирования данных
Отложенное обновление – Queue Updating
Обновления, выполненные

Технология тиражирования данныхОтложенное обновление – Queue UpdatingОбновления, выполненные на подписчике, применяются

на подписчике, применяются на издателе с некоторой задержкой
Постоянное соединение

с издателем отсутствует
Соединение периодически устанавливается

Слайд 82 Технология тиражирования данных
Подписчик записывает информацию о выполненных изменениях

Технология тиражирования данныхПодписчик записывает информацию о выполненных изменениях в очередь; если

в очередь; если информация об изменениях не может быть

записана в очередь – изменения не фиксируются
Запомненные в очереди данные переносятся на издатель
Также возможны конфликты изменений

Слайд 83 Технология тиражирования данных
Методы обновления информации на подписчиках
1. Принудительная

Технология тиражирования данныхМетоды обновления информации на подписчиках1. Принудительная репликация – Push

репликация – Push Subscription
Инициатор – издатель
Требуется постоянное соединение
Интервалы обновления

подписчиков устанавливаются на дистрибьюторе


Слайд 84 Технология тиражирования данных
2. Репликация по запросу – Pull

Технология тиражирования данных2. Репликация по запросу – Pull SubscriptionИнициатор – подписчикДля

Subscription
Инициатор – подписчик
Для каждого подписчика на дистрибьюторе – свой

набор данных, отражающий изменения
Не требуется постоянное соединение

Слайд 85 Хранилища данных

Хранилища данных

Слайд 86 Основные понятия
Системы оперативной обработки транзакций – Online Transaction

Основные понятияСистемы оперативной обработки транзакций – Online Transaction Processing (OLTP)Системы поддержки

Processing (OLTP)
Системы поддержки принятия решений – Decision Support System

(DSS)
Усовершенствованная технология баз данных:
специальные средства управления процессом хранения информации
мощные инструменты анализа накопленных данных

Слайд 87 Определение
Bill Inmon, 1993 г.
Хранилище данных (Data Warehouse) –

ОпределениеBill Inmon, 1993 г.Хранилище данных (Data Warehouse) – это предметно-ориентированный, интегрированный,

это предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор

данных, предназначенный для поддержки принятия решений

Слайд 88 Сравнение систем
1. Характер данных

Сравнение систем1. Характер данных

Слайд 89 Сравнение систем
2. Обработка данных

Сравнение систем2. Обработка данных

Слайд 90 Сравнение систем
3. Назначение системы

Сравнение систем3. Назначение системы

Слайд 91 Сравнение систем
4. Пользователи

Сравнение систем4. Пользователи

Слайд 92 Конфигурация хранилища данных

OLTP-системы
источники данных
Загрузочная секция
Хранилище данных

Конфигурация хранилища данных OLTP-системыисточники данныхЗагрузочная секцияХранилище данных

Слайд 93 Загрузочная секция
Назначение:
устранение несогласованности, фрагментарности, дубликатов и пропусков –

Загрузочная секцияНазначение:устранение несогласованности, фрагментарности, дубликатов и пропусков – очистка данных (data

очистка данных (data scrubbing)
обеспечение совместимости данных с другими источниками

– расслоение (slicing) и расщепление (dicing) данных

Слайд 94 Архитектура хранилища данных

.
.
.
Источники
оперативных
данных
Архив и
резервные копии
Средства

Архитектура хранилища данных ...Источники оперативныхданныхАрхив и резервные копииСредства доступаконечного пользователя


доступа
конечного
пользователя


Слайд 95 Архитектура хранилища данных
Менеджер загрузки – Load Manager (LM):

Архитектура хранилища данныхМенеджер загрузки – Load Manager (LM): внешний (front-end) компонент;

внешний (front-end) компонент; извлечение данных, загрузка данных в хранилище
инструменты

репликации информации
генераторы кода
механизмы динамического преобразования


Слайд 96 Архитектура хранилища данных
Менеджер хранилища – Warehouse Manager (WM):

Архитектура хранилища данныхМенеджер хранилища – Warehouse Manager (WM): управление информацией, помещенной

управление информацией, помещенной в хранилище данных
анализ непротиворечивости данных
создание необходимых

индексов
денормализация
обобщение
резервное копирование

Слайд 97 Архитектура хранилища данных
Менеджер запросов – Query Manager (QM):

Архитектура хранилища данныхМенеджер запросов – Query Manager (QM): внутренний (back-end) компонент;

внутренний (back-end) компонент; управление запросами пользователей. Создается на базе

предоставляемых СУБД инструментов доступа к данным и инструментов мониторинга хранилища


Слайд 98 Структура хранилища данных

Мета данные
Детальные данные
Частично обобщенные данные
Глубоко

Структура хранилища данных Мета данныеДетальные данныеЧастично обобщенные данныеГлубоко обобщенные данныеизвлечение и

обобщенные данные
извлечение и загрузка данных
обслуживание хранилища
обслуживание запросов
Постоянные данные
Временные данные


Слайд 99 Средства доступа к данным
1. Инструменты информационной системы руководителя

Средства доступа к данным1. Инструменты информационной системы руководителя – Executive Information

– Executive Information System (EIS; сейчас – Everybody Information

System); предоставление поддержки управляющему персоналу всех уровней.
Предопределенный набор сценариев обработки данных и составления отчетов
Express Analyzer фирмы Oracle

Слайд 100 Средства доступа к данным
2. Инструменты оперативной аналитической обработки

Средства доступа к данным2. Инструменты оперативной аналитической обработки – Online Analytical

– Online Analytical Processing (OLAP); оценка эффективности деятельности предприятия,

предсказание объемов продаж и планирование товарных запасов.
Построение и выполнение нерегламентированных запросов
Express Server фирмы Oracle

Слайд 101 Средства доступа к данным
3. Инструменты разработки данных –

Средства доступа к данным3. Инструменты разработки данных – Data mining; открытие

Data mining; открытие новых осмысленных корреляций, распределений и тенденций,

создание предсказательных, а не ретроспективных моделей.
Создание предсказательных моделей
Intelligent Miner фирмы IBM

Слайд 102 Витрины данных
Data Mart – (магазины данных) – подмножество

Витрины данныхData Mart – (магазины данных) – подмножество хранилища данных, которое

хранилища данных, которое поддерживает требования отдельного подразделения или деловой

сферы организации
доступ к данным, которые приходится анализировать чаще других
предоставление данных в форме, соответствующей коллективному представлению подразделения
сокращение времени ответа на вопрос

Слайд 103 Витрины данных

Хранили-ще данных
Магазин данных
архив

Витрины данных Хранили-ще данныхМагазин данныхархив

Слайд 104 Витрины данных
Отличие от хранилища данных:
отвечает требованиям только одного

Витрины данныхОтличие от хранилища данных:отвечает требованиям только одного из подразделений организации

из подразделений организации или некоторой ее деловой сферы
обычно не

содержит детальных оперативных сведений
структура информации более понятна и проста в управлении

Слайд 105 Проектирование хранилища данных

Проектирование хранилища данных

Слайд 106 Схема типа «звезда»

Таблица фактов
1
2
n
Таблицы измерений

Схема типа «звезда» Таблица фактов12nТаблицы измерений

Слайд 107 Схема типа «звезда»
Таблица фактов (fact table) – количественные

Схема типа «звезда»Таблица фактов (fact table) – количественные значения; деловые факты,

значения; деловые факты, определяющие фактическую сущность; детальные данные, представляющие

собой основные виды бизнес деятельности организации и факторы, влияющие на данный бизнес или его сектор

Слайд 108 Схема типа «звезда»
Таблицы измерений (dimension tables) – дескриптивные

Схема типа «звезда»Таблицы измерений (dimension tables) – дескриптивные (описательные) значения; справочные

(описательные) значения; справочные данные, или данные деловых измерений; элементы,

которые могут оказывать определенное влияние или порождать различные тенденции в развитии фактов

Слайд 109 Схема типа «звезда»
Категории измерений
Таблица фактов
Люди
Время
Места
Вещи

Схема типа «звезда»Категории измеренийТаблица фактовЛюдиВремяМестаВещи

Слайд 110 Пример проектирования

Пример проектирования

Слайд 111 Области применения ИС
Управление повседневными бизнес процессами (OLTP)
Поддержка принятия

Области применения ИСУправление повседневными бизнес процессами (OLTP)Поддержка принятия стратегических решений (OLAP, Data mining)Управление информационным содержанием

стратегических решений (OLAP, Data mining)
Управление информационным содержанием


Слайд 112 Пример проектирования

Пример проектирования

Слайд 113 Особенности проектирования
Таблица фактов:
использование суррогатного ключа
вычисляемые колонки

Особенности проектированияТаблица фактов: использование суррогатного ключа вычисляемые колонки (объем продаж, стоимость

(объем продаж, стоимость в . . . )
секционирование


вертикальное (восстановление – через join)
горизонтальное (восстановление – через union)

Слайд 114 Особенности проектирования
Таблицы измерений:
существующие таблицы OLTP базы данных

Особенности проектированияТаблицы измерений: существующие таблицы OLTP базы данных (Товар, Магазин) новые

(Товар, Магазин)
новые измерения (из других таблиц базы данных

– Район или из элементов таблиц базы данных – Время)
денормализация таблицы измерений
развертывание измерений – схема типа «снежинка»

Слайд 115 Особенности проектирования

Особенности проектирования

Слайд 116 Технология OLAP
Назначение OLAP (Online Analytical Processing) инструментов: предоставить

Технология OLAPНазначение OLAP (Online Analytical Processing) инструментов: предоставить средства извлечения большого

средства извлечения большого количества записей и вычисления на их

основе некоторых итоговых значений.
Термин OLAP был предложен Коддом в 1993 г. и определяет архитектуру, которая поддерживает сложные аналитические приложения.



Слайд 117 Технология OLAP
Критерий FASMI:
Fast – время отклика:
среднее ~

Технология OLAPКритерий FASMI:Fast – время отклика: среднее ~ 5 сек; для

5 сек;
для простых запросов - ~ 1 сек;


для самых сложных - ~ 20 сек;
более 30 сек – недопустимо


Слайд 118 Технология OLAP
Analysis – система должна справляться с любым

Технология OLAPAnalysis – система должна справляться с любым логическим и статистическим

логическим и статистическим анализом, характерным для данного приложения; пользователь

может определять новые вычисления как часть анализа и формировать нужные отчеты без необходимости программирования



Слайд 119 Технология OLAP
Shared – широкие возможности разграничения доступа к

Технология OLAPShared – широкие возможности разграничения доступа к данным и одновременной

данным и одновременной работы многих пользователей
Multidimensional – должно быть

обеспечено многомерное концептуальное представление данных
Information – необходимая информация должна быть получена там, где она необходима



Слайд 120 Многомерное представление
Анализ изменения объема продаж и дохода торговых

Многомерное представлениеАнализ изменения объема продаж и дохода торговых предприятий во времениНомер

предприятий во времени
Номер записи
Tid (FK1)
Sid (FK2)
Объем продаж
Доход (руб)
.

. .

Продажи

Tid

Месяц
Квартал
Год

Время

Sid

Название
Адрес
Регион

Предприятие


Слайд 121 Многомерное представление
Таблица РБД («плоская»)

Многомерное представлениеТаблица РБД («плоская»)

Слайд 122 Многомерное представление
Двухмерное представление

Многомерное представлениеДвухмерное представление

Слайд 123 Многомерное представление

Многомерное представление

Слайд 124 Многомерное представление
Достоинства многомерных структур:
очень компактны
обеспечивают простые средства просмотра

Многомерное представлениеДостоинства многомерных структур:очень компактныобеспечивают простые средства просмотра и манипулирования элементами данных, обладающих многими взаимосвязями

и манипулирования элементами данных, обладающих многими взаимосвязями


Слайд 125 Многомерное представление
Достоинства многомерных структур:
легко расширяются при включении новой

Многомерное представлениеДостоинства многомерных структур:легко расширяются при включении новой размерностидопускают выполнение операций

размерности
допускают выполнение операций матричной арифметики, позволяющих легко вычислять средние

и общие значения


Слайд 126 Многомерное представление
«Типичная реляционная СУБД способна сканировать всего несколько

Многомерное представление«Типичная реляционная СУБД способна сканировать всего несколько сотен строк в

сотен строк в секунду, тогда как типичная многомерная СУБД

способна выполнять обобщающие операции со скоростью до 10000 строк в секунду и даже выше.»
[Коннолли Т. и др.]

Слайд 127 Аналитические операции
Консолидация – обобщающие операции, такие как простое

Аналитические операцииКонсолидация – обобщающие операции, такие как простое суммирование значений (свертка),

суммирование значений (свертка), или расчет с использованием сложных выражений,

включающих другие связанные данные


Слайд 128 Аналитические операции
Нисходящий анализ (drill-down) – операция, обратная консолидации;

Аналитические операцииНисходящий анализ (drill-down) – операция, обратная консолидации; включает возможность отображения

включает возможность отображения подробных сведений для рассматриваемых консолидированных данных;


Слайд 129 Аналитические операции
Разбиение с поворотом (slicing and dicing) –

Аналитические операцииРазбиение с поворотом (slicing and dicing) – также называется созданием

также называется созданием сводной таблицы; позволяет получить представление данных

с разных точек зрения. Например, одно представление – сведения о доходах от продаж товаров указанного типа по каждому району, другое представление – данные о доходах магазинов в каждом районе


Слайд 130 Аналитические операции
Предварительное обобщение, использование иерархической структуры размерностей и

Аналитические операцииПредварительное обобщение, использование иерархической структуры размерностей и управление заполнением пространства

управление заполнением пространства кубов позволяют значительно сократить размер базы

данных и исключить потребность многократного вычисления одних и тех же значений

Слайд 131 Правила для OLAP систем
E. Codd, 1993 г.
Многомерное концептуальное

Правила для OLAP системE. Codd, 1993 г.Многомерное концептуальное представление данныхДоступность (доступ

представление данных
Доступность (доступ к требуемым для анализа данным)
Неизменная производительность

подготовки отчетов (количество измерений, степень обобщения данных)

Слайд 132 Правила для OLAP систем
Неограниченные перекрестные операции между размерностями
Неограниченное

Правила для OLAP системНеограниченные перекрестные операции между размерностямиНеограниченное число измерений и уровней обобщенияГибкость средств формирования отчетов

число измерений и уровней обобщения
Гибкость средств формирования отчетов


Слайд 133 Категории OLAP инструментов
Berson and Smith, 1997 г.
Многомерные OLAP

Категории OLAP инструментовBerson and Smith, 1997 г.Многомерные OLAP инструменты – Multidimensional

инструменты – Multidimensional OLAP, MOLAP
Реляционные OLAP инструменты – Relational

OLAP, ROLAP
Управляемая среда запросов – Managed Query Environment, MQE

Слайд 134 Многомерный OLAP
Специализированные структуры данных и многомерные СУБД
Данные обобщаются

Многомерный OLAPСпециализированные структуры данных и многомерные СУБДДанные обобщаются и хранятся в

и хранятся в соответствии с их предполагаемым использованием
Высокая производительность
Тесное

взаимодействие с уровнем приложения и уровнем отображения

Слайд 135 Многомерный OLAP

Источники данных
Многомер-ные
кубы
загрузка
запрос
результат
Логический уровень
базы данных и приложения
Уровень
отображения

Многомерный OLAP Источники данныхМногомер-ныекубызагрузказапросрезультатЛогический уровеньбазы данных и приложенияУровеньотображения

Слайд 136 Многомерный OLAP
Особенности:
Используемые структуры данных обладают ограниченной способностью поддержки

Многомерный OLAPОсобенности:Используемые структуры данных обладают ограниченной способностью поддержки нескольких предметных областей

нескольких предметных областей и осуществления доступа к подробным сведениям


Слайд 137 Многомерный OLAP
Просмотр и анализ данных ограничен процессом проектирования

Многомерный OLAPПросмотр и анализ данных ограничен процессом проектирования структуры данных в

структуры данных в соответствии с заранее определенными требованиями
Необходимы особый

набор навыков и знаний, использование специальных инструментов создания и сопровождения базы данных

Слайд 138 Реляционный OLAP
Взаимодействие с СУБД – уровень метаданных
Нет необходимости

Реляционный OLAPВзаимодействие с СУБД – уровень метаданныхНет необходимости создания статичной многомерной

создания статичной многомерной структуры данных
Дополнительные средства поддержки функций многомерного

анализа
Создание сильно денормализованной базы данных

Слайд 139 Реляционный OLAP


Источники данных
результат
запрос
результат
Уровень
базы данных
Уровень
отображения
Уровень

Реляционный OLAP Источники данныхрезультатзапросрезультатУровень базы данныхУровеньотображения Уровень логики приложенияSQLСервер ROLAP

логики
приложения
SQL
Сервер ROLAP


Слайд 140 Реляционный OLAP
Особенности:
Необходима разработка промежуточного ПО для многомерных приложений

Реляционный OLAPОсобенности:Необходима разработка промежуточного ПО для многомерных приложений (преобразование отношений РБД в многомерную структуру)

(преобразование отношений РБД в многомерную структуру)


Слайд 141 Реляционный OLAP
Требуется разработка инструментов, предназначенных для создания устойчивых

Реляционный OLAPТребуется разработка инструментов, предназначенных для создания устойчивых многомерных структур со вспомогательными компонентами администрирования этих структур

многомерных структур со вспомогательными компонентами администрирования этих структур


Слайд 142 Дополнительные возможности SQL
Предложение SELECT:

SELECT . . .

Дополнительные возможности SQLПредложение SELECT:SELECT . . . FROM . . .GROUP

FROM . . .
GROUP BY . . .
WITH ROLLUP

| WITH CUBE

Слайд 143 Дополнительные возможности SQL
Пример:
SELECT . . . WITH CUBE

Дополнительные возможности SQLПример:SELECT . . . WITH CUBE | WITH ROLLUP

| WITH ROLLUP


Слайд 144 Дополнительные возможности SQL
Пример:
SELECT SName, PName, sum(qty) as

Дополнительные возможности SQLПример:SELECT SName, PName, sum(qty) as sumFROM S join SP

sum
FROM S join SP on S.Sid = SP.Sid


join P on SP.Pid = P.Pid
GROUP BY SName, PName

Слайд 145 Дополнительные возможности SQL

Дополнительные возможности SQL

Слайд 146 Дополнительные возможности SQL
Пример:
SELECT SName, PName, sum(qty) as

Дополнительные возможности SQLПример:SELECT SName, PName, sum(qty) as sumFROM S join SP

sum
FROM S join SP on S.Sid = SP.Sid


join P on SP.Pid = P.Pid
GROUP BY SName, Pname
WITH ROLLUP

Слайд 147 Дополнительные возможности SQL

Дополнительные возможности SQL

Слайд 148 Дополнительные возможности SQL

Дополнительные возможности SQL

Слайд 149 Дополнительные возможности SQL
Пример:
SELECT SName, PName, sum(qty) as

Дополнительные возможности SQLПример:SELECT SName, PName, sum(qty) as sumFROM S join SP

sum
FROM S join SP on S.Sid = SP.Sid


join P on SP.Pid = P.Pid
GROUP BY SName, Pname
WITH CUBE

Слайд 150 Дополнительные возможности SQL

Дополнительные возможности SQL

Слайд 151 Дополнительные возможности SQL

Дополнительные возможности SQL

Слайд 152 Платформа EMC Documentum

Платформа EMC Documentum

Слайд 153 Области применения ИС
Управление повседневными бизнес процессами (OLTP)

Области применения ИСУправление повседневными бизнес процессами (OLTP)

Слайд 154 Области применения ИС
Поддержка принятия стратегических решений (OLAP, Data

Области применения ИСПоддержка принятия стратегических решений (OLAP, Data mining)

mining)


Слайд 155 Области применения ИС
Enterprise Content Management (ECM) – стратегии,

Области применения ИСEnterprise Content Management (ECM) – стратегии, методы и инструментальные

методы и инструментальные средства, используемые для ввода/сбора, управления, хранения,

архивирования и доставки информационного содержания (контента) и документов, относящихся к ключевым процессам организации

Слайд 156 Информационное содержание
Информационное содержание (контент) – информационные объекты, хранящиеся

Информационное содержаниеИнформационное содержание (контент) – информационные объекты, хранящиеся в различных форматах,

в различных форматах, которые можно извлекать, повторно использовать публиковать

(Коммерческие

документы, сообщения электронной почты, образы документов, мультимедийные файлы, …)

Слайд 157 Управление контентом
Создание и сохранение документов
Обработка документов – поиск,

Управление контентомСоздание и сохранение документовОбработка документов – поиск, управление версиями, .

управление версиями, . . .
Получение доступа к содержимому –

управление доступом, аудит, . . .
Управление бизнес процессами – автоматизация, жизненный цикл контента, . . .

Слайд 158 Управление контентом
Системы управления контентом (CMS, Content Management System)

Управление контентомСистемы управления контентом (CMS, Content Management System) – управление неструктурированными

– управление неструктурированными данными

Элемент контента

Метаданные

Слайд 159 Управление контентом
Репозиторий – управляемый блок хранения контента и

Управление контентомРепозиторий – управляемый блок хранения контента и метаданныхИнфраструктура репозиторияКомпоненты репозиторияСервисы репозиторияСервисы безопасности

метаданных

Инфраструктура репозитория
Компоненты репозитория
Сервисы репозитория
Сервисы безопасности


Слайд 160 Компоненты репозитория
метаданные
Полнотекстовый индекс
Сервисы каталогов

Компоненты репозиторияметаданныеПолнотекстовый индексСервисы каталогов

Слайд 161 Сервисы репозитория
Объектная модель данным
Управление связями объектов
Словарь данных
Сервисы хранения
Поиск

Сервисы репозиторияОбъектная модель даннымУправление связями объектовСловарь данныхСервисы храненияПоиск / запросыЖизненный циклРаспределенные / федеративные сервисы

/ запросы
Жизненный цикл
Распределенные / федеративные сервисы


Слайд 162 Сервисы безопасности
Управление доступом
Управление правами
Разрешения
Аудит
Шифрование

Сервисы безопасностиУправление доступомУправление правамиРазрешенияАудитШифрование

Слайд 163 Управление процессами
Workflow – представляет бизнес процессы и приложения,

Управление процессамиWorkflow – представляет бизнес процессы и приложения, ориентированные на события.

ориентированные на события. Может быть определен для документов, папок

и виртуальных документов
Lifecycle – последовательность состояний, в которых в которых может находиться отдельный документ

Слайд 164 Workflow
Бизнес процесс – набор связанных действий, которые создают

WorkflowБизнес процесс – набор связанных действий, которые создают некоторый результат, преобразуя

некоторый результат, преобразуя исходные данные в более значимые выходные

данные


workflow

Исходные
данные –
документ

Выходные
данные –
документ


Слайд 165 Workflow
Описание процесса
Задача (activity)
Исполнитель (performer)
Поток информации (flow)
Конкретное выполнение

WorkflowОписание процессаЗадача (activity) Исполнитель (performer)Поток информации (flow)Конкретное выполнение работ – процесс (workflow)начало

работ – процесс (workflow)
начало


Слайд 166 Lifecycle
Строго последовательное переключение состояний
Состояния жизненного цикла
Стартовое –

Lifecycle Строго последовательное переключение состоянийСостояния жизненного циклаСтартовое – создание документа, ввод

создание документа, ввод содержимого
Промежуточные состояния – различные стадии документа
Конечное

состояние – передача документа в архив

  • Имя файла: raspredelennye-sistemy.pptx
  • Количество просмотров: 114
  • Количество скачиваний: 1