Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Хранилища данных. Интеграция информационных ресурсов в хранилищах данных. (Лекция 6)

Содержание

СодержаниеПроблема интеграции данных Что такое SQL Server 2005 Integration ServicesПланирование ETL проекта для хранилища данных
Хранилища данных.  Лекция 6. Интеграция информационных ресурсов в хранилищах данныхАнтон Викторович Кудинов, доцент кафедры ВТ СодержаниеПроблема интеграции данных Что такое SQL Server 2005 Integration ServicesПланирование ETL проекта для хранилища данных Проблема интеграции данныхETL процессы (Extraction, Transformation, Load) 60-80% времени Извлечение и очистка Три метода интеграции данныхКонсолидацияФедерализацияРаспространение Консолидация данныхДанные собираются из нескольких первичных систем и интегрируются в одно постоянное Федерализация данныхОбеспечивает единую виртуальную картину нескольких первичных источников данных. Для получения сведений Распространение данныхПодразумевает их копирование из одного места в другое. Этот подход обычно Интеграция на основе метамодели Задачи при интеграции данныхТехнологическиеОрганизационныеЭкономические Технологические задачиГетерогенные источники данных с различными форматамиСтруктурированные, полуструктурированные и неструктурированные данныеДанные поступают Технологические требованияЗагрузка данных в наибыстрейшее время (нет возможности «ночного» периода, 7 х Организационные задачиПолучение серьезной поддержки руководства компании команде по проекту интеграции данных, настоять Экономические задачиИнтеграция данных – дорогостоящий процесс.Факторы, увеличивающие стоимость проекта:Административные преграды, недостаток координации, SQL Server 2008 Integration Services До Integration ServicesETLWarehouseReportsMobiledata Data miningAlerts and escalationHand-codingStagingText Mining ETLStagingCleansing andETLStagingETL Integration Services 2008ОповещенияSQL Server Integration ServicesOLAP  системыОтчетPDA Архитектура SQL Server 2008 Integration ServicesКонструктор служб SSIS  Поток управления (Control Типовые сценарии в Integration ServicesСлияние данных из гетерогенных хранилищ данных Очистка, преобразование Пример: Очистка данных Пакет SSISData CleaningSample из Integration Services Samples.Fussy Lookup – Планирование ETL проекта для хранилища данныхКонечные  пользователиГетерогенныеисточники  данныхКиоски данных Заполнение хранилища данных в SSISИсточники и приемники данныхОценка и проверка исходных данныхПромежуточное Источники и приемники данныхВыбрать источники данных (все форматы)Выбрать приемники данных (DW, Data Промежуточное хранение данных (Staging storage)В сложных ETL процессах может потребоваться промежуточное хранение Загрузка в хранилище и киоски данныхЗагрузка измерений и мерСоздание первичных и вторичных Спасибо за внимание!KudinovAV@tpu.ru
Слайды презентации

Слайд 2 Содержание
Проблема интеграции данных
Что такое SQL Server 2005

СодержаниеПроблема интеграции данных Что такое SQL Server 2005 Integration ServicesПланирование ETL проекта для хранилища данных

Integration Services
Планирование ETL проекта для хранилища данных


Слайд 3 Проблема интеграции данных
ETL процессы (Extraction, Transformation, Load) 60-80%

Проблема интеграции данныхETL процессы (Extraction, Transformation, Load) 60-80% времени Извлечение и

времени
Извлечение и очистка данных
Трансформации данных
Загрузка данных

в хранилище

Слайд 4 Три метода интеграции данных
Консолидация
Федерализация
Распространение

Три метода интеграции данныхКонсолидацияФедерализацияРаспространение

Слайд 5 Консолидация данных
Данные собираются из нескольких первичных систем и

Консолидация данныхДанные собираются из нескольких первичных систем и интегрируются в одно

интегрируются в одно постоянное место хранения. Такое место хранения

может быть использовано для подготовки отчетности и проведения анализа, как в случае хранилища данных, или как источник данных для других приложений.

Слайд 6 Федерализация данных
Обеспечивает единую виртуальную картину нескольких первичных источников

Федерализация данныхОбеспечивает единую виртуальную картину нескольких первичных источников данных. Для получения

данных. Для получения сведений о некотором процессе, обрабатываемом в

нескольких оперативных приложениях, процессор федерализации данных извлекает данные из соответствующих первичных складов данных, интегрирует их таким образом, чтобы они отвечали виртуальной картине и требованиям запроса, и отправляет результаты бизнес-приложению, от которого пришел запрос.

Слайд 7 Распространение данных
Подразумевает их копирование из одного места в

Распространение данныхПодразумевает их копирование из одного места в другое. Этот подход

другое. Этот подход обычно используется для операций реального времени

и базируется на механизмах "проталкивания", т. е. является событийно управляемым.

Слайд 8 Интеграция на основе метамодели

Интеграция на основе метамодели

Слайд 9 Задачи при интеграции данных
Технологические
Организационные
Экономические

Задачи при интеграции данныхТехнологическиеОрганизационныеЭкономические

Слайд 10 Технологические задачи
Гетерогенные источники данных с различными форматами
Структурированные, полуструктурированные

Технологические задачиГетерогенные источники данных с различными форматамиСтруктурированные, полуструктурированные и неструктурированные данныеДанные

и неструктурированные данные
Данные поступают в разное время
Очень большие объемы

данных
Качество данных (пропуски, нет смысла, ошибки)
Придание смысла данным при слиянии их из разных форматов при неполноте данных в отдельных источниках
Преобразование данных в унифицированный формат, пригодный для бизнес-анализа


Слайд 11 Технологические требования
Загрузка данных в наибыстрейшее время (нет возможности «ночного»

Технологические требованияЗагрузка данных в наибыстрейшее время (нет возможности «ночного» периода, 7

периода, 7 х 24 часа On-Line)
Потребность загрузки данных в

несколько приемников практически одновременно
Постоянная доступность данных с минимальными задержками в актуальности данных
Разнообразие источников данных (OLTP, OLAP, веб-сервисы, неструктурированные данные, унаследованные системы)
Разнообразие приемников данных (порталы, персонализированные отчеты, PDA, мобильные телефоны )
Масштабируемость и производительность

Слайд 12 Организационные задачи
Получение серьезной поддержки руководства компании команде по

Организационные задачиПолучение серьезной поддержки руководства компании команде по проекту интеграции данных,

проекту интеграции данных, настоять на координации и компромиссах по

выбору форматов данных и бизнес-процессов получения данных в подразделениях компании
Определиться с единообразными технологиями для разного круга задач, так как многие подразделения используют совершенно разные системы и способы. Люди консервативны в своих привычках, не любят переучиваться. До 60% времени при получении и интеграции данных – ручной процесс

Слайд 13 Экономические задачи
Интеграция данных – дорогостоящий процесс.
Факторы, увеличивающие стоимость

Экономические задачиИнтеграция данных – дорогостоящий процесс.Факторы, увеличивающие стоимость проекта:Административные преграды, недостаток

проекта:
Административные преграды, недостаток координации, недостаточная поддержка руководства
Недостаточная функциональность имеющихся

средств для ETL процессов, необходимость разработки нового ETL кода

Слайд 14 SQL Server 2008 Integration Services

SQL Server 2008 Integration Services

Слайд 15 До Integration Services
ETL
Warehouse
Reports
Mobile
data
Data mining
Alerts and escalation
Hand-
coding
Staging
Text Mining

До Integration ServicesETLWarehouseReportsMobiledata Data miningAlerts and escalationHand-codingStagingText Mining ETLStagingCleansing andETLStagingETL

ETL
Staging
Cleansing
and
ETL
Staging
ETL


Слайд 16 Integration Services 2008
Оповещения
SQL Server Integration Services
OLAP системы
Отчет
PDA

Integration Services 2008ОповещенияSQL Server Integration ServicesOLAP системыОтчетPDA

Слайд 17 Архитектура SQL Server 2008 Integration Services
Конструктор служб SSIS

Архитектура SQL Server 2008 Integration ServicesКонструктор служб SSIS Поток управления (Control


Поток управления (Control Flow)
Поток данных

(Data Flow)
Обработчики событий в пакете и объектов пакета (Event Handlers)
Просмотр содержимого пакета
Просмотр выполнения пакета

Слайд 18 Типовые сценарии в Integration Services
Слияние данных из гетерогенных

Типовые сценарии в Integration ServicesСлияние данных из гетерогенных хранилищ данных Очистка,

хранилищ данных
Очистка, преобразование и стандартизация данных
Заполнение хранилищ

данных и витрин данных
Встраивание бизнес-аналитики в процесс преобразования данных
Автоматизация административных функций и загрузки данных


Слайд 19 Пример: Очистка данных
Пакет SSIS
Data Cleaning
Sample из Integration

Пример: Очистка данных Пакет SSISData CleaningSample из Integration Services Samples.Fussy Lookup

Services Samples.
Fussy Lookup – нестрогое соответствие новых клиентов старым

записям
Fussy Grouping – нечеткий поиск фамилий дубликатов.

Слайд 20 Планирование ETL проекта для хранилища данных
Конечные пользователи
Гетерогенные
источники данных










Киоски

Планирование ETL проекта для хранилища данныхКонечные пользователиГетерогенныеисточники данныхКиоски данных

данных






Слайд 21 Заполнение хранилища данных в SSIS
Источники и приемники данных
Оценка

Заполнение хранилища данных в SSISИсточники и приемники данныхОценка и проверка исходных

и проверка исходных данных
Промежуточное хранение данных (Staging storage)
Загрузка в хранилище

и киоски данных

Слайд 22 Источники и приемники данных
Выбрать источники данных (все форматы)
Выбрать

Источники и приемники данныхВыбрать источники данных (все форматы)Выбрать приемники данных (DW,

приемники данных (DW, Data Mart), определить структуру записываемых данных
Определить

время извлечения и записи данных (extraction and load windows), длительность извлечения и загрузки данных
Документировать диаграмму потока данных: описать список источников, методов доступа, учетные записи, протоколы, характеристики сети

Слайд 23 Промежуточное хранение данных (Staging storage)
В сложных ETL процессах может

Промежуточное хранение данных (Staging storage)В сложных ETL процессах может потребоваться промежуточное

потребоваться промежуточное хранение данных после чтения перед загрузкой в

хранилище:
Реляционная БД
Файлы «как есть» - raw (binary) files
После извлечения данных:
Необходимость быстро освободить источник данных
Выполнение ETL с заданной контрольной точки без повторного рестарта
Перед загрузкой данных:
Асинхронное поступление данных, ожидание всех данных
Фиксируется моментальный снимок данных на заданную дату, возможность получения отчетности по этому снимку данных
Возможность рестарта с контрольной точки без необходимости выполнять пакет с самого начала
Возможность провести трансформацию некоторых данных на SQL Server перед окончательной загрузкой в хранилище
Возможность проверить и удалить невалидные данные или дубликаты после окончания трансформаций перед загрузкой


Слайд 24 Загрузка в хранилище и киоски данных
Загрузка измерений и

Загрузка в хранилище и киоски данныхЗагрузка измерений и мерСоздание первичных и

мер
Создание первичных и вторичных ключей
Создание индексов
Удаление временных таблиц
Обработка измерений

и секций кубов


  • Имя файла: hranilishcha-dannyh-integratsiya-informatsionnyh-resursov-v-hranilishchah-dannyh-lektsiya-6.pptx
  • Количество просмотров: 127
  • Количество скачиваний: 0