Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.

Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть

Презентация на тему Анализ данных с Data Mining

Содержание

2. ДокладчикиАлександра Симонова, Мат-Мех, 5 курс
3. История Data Mining1960-е гг. – первая промышленная
4. Возникновение Data Mining. Способствующие факторысовершенствование аппаратного и
5. Понятие Data MiningData Mining - это процесс
6. Мультидисциплинарность
7. Задачи Data MiningКлассификацияКластеризацияПрогнозированиеАссоциацияВизуализацияанализ и обнаружение отклоненийОцениваниеАнализ связейПодведение итогов
8. Стадии Data MiningСВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕАНАЛИЗ ИСКЛЮЧЕНИЙ
9. Методы Data Mining. Технологические методы.Непосредственное использование данных,
10. Методы Data Mining. Статистические методы.Дескриптивный анализ и
11. Методы Data Mining. Кибернетические методы.Искусственные нейронные сети
12. Визуализация инструментов Data Mining.Для деревьев решений -
13. Проблемы и вопросыData Mining не может заменить
14. Области применения Data miningDatabase marketers - Рыночная
15. Области применения Data mining. Продолжение.Телекоммуникация и энергетика
16. Перспективы технологии Data Mining.выделение типов предметных областей
17. Литература по Data Mining"Wikipedia about Data Mining"
18. Деревья решений. История и основные понятия.Возникновение -
19. Деревья решений. Пример 1.
20. Деревья решений. Пример 2.
21. Деревья решений. Преимущества метода.Интуитивность деревьев решений Возможность
22. Деревья решений. Процесс конструирования. Основные этапы алгоритмов
23. Деревья решений. Критерии расщепления."мера информационного выигрыша" (information
24. Деревья решений. Остановка построения дерева.Остановка - такой
25. Деревья решений. Сокращение дерева или отсечение ветвей.Критерии:Точность распознавания Ошибка
26. Деревья решений. Алгоритмы. CART .CART (Classification and
27. Деревья решений. Алгоритмы. C4.5 .Строит дерево решений
28. Деревья решений. Перспективы метода и выводы.Разработка новых
29. Метод "ближайшего соседа" или системы рассуждений на
30. Метод "ближайшего соседа". Преимущества.Простота использования полученных результатов.Решения
31. Метод "ближайшего соседа". Недостатки.Данный метод не создает
32. Метод "ближайшего соседа". Решение задачи классификации новых объектов.
33. Метод "ближайшего соседа". Решение задачи прогнозирования.
34. Метод "ближайшего соседа". Оценка параметра k методом
35. Метод "ближайшего соседа". Примеры использования и реализации.Использование
36. Скачать презентацию
37. Похожие презентации

ДокладчикиАлександра Симонова, Мат-Мех, 5 курс

Data Mining1Докладчики2Введение в Data Mining3Деревья решений4Метод ближайшего соседаВопросы?

История Data Mining1960-е гг. – первая промышленная СУБД система IMS фирмы IBM.1970-е

Возникновение Data Mining. Способствующие факторысовершенствование аппаратного и программного обеспечения; совершенствование технологий хранения

Понятие Data MiningData Mining - это процесс обнаружения в сырых данных ранее

Задачи Data MiningКлассификацияКластеризацияПрогнозированиеАссоциацияВизуализацияанализ и обнаружение отклоненийОцениваниеАнализ связейПодведение итогов

Стадии Data MiningСВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕАНАЛИЗ ИСКЛЮЧЕНИЙ

Методы Data Mining. Технологические методы.Непосредственное использование данных, или сохранение данных: кластерный анализ,

Методы Data Mining. Статистические методы.Дескриптивный анализ и описание исходных данных.Анализ связей (корреляционный

Методы Data Mining. Кибернетические методы.Искусственные нейронные сети (распознавание, кластеризация, прогноз);Эволюционное программирование (в

Визуализация инструментов Data Mining.Для деревьев решений - визуализатор дерева решений, список правил,

Проблемы и вопросыData Mining не может заменить аналитика!Сложность разработки и эксплуатации приложения

Области применения Data miningDatabase marketers - Рыночная сегментация, идентификация целевых групп, построение

Области применения Data mining. Продолжение.Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика,

Перспективы технологии Data Mining.выделение типов предметных областей с соответствующими им эвристикамисоздание формальных

Деревья решений. История и основные понятия.Возникновение - 50-е годы (Ховиленд и Хант

Деревья решений. Преимущества метода.Интуитивность деревьев решений Возможность извлекать правила из базы данных

Деревья решений. Процесс конструирования. Основные этапы алгоритмов конструирования деревьев:

Деревья решений. Остановка построения дерева.Остановка - такой момент в процессе построения дерева,

Деревья решений. Сокращение дерева или отсечение ветвей.Критерии:Точность распознавания Ошибка

Деревья решений. Алгоритмы. CART .CART (Classification and Regression Tree) разработан в 1974-1984

Деревья решений. Алгоритмы. C4.5 .Строит дерево решений с неограниченным количеством ветвей у

Деревья решений. Перспективы метода и выводы.Разработка новых масштабируемых алгоритмов (Sprint, предложенный Джоном

Слайды презентации

Слайд 2 Докладчики
Александра Симонова, Мат-Мех, 5 курс

Слайд 3 История Data Mining
1960-е гг. – первая промышленная СУБД

История Data Mining1960-е гг. – первая промышленная СУБД система IMS фирмы

система IMS фирмы IBM.
1970-е гг. – Conference on Data

System Languages (CODASYL)
1980-е гг. – SQL
1990-е гг. – Data Mining

Слайд 4 Возникновение Data Mining. Способствующие факторы
совершенствование аппаратного и программного

обеспечения;
совершенствование технологий хранения и записи данных;
накопление большого

количества ретроспективных данных;
совершенствование алгоритмов обработки информации.

Слайд 5 Понятие Data Mining
Data Mining - это процесс обнаружения

Понятие Data MiningData Mining - это процесс обнаружения в сырых данных

в сырых данных ранее неизвестных, нетривиальных, практически полезных и

доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Gregory Piatetsky-Shapiro
Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Слайд 6 Мультидисциплинарность

Слайд 7 Задачи Data Mining
Классификация
Кластеризация
Прогнозирование
Ассоциация
Визуализация
анализ и обнаружение отклонений
Оценивание
Анализ связей
Подведение итогов

Слайд 8 Стадии Data Mining
СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)

ПРОГНОСТИЧЕСКОЕ

МОДЕЛИРОВАНИЕ

АНАЛИЗ ИСКЛЮЧЕНИЙ

Слайд 9 Методы Data Mining. Технологические методы.
Непосредственное использование данных, или

Методы Data Mining. Технологические методы.Непосредственное использование данных, или сохранение данных: кластерный

сохранение данных: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа,

рассуждение по аналогии (этот метод будет рассмотрен подробнее)
Выявление и использование формализованных закономерностей, или дистилляция шаблонов: логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях

Слайд 10 Методы Data Mining. Статистические методы.
Дескриптивный анализ и описание

Методы Data Mining. Статистические методы.Дескриптивный анализ и описание исходных данных.Анализ связей

исходных данных.
Анализ связей (корреляционный и регрессионный анализ, факторный анализ,

дисперсионный анализ).
Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
Анализ временных рядов (динамические модели и прогнозирование).

Слайд 11 Методы Data Mining. Кибернетические методы.
Искусственные нейронные сети (распознавание,

кластеризация, прогноз);
Эволюционное программирование (в т.ч. алгоритмы метода группового учета

аргументов);
Генетические алгоритмы (оптимизация);
Ассоциативная память (поиск аналогов, прототипов);
Нечеткая логика;
Деревья решений; этот метод будет рассмотрен подробнее.
Системы обработки экспертных знаний.

Слайд 12 Визуализация инструментов Data Mining.
Для деревьев решений - визуализатор

Визуализация инструментов Data Mining.Для деревьев решений - визуализатор дерева решений, список

дерева решений, список правил, таблица сопряженности.
Для нейронных сетей

- в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.
Для карт Кохонена: карты входов, выходов, другие специфические карты.
Для линейной регрессии - линия регрессии.
Для кластеризации: дендрограммы, диаграммы рассеивания.

Слайд 13 Проблемы и вопросы
Data Mining не может заменить аналитика!
Сложность

Проблемы и вопросыData Mining не может заменить аналитика!Сложность разработки и эксплуатации

разработки и эксплуатации приложения Data Mining. Основные аспекты:
Квалификация пользователя
Сложность

подготовки данных
Большой процент ложных, недостоверных или бессмысленных результатов
Высокая стоимость
Наличие достаточного количества репрезентативных данных

Слайд 14 Области применения Data mining
Database marketers - Рыночная сегментация,

Области применения Data miningDatabase marketers - Рыночная сегментация, идентификация целевых групп,

идентификация целевых групп, построение профиля клиента
Банковское дело - Анализ

кредитных рисков, привлечение и удержание клиентов, управление ресурсами
Кредитные компании - Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов , cross-selling программы
Страховые компании - Привлечение и удержание клиентов, прогнозирование фингансовых показателей
Розничная торговля - Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами
Биржевые трейдеры - Выработка оптимальной торговой стратегии, контроль рисков

Слайд 15 Области применения Data mining. Продолжение.
Телекоммуникация и энергетика -

Области применения Data mining. Продолжение.Телекоммуникация и энергетика - Привлечение клиентов, ценовая

Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок,

прогнозирование поступления средств
Налоговые службы и аудиторы - Детекция подлогов, прогнозирование поступлений в бюджет
Фармацевтические компании - Предсказание результатов будущего тестирования препаратов, программы испытания
Медицина - Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства
Управление производством - Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса
Ученые и инженеры - Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач

Слайд 16 Перспективы технологии Data Mining.
выделение типов предметных областей с

Перспективы технологии Data Mining.выделение типов предметных областей с соответствующими им эвристикамисоздание

соответствующими им эвристиками
создание формальных языков и логических средств, с

помощью которых будет формализованы рассуждения
создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;
преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

Слайд 17 Литература по Data Mining
"Wikipedia about Data Mining" (http://en.wikipedia.org/wiki/Data_mining)
"Data

Mining Tutorials" (http://www.eruditionhome.com/datamining/tut.html)
"Thearling intro paper" (http://www.thearling.com/text/dmwhite/dmwhite.htm)
"Что такое Data mining?“

(http://www.megaputer.ru/doc.php?classroom/whatis_dm/whatis_dm.html)
"INTUIT.ru: Учебный курс - Data Mining“ (http://www.intuit.ru/department/database/datamining/)
"Data Mining - подготовка исходных данных“ (http://www.basegroup.ru/tasks/datamining_prepare.htm)

Слайд 18 Деревья решений. История и основные понятия.
Возникновение - 50-е

Деревья решений. История и основные понятия.Возникновение - 50-е годы (Ховиленд и

годы (Ховиленд и Хант (Hoveland, Hunt) )
Метод также называют

деревьями решающих правил, деревьями классификации и регрессии
Это способ представления правил в иерархической, последовательной структуре

Слайд 19 Деревья решений. Пример 1.

Слайд 20 Деревья решений. Пример 2.

Слайд 21 Деревья решений. Преимущества метода.
Интуитивность деревьев решений
Возможность извлекать

Деревья решений. Преимущества метода.Интуитивность деревьев решений Возможность извлекать правила из базы

правила из базы данных на естественном языке
Не требует

от пользователя выбора входных атрибутов
Точность моделей
Разработан ряд масштабируемых алгоритмов
Быстрый процесс обучения
Обработка пропущенных значений
Работа и с числовыми, и с категориальными типами данных

Слайд 22 Деревья решений. Процесс конструирования.
Основные этапы алгоритмов конструирования

деревьев:
"построение" или "создание" дерева (tree building)
"сокращение" дерева

(tree pruning).

Слайд 23 Деревья решений. Критерии расщепления.
"мера информационного выигрыша" (information gain

measure)
индекс Gini, т.е. gini(T), определяется по формуле:

Большое дерево

не означает, что оно "подходящее"

Слайд 24 Деревья решений. Остановка построения дерева.
Остановка - такой момент

Деревья решений. Остановка построения дерева.Остановка - такой момент в процессе построения

в процессе построения дерева, когда следует прекратить дальнейшие ветвления.

Варианты остановки:
"ранняя остановка" (prepruning)
ограничение глубины дерева
задание минимального количества примеров

Слайд 25 Деревья решений. Сокращение дерева или отсечение ветвей.
Критерии:
Точность распознавания

Ошибка

Слайд 26 Деревья решений. Алгоритмы. CART .
CART (Classification and Regression

Деревья решений. Алгоритмы. CART .CART (Classification and Regression Tree) разработан в

Tree)
разработан в 1974-1984 годах четырьмя профессорами статистики -

Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford)
CART предназначен для построения бинарного дерева решений.
Особенности:
функция оценки качества разбиения;
механизм отсечения дерева;
алгоритм обработки пропущенных значений;
построение деревьев регрессии.

Слайд 27 Деревья решений. Алгоритмы. C4.5 .
Строит дерево решений с

Деревья решений. Алгоритмы. C4.5 .Строит дерево решений с неограниченным количеством ветвей

неограниченным количеством ветвей у узла
Дискретные значения => только

классификация
Каждая запись набора данных ассоциирована с одним из предопределенных классов => один из атрибутов набора данных должен являться меткой класса.
Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.

Слайд 28 Деревья решений. Перспективы метода и выводы.
Разработка новых масштабируемых

Деревья решений. Перспективы метода и выводы.Разработка новых масштабируемых алгоритмов (Sprint, предложенный

алгоритмов (Sprint, предложенный Джоном Шафером)
Метод деревьев - иерархическое,

гибкое средство предсказания принадлежности объектов к определенному классу или прогнозирования значений числовых переменных.
Качество работы зависит как от выбора алгоритма, так и от набора исследуемых данных.
Чтобы построить качественную модель, необходимо понимать природу взаимосвязи между зависимыми и независимыми переменными и подготовить достаточный набор данных .

Слайд 29 Метод "ближайшего соседа" или системы рассуждений на основе

аналогичных случаев.
Прецедент - это описание ситуации в сочетании с

подробным указанием действий, предпринимаемых в данной ситуации. Этапы:
сбор подробной информации о поставленной задаче;
сопоставление этой информации с деталями прецедентов, хранящихся в базе, для выявления аналогичных случаев;
выбор прецедента, наиболее близкого к текущей проблеме, из базы прецедентов;
адаптация выбранного решения к текущей проблеме, если это необходимо;
проверка корректности каждого вновь полученного решения;
занесение детальной информации о новом прецеденте в базу прецедентов.

Слайд 30 Метод "ближайшего соседа". Преимущества.
Простота использования полученных результатов.
Решения не

уникальны для конкретной ситуации, возможно их использование для других

случаев.
Целью поиска является не гарантированно верное решение, а лучшее из возможных.

Слайд 31 Метод "ближайшего соседа". Недостатки.
Данный метод не создает каких-либо

моделей или правил, обобщающих предыдущий опыт
Cложность выбора меры "близости"

(метрики).
Высокая зависимость результатов классификации от выбранной метрики.
Необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость.
Типичные задачи данного метода - это задачи небольшой размерности по количеству классов и переменных.

Слайд 32 Метод "ближайшего соседа". Решение задачи классификации новых объектов.

Слайд 33 Метод "ближайшего соседа". Решение задачи прогнозирования.

Слайд 34 Метод "ближайшего соседа". Оценка параметра k методом кросс-проверки.
Кросс-проверка

- известный метод получения оценок неизвестных параметров модели.
Основная

идея - разделение выборки данных на v "складок". V "складки" здесь суть случайным образом выделенные изолированные подвыборки.

Слайд 35 Метод "ближайшего соседа". Примеры использования и реализации.
Использование -

программное обеспечение центра технической поддержки компании Dell, разработанное компанией

Inference.
Реализация - CBR Express и Case Point (Inference Corp.), Apriori (Answer Systems), DP Umbrella (VYCOR Corp.), KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США), а также некоторые статистические пакеты, например, Statistica.

- Предыдущая Политические процессы в СССР с 1953-1964

Следующая - Викторина по творчеству Ф.М.Достоевского

Изучение и внедрение нормативной базы ЕГЭ по информатике 192

MSC.Nastran 102 2001 - 17 161

Компьютерные вирусы: методы распространения, профилактика заражения. 157

Сканирование 181

Классификация программного обеспечения 186

Руководство пользователя программы Microsoft Word 216

Управление потоком 195

Электронная память 194

социальная информатика 213

Презентация по информатике: Женщины- лауреаты Нобелевской премии 270

Пословицы на современный лад 153

Офисное программное обеспечение. Разработка текстовых документов 159

Добавление звуков и их воспроизведение в ходе презентации Power Point 2007 169

Электронное Правительство 198

Электронная база данных археологических находок 149

Технологии доступа к данным. ИТ в электронной коммерции. (Тема 10) 179

От индустриального общества к информационному 156

Логические основы построения компьютера 254

Презентация по информатике на тему Восстановление данных. 329

Суд над интернет 171

Язык программирования Паскаль 165

Проверочная работа по информатике №2 (3 класс) презентация к уроку по информатике (3 класс) по теме 80

Реляционные базы данных 177

Аттестационная работа. Элективный курс по информатике Математические основы информатики 147

Что такое findslide.org?

Обратная связь

Презентация на тему Анализ данных с Data Mining

Содержание

Слайд 2 ДокладчикиАлександра Симонова, Мат-Мех, 5 курс

Слайд 3 История Data Mining1960-е гг. – первая промышленная СУБД

система IMS фирмы IBM.1970-е гг. – Conference on Data

Слайд 4 Возникновение Data Mining. Способствующие факторысовершенствование аппаратного и программного

обеспечения; совершенствование технологий хранения и записи данных; накопление большого

Слайд 5 Понятие Data MiningData Mining - это процесс обнаружения

в сырых данных ранее неизвестных, нетривиальных, практически полезных и

Слайд 6 Мультидисциплинарность

Слайд 8 Стадии Data MiningСВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)ПРОГНОСТИЧЕСКОЕ

МОДЕЛИРОВАНИЕАНАЛИЗ ИСКЛЮЧЕНИЙ

Слайд 9 Методы Data Mining. Технологические методы.Непосредственное использование данных, или

сохранение данных: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа,

Слайд 10 Методы Data Mining. Статистические методы.Дескриптивный анализ и описание

исходных данных.Анализ связей (корреляционный и регрессионный анализ, факторный анализ,

Слайд 11 Методы Data Mining. Кибернетические методы.Искусственные нейронные сети (распознавание,

кластеризация, прогноз);Эволюционное программирование (в т.ч. алгоритмы метода группового учета

Слайд 12 Визуализация инструментов Data Mining.Для деревьев решений - визуализатор

дерева решений, список правил, таблица сопряженности. Для нейронных сетей

Слайд 13 Проблемы и вопросыData Mining не может заменить аналитика!Сложность

разработки и эксплуатации приложения Data Mining. Основные аспекты:Квалификация пользователяСложность

Слайд 14 Области применения Data miningDatabase marketers - Рыночная сегментация,

идентификация целевых групп, построение профиля клиентаБанковское дело - Анализ

Слайд 15 Области применения Data mining. Продолжение.Телекоммуникация и энергетика -

Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок,

Слайд 16 Перспективы технологии Data Mining.выделение типов предметных областей с

соответствующими им эвристикамисоздание формальных языков и логических средств, с

Слайд 17 Литература по Data Mining"Wikipedia about Data Mining" (http://en.wikipedia.org/wiki/Data_mining)"Data

Mining Tutorials" (http://www.eruditionhome.com/datamining/tut.html)"Thearling intro paper" (http://www.thearling.com/text/dmwhite/dmwhite.htm)"Что такое Data mining?“

Слайд 18 Деревья решений. История и основные понятия.Возникновение - 50-е

годы (Ховиленд и Хант (Hoveland, Hunt) )Метод также называют