Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Технологии анализа данных

Содержание

❶❸❷Выявление (подтверждение, корректиро-вка) закономерности в поведении соци-ального объекта (явления, процесса)Объяснение на основе выявленной зако-номерности поведения социального объекта (явлении, процесса)Предсказание его поведения в будущемЦели анализа данных
Технологии анализа данныхДомрачев С.А., доцент, кандидат технических наук ❶❸❷Выявление (подтверждение, корректиро-вка) закономерности в поведении соци-ального объекта (явления, процесса)Объяснение на основе Процесс аналитического исследования больших массивов необработанных данных в Понятие Data Mining Data Mining - мультидисциплинарная область зна-ний, нацеленная на «раскопку» Методы и алгоритмы Data MiningК методам и алгоритмам Data Mining можно отнести Состоит из трех стадий: Выявление закономерностей (свободный поиск) Использование выявленных закономерностей Стадия свободного поискаОсуществляется извлечение полезной информации из первичных данных и преобразование ее Стадия прогностического моделированияИспользует результаты предыдущей стадии непос-редственно для прогнозирования новых результа-тов, основанного Анализ исключенийПредназначен для выявления и формализации ано-малий (отклонений), в найденных на предыдущих Применяется:⮊ при отсутствии или недостаточности предвари-    тельной информации о С методологической точки зрения:Класс аналитических методов, построенных на при-нципах обучения мыслящих существ Входной слойВыходной слойСкрытые слоиПостроение нейронных сетей Таким образом, передаточная функция имеет вид:Y = f ( ∑ Wi*Xi ) Для разработки и применения нейронных сетей используются:⮊ программный пакет NeurOn-line⮊ NeuralWorks Professional Представляет собой структурно-параметрическую формализацию социально-экономических и поли-тических процессовВыражается в виде ориентированного графаВершины Для повышения адекватности когнитивных моделей изменяют качество оргграфа:Знаковый граф (когнитивная карта)Взвешенный граф анализа документов текстовых Методы Анализ символьных данных представляет собой творческий процесс, зависящий от:⮊ содержания и сложности При оценке надежности учитывают следующие факторы:⮊ является ли документ официальным⮊ является ли Технологии автоматического извлечения знаний могут быть сведены к следующим направлениям:❶ классификация❷ кластерный Представляет собой систему рубрицирования тек-стовых документов, базирующуюся на разделении понятий «тема» и обеспечивает:❶ интеграцию разнородной информации❷ профилирование пользователей и проблем❸ проблемно-тематическую навигацию по Применяется при реферировании больших докуме-нтальных массивов и выделении компактных под-групп документов с Заключается в использовании технологических процедур:❶ индексирование ключевыми словамианализ смыслового содержания текста для Реализует функцию выявления и идентификации ассоциативных и причинно-следственных связей между существенными темами
Слайды презентации

Слайд 2


Выявление (подтверждение, корректиро-вка) закономерности в поведении соци-ального объекта

❶❸❷Выявление (подтверждение, корректиро-вка) закономерности в поведении соци-ального объекта (явления, процесса)Объяснение на

(явления, процесса)
Объяснение на основе выявленной зако-номерности поведения социального объекта

(явлении, процесса)

Предсказание его поведения в будущем


Цели анализа данных


Слайд 3 Процесс аналитического исследования больших

Процесс аналитического исследования больших массивов необработанных данных в целях

массивов необработанных данных в целях выявления скрытых закономернос-тей и

систематических взаимосвязей между ними, для применения к новым совокупнос-тям данных


Интеллектуальный анализ данных


Слайд 4
Понятие Data Mining
Data Mining - мультидисциплинарная область

Понятие Data Mining Data Mining - мультидисциплинарная область зна-ний, нацеленная на

зна-ний, нацеленная на «раскопку» полезных данных в больших массивах

необработанной информации

Слайд 5
Методы и алгоритмы Data Mining
К методам и алгоритмам

Методы и алгоритмы Data MiningК методам и алгоритмам Data Mining можно

Data Mining можно отнести следующие:
⮊ искусственные нейронные сети
⮊ деревья

решений

⮊ кластерный анализ

⮊ поиск ассоциативных правил

⮊ эволюционное программирование (генетические алгоритмы)

⮊ методы визуализации данных

и множество других…


Слайд 6 Состоит из трех стадий:
 Выявление закономерностей (свободный поиск)

Состоит из трех стадий: Выявление закономерностей (свободный поиск) Использование выявленных закономерностей

Использование выявленных закономерностей для предсказания неизвестных

значений (про- гностическое моделирование)

 Анализ исключений, для выявления и толкова- ния аномалий в найденных закономерностях


Классификация стадий Data Mining


Слайд 7
Стадия свободного поиска
Осуществляется извлечение полезной информации из первичных

Стадия свободного поискаОсуществляется извлечение полезной информации из первичных данных и преобразование

данных и преобразование ее в некото-рые формальные конструкции, обуславливающие

имеющиеся закономерности

Состоит из следующих действий :

⮊ выявление закономерностей условной логики

⮊ выявление закономерностей ассоциативной логики

⮊ выявление трендов и колебаний

применяются индукции правил условной логики для классификации и кластеризации (описание в компактной форме близких или схожих групп объектов)

установление логических ассоциаций для последователь-ного извлечения при их помощи полезной информации

сбор исходных данных для задачи прогнозирования


Слайд 8
Стадия прогностического моделирования
Использует результаты предыдущей стадии непос-редственно для

Стадия прогностического моделированияИспользует результаты предыдущей стадии непос-редственно для прогнозирования новых результа-тов,

прогнозирования новых результа-тов, основанного на анализе прецедентов
Состоит из следующих

действий :

⮊ предсказание неизвестных значений

⮊ прогнозирование развития процессов

Т.о. можно получить новое знание о некотором объекте или же группе объектов на основании:

❶ знания класса, к которому принадлежат исследуемые объекты

❷ знания общего правила, действующего в пределах данного класса объектов


Слайд 9
Анализ исключений
Предназначен для выявления и формализации ано-малий (отклонений),

в найденных на предыдущих стадиях закономерностях
Найдено правило - "Если

возраст > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90 % случаев соискатель ищет руководящую работу"

Пример:

Возникает вопрос - к чему отнести оставшиеся 10 % случаев?

Возможны два варианта:

❶ существует некоторое логическое объяснение, которое также может быть оформлено в виде нового правила

❷ оставшиеся 10% - это ошибки исходных данных, следует исправить (очистить) первичные данных


Слайд 10 Применяется:
⮊ при отсутствии или недостаточности предвари-

Применяется:⮊ при отсутствии или недостаточности предвари-  тельной информации о природе

тельной информации о природе связей;
⮊ при необходимости учета и

сравнения большо- го количества исходных данных;

Используется:

⮊ корреляционный и регрессионный анализ;

⮊ факторный и дискриминантный анализ;

⮊ исчисление индексов и коэффициентов;

⮊ анализ временных рядов и др.

Реализуется:

⮊ программный пакет Statistica;

⮊ программный пакет SyStat;

⮊ программный пакет Stadia;

и др.


Разведочный анализ данных


Слайд 11 С методологической точки зрения:
Класс аналитических методов, построенных на

С методологической точки зрения:Класс аналитических методов, построенных на при-нципах обучения мыслящих

при-нципах обучения мыслящих существ и функциони-рования мозга, что позволяет

прогнозировать зна-чения некоторых переменных в новых ситуациях по данным имеющихся наблюдений

С точки зрения реализации:

Компьютерная программа, результат работы кото-рой зависит от результата функционирования боль-шого количества однотипных элементов – нейронов (подпрограмм), обладающих некоторыми свойствами и признаками


Использование нейронных сетей


Слайд 12 Входной слой
Выходной слой
Скрытые слои

Построение нейронных сетей

Входной слойВыходной слойСкрытые слоиПостроение нейронных сетей

Слайд 13 Таким образом, передаточная функция имеет вид:
Y = f

Таким образом, передаточная функция имеет вид:Y = f ( ∑ Wi*Xi

( ∑ Wi*Xi )

где,
Xi – значение входного признака;
Y – значение выходного признака;
Wi – вес входного признака, отражающий
степень его влияния на выходной


Принцип функционирования нейронов


Слайд 14 Для разработки и применения нейронных сетей используются:
⮊ программный

Для разработки и применения нейронных сетей используются:⮊ программный пакет NeurOn-line⮊ NeuralWorks

пакет NeurOn-line
⮊ NeuralWorks Professional II/Plus
⮊ FOREX-94
и др.
GENSYM
NeuralWare
Уралвнешторгбанк

Инструментальные средства


Слайд 15 Представляет собой структурно-параметрическую формализацию социально-экономических и поли-тических процессов
Выражается

Представляет собой структурно-параметрическую формализацию социально-экономических и поли-тических процессовВыражается в виде ориентированного

в виде ориентированного графа
Вершины графа – существенные факторы, определяющие

динамику развития исследуемого процесса

Дуги графа – непосредственные причинно-следственные отноше-ния между факторами


Когнитивное моделирование


Слайд 16 Для повышения адекватности когнитивных моделей изменяют качество оргграфа:
Знаковый

Для повышения адекватности когнитивных моделей изменяют качество оргграфа:Знаковый граф (когнитивная карта)Взвешенный

граф (когнитивная карта)
Взвешенный граф
Функциональный граф

Особенности структурного представления


Слайд 17 анализа
документов
текстовых
Методы

анализа документов текстовых Методы

Слайд 18 Анализ символьных данных представляет собой творческий процесс, зависящий

Анализ символьных данных представляет собой творческий процесс, зависящий от:⮊ содержания и

от:
⮊ содержания и сложности построения документа
⮊ условий, целей и

задач проводимого исследова- ния

⮊ научной квалификации, богатства опыта и твор- ческой интуиции исследователя


Анализ текстовых документов

Анализ документов позволяет выявить определен-ные особенности, свойства и взаимосвязи тех или иных явлений и процессов, специфику включения в них различных субъектов социально-экономической и политической жизни, проследить динамику их раз-вития.


Слайд 19 При оценке надежности учитывают следующие факторы:
⮊ является ли

При оценке надежности учитывают следующие факторы:⮊ является ли документ официальным⮊ является

документ официальным
⮊ является ли документ личным или безличным
⮊ подвергался

ли документ контролю (юридический, финансовый и т.п.)

⮊ тенденциозный характер документа (биографии, мемуары и т.п.)


Оценка надежности документальной информации


Слайд 20 Технологии автоматического извлечения знаний могут быть сведены к

Технологии автоматического извлечения знаний могут быть сведены к следующим направлениям:❶ классификация❷

следующим направлениям:
❶ классификация
❷ кластерный анализ
❸ семантическое сжатие текста
❹ построение

семантических сетей


Информационно-аналитическая обработка текстов


Слайд 21 Представляет собой систему рубрицирования тек-стовых документов, базирующуюся на

Представляет собой систему рубрицирования тек-стовых документов, базирующуюся на разделении понятий «тема»

разделении понятий «тема» и «проблема»
Тема более простая и устойчивая

в лексическом плане конструкция, допускающая возмож- ность автоматического распознавания

Проблема более сложная, меняющаяся со време- нем и обстоятельствами лексическая конструкция, синтезируемая из темати- ческих категорий


Классификация текстовых документов


Слайд 22 обеспечивает:
❶ интеграцию разнородной информации
❷ профилирование пользователей и проблем

обеспечивает:❶ интеграцию разнородной информации❷ профилирование пользователей и проблем❸ проблемно-тематическую навигацию по

проблемно-тематическую навигацию по информационным фондам
❹ интерпретацию содержания

документов на модели предметной области

обладает свойствами:

❶ тематическая полнота, обеспечивающая соот- несение документа соответствующим рубрикам

❷ временная устойчивость, дающая возможность ретроспективного сопоставительного анализа текстов

❸ компактность представления


Система рубрицирования


Слайд 23 Применяется при реферировании больших докуме-нтальных массивов и выделении

Применяется при реферировании больших докуме-нтальных массивов и выделении компактных под-групп документов

компактных под-групп документов с близкими свойствами
Различают два основных типа

кластеризации:

❶ иерархический

❷ бинарный

построение дендритной структуры, выраженной деревом кластеров, содержащих близкие по смыслу группы доку- ментов

группировка и просмотр документальных кластеров по ссылкам подобия, основанных на весах и определяемых ключевых словах


Кластерный анализ подборок текстовых документов


Слайд 24 Заключается в использовании технологических процедур:
❶ индексирование ключевыми словами
анализ

Заключается в использовании технологических процедур:❶ индексирование ключевыми словамианализ смыслового содержания текста

смыслового содержания текста для выделения све-дений об известных объектах,

их свойствах и отношениях между собой с целью создания терминологического порт-рета документа

❷ автоматическое реферирование текстов

квазирефераты – последовательность извлеченных фраг-ментов текста, наиболее репрезентативно представляю-щих содержание документа

❸ построение гипертекстовых структур

рефераты-клише – набор извлеченных из текста наиболее информативных слов, которые вставляются в заготовлен-ные шаблоны


Семантическое сжатие текста


  • Имя файла: tehnologii-analiza-dannyh.pptx
  • Количество просмотров: 138
  • Количество скачиваний: 0