Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Кластерный анализ. Сходство ФА и КА (Лекция 23)

Содержание

Сходство ФА и КАКластерным анализом называется эвристическая математическая процедура, цель которой является типологическая группировка совокупностей объектов на основе множества признаков этих объектов.С математической точки зрения кластерный анализ аналогичен факторному. Если факторный анализ находит латентные переменные, дисперсия
Кластерный анализЛекция 23Звоновский, к.с.н. Сходство ФА и КАКластерным анализом называется эвристическая математическая процедура, цель которой является Стратегии кластерного анализаСтратегия кластерного анализа различается в зависимости от числа объектов, подлежащих Возможные результаты анализаВозможные результаты кластерного анализачисло кластеров заранее задано. Это случаи, когда Кластерный анализОтбор выборки для кластеризацииОпределение множества признаков, по которым будут формироваться группыВыбор Меры близостиПринадлежность отдельной единицы выборки тому или иному кластеру определяется расстоянием между Меры близостиМер близости и способов вычисления расстояний между объектами существует великое множество. Типы кластерного анализаВ первом случае мы имеем иерархические агломерационные методы. Здесь первый Иерархические методы анализаПеред началом кластеризации все объекты считаются отдельными кластерами, который в Расстояния между кластерамиПри вычислении расстояний между двумя объектами, интерпретация данного параметра однозначна, Расстояния между кластерамиBetween-groups linkage – среднее расстояние Nearest neighbor – расстояние между СтандартизацияПоскольку кластерный анализ носит эвристический характер, для стандартизаций помимо традиционной z-стандартизации, используют Пример иерархической дендрограммыРезультат агломеративного метода кластерного анализа наглядно представляется и легко интерпретируется Дивизионные методы (k-means)Методы слияния очень хороши для случаев, когда объектов для группировки Дивизионные методы (k-means)На первом этапе исследователь задает количество кластеров – число к Интерпретация результатовГлавным критерием для удовлетворения результатом КА является интерпретация его результатов. Можно ПредостереженияМногие методы кластерного анализа – это довольно простые (для понимания) процедуры, статистическое Советы для проведения анализа1. Выполняйте кластерный анализ на основании одних и тех
Слайды презентации

Слайд 2 Сходство ФА и КА
Кластерным анализом называется эвристическая математическая

Сходство ФА и КАКластерным анализом называется эвристическая математическая процедура, цель которой

процедура, цель которой является типологическая группировка совокупностей объектов на

основе множества признаков этих объектов.
С математической точки зрения кластерный анализ аналогичен факторному. Если факторный анализ находит латентные переменные, дисперсия которых объясняет дисперсию наблюдаемых переменных, то кластерный анализ ищет объекты, вариацией которых являются единицы выборки.
Социологическое же содержание двух видов анализа различно. Факторный ищет латентные объясняющие факторы, кластерный производит классификацию объектов наблюдения.
Первые обстоятельные и эффективные руководства по кластерному анализу появились в книге Р.Сокэла и П.Снита «Начала численной таксономии». Книга была посвящена биологическому разнообразию.

Слайд 3 Стратегии кластерного анализа
Стратегия кластерного анализа различается в зависимости

Стратегии кластерного анализаСтратегия кластерного анализа различается в зависимости от числа объектов,

от числа объектов, подлежащих классификации.
Небольшое число объектов -

стран, городов, предприятий, продуктов. В этих случаях ставится задача более или менее надежного отнесения каждого объекта к той или иной группе. Здесь чаще всего классифицируется вся генеральная совокупность.
Большое число объектов – жителей города, страны, семей, населенных пунктов. В этих случаях ставится задача более или менее надежного отнесения всех или большей части объектов к той или иной группе. Здесь чаще всего классифицируется вся выборочная совокупность и на основе сделанной классификации делается вывод о возможности классификации генеральной совокупности.

Слайд 4 Возможные результаты анализа
Возможные результаты кластерного анализа
число кластеров заранее

Возможные результаты анализаВозможные результаты кластерного анализачисло кластеров заранее задано. Это случаи,

задано. Это случаи, когда классификация носит априорный характер (высокий,

средний и низкий уровень благосостояния) или когда классификация единожды (ранее или с другой группой объектов) уже была проведена.
число кластеров неизвестно и подлежит определению. Это наиболее распространенный случай, когда стоит задача сгруппировать имеющийся массив объектов в заранее неизвестное число кластеров
число кластеров неизвестно, но его определение и не входит в условие задачи, требуется построить так называемое иерархическое дерево исследуемой совокупности. Характерно для небольшого числа объектов измерения. Целью таких исследований, чаще всего, является изучение формирования групп, а не результат.

Слайд 5 Кластерный анализ
Отбор выборки для кластеризации
Определение множества признаков, по

Кластерный анализОтбор выборки для кластеризацииОпределение множества признаков, по которым будут формироваться

которым будут формироваться группы
Выбор меры расстояний (сходства)
Вычисление значений той

или иной

Применение КА для формирования групп

Проверка достоверности результатов КА


Слайд 6 Меры близости
Принадлежность отдельной единицы выборки тому или иному

Меры близостиПринадлежность отдельной единицы выборки тому или иному кластеру определяется расстоянием

кластеру определяется расстоянием между этой единицей и центром кластера.


Слайд 7 Меры близости
Мер близости и способов вычисления расстояний между

Меры близостиМер близости и способов вычисления расстояний между объектами существует великое

объектами существует великое множество. Наиболее распространенным является евклидово расстояние,

которое лучше всего использовать, когда анализ строится лишь на метрических переменных.
Существуют меры расстояний для частотных шкал (чаще всего хи-квадрат).
Номинальные шкалы переводят в бинарные и используют другие меры близости, например расстояние (мера) Жаккара.

Поскольку меры расстояния – их выбор и исполнение - играют определяющую роль в проведении кластерного анализа, главное значение имеет то, измеряется ли расстояние между двумя объектами до их объединения или после такого объединения.



Слайд 8 Типы кластерного анализа
В первом случае мы имеем иерархические

Типы кластерного анализаВ первом случае мы имеем иерархические агломерационные методы. Здесь

агломерационные методы. Здесь первый выбранный объект объединяется с тем,

мера близости с которым у него минимальна. В результате получается иерархия, которая начинается с самого близкого объекта и заканчивается самым дальним.
Во втором случае мы имеем дивизионные (разделяющие) методы. В них первоначально массив данных делят на две части, которые максимально отличаются друг от друга (отстоят максимально далеко).

Слайд 9 Иерархические методы анализа
Перед началом кластеризации все объекты считаются

Иерархические методы анализаПеред началом кластеризации все объекты считаются отдельными кластерами, который

отдельными кластерами, который в ходе алгоритма объединяются.
Вначале мы

имеем N объектов и между ними попарно вычисляются расстояния.
Далее выбирается пара объектов, которые расположены наиболее близко друг к другу, и эти объекты объединяются в один кластер. Теперь мы имеем N-1 кластер и процедура повторяется снова.
На любом этапе объединение можно прервать, удовлетворившись результатом.
Определение числа кластеров остается выбором исследователя, исходя из его целей, характера области исследования и возможностью интерпретации результата.
Также не следует забывать об ограниченной выборке: дробя ее (увеличивая число кластеров), мы снижаем возможности использования произведенной кластеризации.

Слайд 10 Расстояния между кластерами
При вычислении расстояний между двумя объектами,

Расстояния между кластерамиПри вычислении расстояний между двумя объектами, интерпретация данного параметра

интерпретация данного параметра однозначна, поскольку объекты носят точечный характер.
Однако,

уже составленный из двух объектов кластер будет иметь несколько характеристик, который можно считать расстоянием до него.
Within-groups linkage – среднее расстояние между всеми парами объектов в кластере




Слайд 11 Расстояния между кластерами
Between-groups linkage – среднее расстояние
Nearest

Расстояния между кластерамиBetween-groups linkage – среднее расстояние Nearest neighbor – расстояние

neighbor – расстояние между ближайшими соседями
Furthest neighbor - расстояние

между далекими соседями





Centroid clustering – расстояние между центрами кластеров.

Ward’s method – расстояние между кластерами как прирост суммы квадратов расстояний между центрами после объединения. Метод построен так, чтобы оптимизировать минимальную дисперсию внутри кластеров.



Слайд 12 Стандартизация
Поскольку кластерный анализ носит эвристический характер, для стандартизаций

СтандартизацияПоскольку кластерный анализ носит эвристический характер, для стандартизаций помимо традиционной z-стандартизации,

помимо традиционной z-стандартизации, используют
Нормирование к диапазону от -1

до 1
Нормирование к диапазону от 0 до 1
Нормирование к максимальному значению, принимаемое за 1
Нормирование к среднему значению, принимаемое за 1
Возможны нелинейные преобразования, например, принять за расстояния их абсолютные значения.

Слайд 13 Пример иерархической дендрограммы
Результат агломеративного метода кластерного анализа наглядно

Пример иерархической дендрограммыРезультат агломеративного метода кластерного анализа наглядно представляется и легко интерпретируется

представляется и легко интерпретируется


Слайд 14 Дивизионные методы (k-means)
Методы слияния очень хороши для случаев,

Дивизионные методы (k-means)Методы слияния очень хороши для случаев, когда объектов для

когда объектов для группировки немного. Каждый из объектов можно

«пощупать», «повертеть» в руках. Можно приложить усилия и собрать дополнительные данные относительно этих объектов.
К тому же процедура объединения на каждом шаге указывает на структуру данных и иерархию объектов.
Однако, все эти достоинства исчезают, если массив данных велик и сами объекты не имеют конкретной привязки в генеральной совокупности.
Среди дивизионных методов чаще других используется метод к-средних. Он прост в реализации и дает легко интерпретируемые результаты.

Слайд 15 Дивизионные методы (k-means)
На первом этапе исследователь задает количество

Дивизионные методы (k-means)На первом этапе исследователь задает количество кластеров – число

кластеров – число к и произвольно выбираются к точек,

которые принимаются за центры кластеров.
Затем все объекты распределяются по кластерам в зависимости от расстояния от него до предполагаемого центра кластера.
На третьем этапе вычисляются центры кластеров, полученных в результате объединения N объектов в k кластеров.
На следующем этапе вновь вычисляются расстояния между объектами и центрами получившихся кластеров. Эта операция повторяется до тех пор, пока центры кластеров не стабилизируются. Обычно на это хватает 8-10 итераций.
Если исследователь не удовлетворен результатом группировки, он может задать другое количество кластеров.

Слайд 16 Интерпретация результатов
Главным критерием для удовлетворения результатом КА является

Интерпретация результатовГлавным критерием для удовлетворения результатом КА является интерпретация его результатов.

интерпретация его результатов.
Можно ли описать полученную структуру данных?


Существуют ли другие отличия, например, социально-демографические, между объектами, вошедшими в разные кластеры?

Как выбрать число кластеров? – главный вопрос анализа.
Насколько однородны кластеры. Для этого нужно сравнить дисперсии полученных кластеров. Разумеется, дисперсия отдельных кластеров должна быть ниже общей.


Слайд 17 Предостережения
Многие методы кластерного анализа – это довольно простые

ПредостереженияМногие методы кластерного анализа – это довольно простые (для понимания) процедуры,

(для понимания) процедуры, статистическое обоснование которых еще ждет своего

полноценного решения. Это лишь – правдоподобные алгоритмы группировки.
Методы кластерного анализа разрабатывались для многих научных дисциплин и несут в себе требования к данным, принятым в этих дисциплинах.
Разные кластерные методы могут порождать разные решения для одного и того же массива данных.
Цель кластерного анализа заключается в поиске существующих структур. На самом деле кластерный анализ сам формирует такую структуру, привносит ее в данные.



  • Имя файла: klasternyy-analiz-shodstvo-fa-i-ka-lektsiya-23.pptx
  • Количество просмотров: 134
  • Количество скачиваний: 0