Слайд 2
План
Понятие дерева решений. Применение деревьев решений в задаче
выявления рыночных сегментов.
Алгоритмы построения дерева решений.
Реализация сегментации на
основе деревьев решений в SPSS, Deductor и др. программах.
Слайд 3
Дерево решений для сегментации заемщиков банка
Слайд 4
Дерево решений для сегментации обменивающих валюту клиентов
Слайд 5
Понятие дерева решений
Дерево решений (классификации) – это способ
представления правил в иерархической, последовательной структуре, где каждому объекту
соответствует единственный узел, дающий решение.
Дерево классификации – набор последовательно выделенных сегментов с наибольшими различиями целевой переменной (например, группы с максимальным и минимальным процентом заинтересованных в услуге).
Это позволяет найти, сочетание каких признаков сильнее всего влияет на целевую переменную, а также определить наиболее перспективные целевые группы.
Слайд 6
Достоинства деревьев решений
быстрый процесс обучения
генерация правил в областях,
где эксперту трудно формализовать свои знания
извлечение правил на естественном
языке
интуитивно понятная классификационная модель
высокая точность прогноза
построение непараметрических моделей.
Слайд 7
Основные этапы алгоритмов конструирования деревьев
построение дерева (tree building)
выбор
атрибута для разбиения дерева
выбранный атрибут должен разбить множество так,
чтобы получаемые в итоге подмножества состояли из объектов, принадлежащих к одному классу, или были максимально приближены к этому, т.е. количество объектов из других классов ("примесей") в каждом из этих множеств было как можно меньше
остановка
сокращение дерева (tree pruning)
на основе анализа ошибок классификации
Слайд 8
Алгоритмы построения деревьев решений
CHAID, ECHAID (Exhaustive CHAID)
для
получения оптимального разбиения используется критерий связи между категориальными переменными
хи-квадрат (в случае, если целевая переменная является количественной, используется F-критерий). Исходно целевая переменная и переменные-предикторы могут быть как количественными, так и категориальными, однако количественные предикторы при построении дерева преобразуются в категориальные.
ID3
C.4.5
CART (Classification And Regression Tree)
основан не на статистических критериях, а на уменьшении неоднородности сегментов (узлов) (индекс Gini). Хорошо работает в том случае, если все переменные в анализе являются количественными. В методе могут быть использованы как количественные, так и категориальные целевая переменная и переменные предикторы
QUEST
В данном методе для выбора предикторов . применяются различные критерии, в зависимости от типа потенциального предиктора. Он позволяет избегать смещений, связанных с выбором предикторов с большим количеством категорий, но целевая переменная в данном случае должна быть категориальной. Предикторы могут быть как количественными, так и категориальными.
Слайд 9
CHAID-анализ: основные идеи
Метод основан на критерии хи-квадрат.
На входе
анализа – категориальная зависимая переменная (например, заинтересованность/незаинтересованность в услуге)
и несколько независимых переменных (предикторов).
Вначале ищется самый сильный фактор, который наилучшим образом объясняет различия между категориями зависимой переменной. Автоматически перебираются все предикторы, ищутся все комбинации значений и находится наилучшее решение, т.е. то, которое максимизирует различия (при котором наибольший хи-квадрат).
Далее в каждой из полученных групп процесс повторяется заново: вновь перебираются все предикторы и находится оптимальное решение для второго уровня. То же – для следующих уровней. В каждой из подгрупп процесс происходит независимо, т.е. например, первым фактором оказался пол, а далее для женщин важен возраст, а для мужчин, скажем, семейное положение.
Слайд 10
Пример: дерево решений в SPSS
Целевая переменная
credit rating
(кредитный рейтинг)
Предикторы
Age (возраст)
Income level (уровень дохода)
Number of credit cards
(количество кредиток)
Education (образование)
Car loans (количество автокредитов)
Слайд 14
Шаг 4 - дополнительные настройки
Слайд 16
Шаг 5 – анализ дерева (продолжение)