УПРОЩЕНИЕ СЛУЧАЙНЫХ ЛЕСОВ: КОМПРОМИСС МЕЖДУ ИНТЕРПРЕТИРУЕМОСТЬЮ И ТОЧНОСТЬЮ

УПРОЩЕНИЕ СЛУЧАЙНЫХ ЛЕСОВ: КОМПРОМИСС МЕЖДУ ИНТЕРПРЕТИРУЕМОСТЬЮ И ТОЧНОСТЬЮ

Шмелев Григорий Сергеевич

Студент 2-го курса

институт прикладной математики и компьютерных наук

ФГБОУ ВО «Тульский государственный университет»

Россия, г. Тула

Аннотация. Я анализирую компромисс между сложностью модели и точностью для случайных лесов (random forests), разбивая деревья на отдельные правила классификации и выбирая их подмножества. Также я показываю экспериментально, что уже нескольких правил достаточно для достижения приемлемой точности, близкой к точности исходной модели. Более того, результаты показывают, что во многих случаях это может привести к более простым моделям, которые явно превосходят исходные.

Ключевые слова: случайные леса, задачи классификации, деревья решений

Введение

Случайные леса (RF) [2] – это современный метод решения задач классификации и регрессии в широком диапазоне областей. Этот метод также применяется к задачам, для которых общепринято, что деревья решений являются неподходящими моделями, например, в областях с непрерывными входными пространствами, для которых выровненные по оси границы решения регулярных деревьев решений накладывают ограничение. Два аспекта в индукции RF, кажется, имеют решающее значение для этой улучшенной способности. Во-первых, из-за случайной выборки признаков и формирования пакетов, приводящих к слегка смещенным распределениям классов, каждое дерево решений выбирает слегка отличающиеся пороговые значения, шаблоны и условия признаков. Это приводит к множеству альтернативных объяснений, увеличивая шансы включения шаблонов с хорошим обобщением и одновременно избегая переобучения, поддерживая определенную степень изменчивости. Во-вторых, используя группу деревьев, чьи прогнозы объединяются путем голосования, случайные леса достигают плавных границ принятия решений, что позволяет им решать проблемы, которые не могут быть решены с помощью общего дерева решений для отдельных деревьев.

К сожалению, одно из ключевых преимуществ деревьев решений, а именно их интерпретируемость, сильно ограничено. Даже если каждое из деревьев можно понять и проанализировать индивидуально, осмотр сотен или тысяч из них может легко подавить человека. В этой работе меня интересует компромисс между эффективностью и интерпретируемостью таких объединений. Я предлагаю преобразовать случайные леса в правила классификации и исследовать упомянутый компромисс, выбрав подмножества этих правил, используя различные подходы и эвристики, известные из области индукции правил. В этом анализе я учитываю различные аспекты, такие как охват и полнота, избегание избыточности и точность конечных моделей. Также я утверждаю, что основанная на правилах стратегия имеет концептуальные преимущества по сравнению с выбором подмножества деревьев. Во-первых, она позволяет проводить более детальный анализ, поскольку можно исследовать эффект добавления отдельных правил, а не целых деревьев, которые потенциально состоят из большого числа правил. Во-вторых, основание выбора на деревьях, а не на правилах, не приведет к лучшему компромиссу между эффективностью и интерпретируемостью, поскольку каждое дерево покрывает все пространство экземпляра и, следовательно, вносит большое количество избыточных правил в модель.

Упрощение случайных лесов путем выбора правил

Случайный лес состоит из заранее определенного числа i деревьев решений. Для построения отдельных деревьев учитывается только подмножество доступных обучающих экземпляров (пакетирование) и атрибутов (случайная выборка признаков), что гарантирует разнообразный набор деревьев.

Деревья случайных лесов могут быть преобразованы в эквивалентный набор из d правил r: H ← B, рассматривая каждый путь от корневого узла до листа в качестве правила предложения, где конъюнкция B содержит все условия, встречающиеся на пути, и H предсказывает класс в листе. Для прогнозирования каждое правило покрытия обеспечивает голос за класс в его голове. Обратите внимание, что способ генерирования этих правил гарантирует, что каждый пример будет охватываться ровно i правилами.

Чтобы оценить качество отдельных правил, я полагаюсь на эвристику, обычно используемую при обучении правилам (см., например, [1]). Эти эвристики фильтруют количество истинных положительных, ложных положительных, истинных отрицательных и ложных отрицательных значений, предсказанных правилом, в эвристическое значение h, обычно ∈ [0, 1]. Среди эвристик, которые я использую, есть точность или достоверность, которая часто использовалась, несмотря на ее склонность к переобучению, а также отзывчивость, которая, как ожидается, будет хорошо работать в условиях, когда используется голосование. Кроме того, я использую параметризацию m-оценки, которая оказалась одной из наиболее эффективных эвристик в обучении правилам. Для выбора подмножества n < d правил среди всех d правил, которые были извлечены из RF, используются следующие стратегии. (1) Лучшие правила: лучшие n правил в соответствии с указанной эвристикой включены в подмножество. (2) Взвешенное покрытие: аналогично (1), но после выбора правила, вес покрываемых им экземпляров делится пополам. Повторная проверка оставшихся правил на основе новых весов обеспечивает равный охват данных обучения.

Эксперименты

Для моих экспериментов я натренировал случайный лес со 100 деревьями на наборе обучающих данных, извлек n правил относительно стратегий, упомянутых выше, и оценил их точность на тестовом наборе.

В качестве первого шага я применил свой метод к синтетическому набору данных, задача которого состоит в приближении косой границы решения в двумерном пространстве (рис. 1). Результаты показывают, что выбор наилучших правил в соответствии с определенной эвристикой (в данном случае m-оценкой) дает набор избыточных правил, охватывающих в основном однородную область. Напротив, взвешенное покрытие выбирает более разнообразные правила, более равномерно покрывая пространство экземпляра. Это приводит к более точному приближению исходной границы решения.

На рис. 2 показано поведение различных стратегий выбора правил в наборе данных о раке молочной железы из хранилища UCI (полученном путем 10-кратной перекрестной проверки). В частности, взвешенное покрытие, использующее m-оценку или напоминание (recall), работает хорошо, достигая базовой эффективности использования всех правил уже после выбора около 20 (отзывов) или 60 (m-оценок) правил. При использовании около 20% всех правил можно наблюдать явное улучшение. Интересно, что производительность также может снова упасть (m-оценка). Напоминание (recall) кажется более надежным, даже при использовании лучшей стратегии правил. Это также подход с самым резким увеличением охвата. Результаты для других наборов данных (не показаны здесь) демонстрируют аналогичные эффекты.

Рисунок 1 - Синтетические данные с 800 красными и 200 синими экземплярами, как правило, распределены по соответствующим линиям. Прямоугольники обозначают правила, их цвета обозначают разницу между синими и красными голосами. Зеленая линия визуализирует границы решения.

Рисунок 2 - Точность данных набора рака молочной железы с использованием до d правил (слева) или до 100 правил (в середине). Для последнего также показывается доля непокрытых тестовых экземпляров (справа). Подход «Случайные деревья» добавляет все правила случайным образом выбранного дерева одновременно.

Заключение

Я предложил методику упрощения случайных лесов на основе выбора подмножества правил. Как показывают предварительные результаты, высокая прогнозирующая эффективность достижима уже с помощью нескольких правил, часто даже явно превосходящих базовые показатели. Результаты показывают, что наибольший потенциал для улучшения заключается в стратегии выбора правил.

Список использованной литературы:

1. Fürnkranz, J. Foundations of Rule Learning / J. Fürnkranz, D. Gamberger, N. Lavrač – 1-e изд. – Берлин: Springer-Verlag Berlin Heidelberg, 2012. – 334 с.

2. Random forest [Электронный ресурс] // Wikipedia The Free Encyclopedia – Режим доступа: https://en.wikipedia.org/wiki/Random_forest (дата обращения: 09.11.2019)

Сведения об авторе:

Шмелев Григорий Сергеевич – студент 2-го курса института прикладной математики и компьютерных наук ФГБОУ ВО «Тульский государственный университет».

OVERSIMPLIFYING RANDOM FORESTS: COMPROMISE BETWEEN INTRICACY AND PRECISION

Shmelev G.S.

Abstract. I dissect a compromise between intricacy of a model and precision or random forests by separating trees in singular arrangement regulations and choosing a subset. I indicate that effectively a tad bit of rules are adequate to accomplish a worthy precision near that of the initial model. Also, my outcomes demonstrate that by and large, this can bring more straightforward models that beat the initial ones.

Keywords: random forests, classification problems, decision trees

References:

1. Fürnkranz, J. Foundations of Rule Learning / J. Fürnkranz, D. Gamberger, N. Lavrač – 1 ed. – Berlin: Springer-Verlag Berlin Heidelberg, 2012. – 334 p.

2. Random forest [Electronic resource] // Wikipedia The Free Encyclopedia – Access mode: https://en.wikipedia.org/wiki/Random_forest (access date: 09.11.2019)