Decision Tree

KimSeongJung
Apr 23, 2021

--

Decision Tree 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값을 선택해 하향식으로 분할하는 알고리즘 입니다.

Decision Tree 는 Node Edge 로 구성 되어 있는 Graph 로 표현됩니다.
Decision Tree에서 Node 는 데이터의 집합을 의미하며
Edge 데이터가 분할되는 속성을 의미합니다.

분할적합성을 판단하는 알고리즘은 크게 4가지가 있습니다.

  1. Information Gain
  2. Gini Coefficient
  3. Chi-square
  4. Variance-Reduction

분할시 이 4가지 알고리즘 중 어떤 알고리즘을 사용하는 지에 대한 여부와 그 이외에 여러가지 기법들(pruning, missing value, weight, etc)의 사용 여부에 따라 Decision Tree 알고리즘의 버전이 결정됩니다.

  1. ID3
  2. C4.5
  3. C5.0
  4. CART
  5. CHAID
  6. MARS
  7. Conditional Inference Trees

위 알고리즘들을 Python 으로 구현하면서 Decision Tree 을 보다 깊게 이해해 보도록 하겠습니다.

--

--