Decision Tree
Apr 23, 2021
Decision Tree 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값을 선택해 하향식으로 분할하는 알고리즘 입니다.
Decision Tree 는 Node 와 Edge 로 구성 되어 있는 Graph 로 표현됩니다.
Decision Tree에서 Node 는 데이터의 집합을 의미하며
Edge는 데이터가 분할되는 속성을 의미합니다.
분할의 적합성을 판단하는 알고리즘은 크게 4가지가 있습니다.
- Information Gain
- Gini Coefficient
- Chi-square
- Variance-Reduction
분할시 이 4가지 알고리즘 중 어떤 알고리즘을 사용하는 지에 대한 여부와 그 이외에 여러가지 기법들(pruning, missing value, weight, etc)의 사용 여부에 따라 Decision Tree 알고리즘의 버전이 결정됩니다.
- ID3
- C4.5
- C5.0
- CART
- CHAID
- MARS
- Conditional Inference Trees
위 알고리즘들을 Python 으로 구현하면서 Decision Tree 을 보다 깊게 이해해 보도록 하겠습니다.