정보 획득, Information Gain

KimSeongJung
Apr 23, 2021

--

Information Gain은 Machine Learning 중 하나인 Decision Tree 알고리즘에서 노드를 적절히 분해 하기 위해 사용되는 수치입니다.

Information Gain 은
분할 전 노드의 엔트로피와 분할 후 전체 노드의 엔트로피를 뺀 값 입니다.
정보 획득(Information gain)을 수식으로 보자면 아래와 같습니다.

분할 된 각 노드의 엔트로피는 조건부 엔트로피을 사용합니다.
또한 확률 덧셈 조건 중 여집합 사건임으로 엔트로피를 모두 더해 줍니다.

Information gain이 Decision Tree 에서 분할 방법으로 사용되는 이유는 Information Gain 이 불순도를 표현하는 방법 중 하나이기 때문입니다.

아래와 같이 트리가 구성 되었을 때 정보 획득(Information gain)을 구하면

다른 방식으로 노드가 분할 되었을 때 정보 획득을 구해봅니다.

위 2가지 예제에서 구한 정보 획득을 비교해 봅니다.

왼쪽 방법으로 노드를 분할 시 정보이득이 큰것을 확인 할 수 있습니다.
이를 통해 2가지 방법중 하나를 골라 노드를 분할 해야 한다면 왼쪽 방법을
통해 분할 하는 것이 더 이득이 큰 방법임을 알 수 있습니다.

--

--