[머신러닝] 의사결정 트리 by 퐈니썬's LIfe

728x90

1. 의사결정 트리

본 장에서는 의사결정 트리를 이용한 데이터 분류에 대해 알아보도록 하겠습니다.

[의사결정 트리 요약]

데이터 분류 및 회귀에 사용되는 지도학습 알고리즘

결과도출 과정을 이해하기 쉽다.

높은 정확도

과대적합의 위험성이 크다

2. 의사결정 트리 알고리즘의 이해

의사결정 트리 알고리즘은 데이터를 어떤 특징 속에서 연속적으로 분리하여 관측값과 목표값을 연결시켜주는 예측 모델로 사용됩니다.

의사결정 트리의 큰 장점은 이러한 예측모델의 과정을 시각적이고 명시적으로 표현이 가능합니다.

위의 그림과 같이 데이터의 특징 속에서 분류에 큰 영향을 끼치는 특징을 발견하고, 상위노드로 선택하는 알고리즘이 핵심입니다.

💡 여기서 상위노드는 어떤의미일까?

결정 트리에서 질문이나 정답을 담은 모든 박스들을 "노드(Node)"라고 일컫습니다.

또한, 분류 기준(첫 질문)을 Root Node라고 하고, 맨 마지막 노드를 Terminal Node(혹은 Leaf Node) 라고 합니다. 의사 결정트리는 각 노도의 정의한 특징에 따라 아래로 가면서 하단의 노드를 선택하는 알고리즘으로 보이는데 "왜 상위노드" 를 선택한다고 하는지는 의사결정 트리라는 이름이 붙은 이유에서 찾을 수 있습니다.

"Decision Tree"라고 불리는 의사결정 트리는 위의 그림을 전체적인 모양이 나무를 뒤짚어 놓은 것과 같아보이는 것에서 이름이 붙여졌기 때문에 사실상, 상위노드는 Root Node → Terminal Node (Leaf Node)로 가는 방향을 표현 한 것이겠네요!

2.1. 의사결정 트리 알고리즘과 정보 엔트로피의 관계

앞서 말씀드린 것처럼, 의사결정 트리 알고리즘은 각 루트 노드(분류기준)에 따라 스무고개 하듯이 각 노드의 특징을 통해 상위노드를 선택해 나가는 알고리즘입니다. 이런 과정에서 약간씩의 정보를 획득합니다.

정보를 획득한다는 말은 "정답에 대한 불확실성이 줄어든다는 개념" 입니다.

해당 개념을 "정보 이론"에서 불리는 "엔트로피"의 개념을 차용하여 부릅니다.

정보의 획들을 정보 이득이라고 합니다. 아래의 식이 성립합니다.

💡 질문 후 정보 이득 = 질문 전의 엔트로피 - 질문 후의 엔트로피 즉, 의사결정 트리 알고리즘은 엔트로피가 낮아지는 방향으로 노드가 나아가는 것이겠네요!

즉, 정보의 획등이 최대화하는 방향으로 학습이 진행된다는 것이구요!

💡 정보의 획득이 정답에 대한 불확실성을 줄인다는 것을 이해했는데, 이게 정보이론의 "엔트로피"와 무슨 상관일까??

간단하게 말해서, 정보이론의 엔트로피는 "무질서함"을 이야기하고 이는 "불확실성"에 대한 개념을 내포하고 있습니다. 이를테면, 마음먹고 정리한 내 책상은 이틀 뒤에 지저분해져있습니다.

이는, 정리된 책상은 무질서함이 적기에 엔트로피가 낮다고 표현하고, 다시 지저분해진 책상은 무질서함이 높기에 엔트로피가 높다고 표현합니다.

즉, 정보의 획득은 불확실성의 감소를 의미하고 이는 무질서함이 적음을 의미하며 이를 "엔트로피가 낮다" 라고 표현합니다. (반대는 잘 아시겠죠) 정보의 획득 → 불확실성의 감소 → 무질서함 감소 → 엔트로피 낮음

2.2. 의사결정 트리의 엔트로피 계산

위에서 의사결정 트리가 학습하여 나아가는 방향성, 그리고 그 의미를 알게되었습니다.

그러면 "엔트로피"는 어떻게 구할까요? 아래의 식에 따라 엔트로피를 결정 할 수 있습니다.

확률을 바탕으로 엔트로피를 구하는 공식은 아래와 같습니다.

2.3. 의사결정 트리의 특징에 대한 엔트로피 계산 공식

그러면 의사결정 트리가 분류를 할 때, 특징에 대하여 어떻게 정보 이득을 계산해나가는 지를 공식으로 알아보겠습니다.

2.4. 지니 계수

불순도를 측정하는 지표로, 데이터의 통계적 분산정도를 정량화해서 표현하는 값

즉, 분류및 회귀문제(CART)에서 특징에 의한 분리가 이진 분류로 나타날 경우 "지니계수"를 사용할 수 있 다.

하나의 의사결정트리 방법이라고 알면 될 거 같아요!

지니 계수의 특징
1. 특징이 항상 이진 분류로 나뉠 때 사용
1. 지니 계수가 높을 수록 순도가 높다

💡 불순도는 무엇일까요?

불순도(Impurity)란 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 뜻합니다.

불순도가 낮다 → 데이터들의 속성들이 많이 일치한다 → 정보 이득이 크다 → 엔트로피가 낮다

불순도가 높다 → 데이터들의 속성들이 섞여있다 → 정보 이득이 적다 → 엔트로피가 높다

출처: ratsgo's blog