본문 바로가기
정보

분류분석과 예측분석 / 의사결정나무

by Sunnyspotho 2024. 10. 6.

분류분석과 예측분석

분류분석: 데이터가 어떤 그룹에 속하는지 예측하는 데 사용되는 기법으로 클러스팅과 유사하지만 분류분석은 각 그룹이 정의되어 있다는 차이가 있습니다. 또한 교사학습에 해당하는 예측기법입니다.

 

예측분석: 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측하는 것으로 여러 개의 다양한 설명변수 즉 독립변수가 아닌 한 개의 설명면수로 생각하면 됩니다. 또한 모델링하는 입력 데이터가 어떤 것인지에 따라 특성이 다릅니다.

 

 분류분석과 예측분석은 레코드의 특정 속성의 값을 미리 알아맞힌다는 공통점이 있지만, 분류분석은 레코드의 범주형 속성의 값을 알아맞히며 예측분석은 연속형 속성의 값을 알아맞힌다는 차이점이 있습니다.

 

다음으로 예시를 들어보겠다.

분류분석은 학생들의 과목 별 성적을 통해 내신 등급을 알아맞히는 것과 카드회사에서 회원들의 가입 정보를 통해 1년 후 신용등급을 알아맞히는 예시가 있으며 예측분석은 학생들의 여러 가지 정보를 입력하여 수능 점수를 알아맞힌다던가 카드 회사 회원들의 가입 정보를 통해 연 매출액을 알아맞힐 수 있습니다.

 

의사결정나무

의사결정나무란 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로 나무 구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 합니다. 의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있으며 계산결과가 의사결정 나무에 직접 나타나기 때문에 해석이 간편하다는 장점이 있습니다.

 

 

다음은 의사결정 나무의 구성요소에 대한 설명입니다.

• 뿌리마디 (Root Node) : 시작되는 마디로 전체 자료를 포함합니다.  
• 자식마디 (Child Node) : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들입니다.  
• 부모마디 (Parent Node): 주어진 마디의 상위 마디입니다.  
• 끝마디 (Terminal Node) : 자식마디가 없는 마디입니다.  
• 중간마디(Internal Node): 부모마디와 자식마디가 모두 있는 마디입니다.
• 가지 (Branch): 뿌리마디로부터 끝마디까지 연결된 마디들입니다.  
• 갚이 (Depth): 뿌리마디부터 끝마디까지의 중간마디들의 수입니다. 

 

예측력과 해석력 관점에서 보면, 기대 집단의 사람들 중 가장 많은 반응을 보일 고객의 유치방안을 예측하고자 하는 경우에는 예측력에 치중합니다. 신용평가에서는 심사 결과 부적격 판정이 나온 경우 고객에게 부적격 이유를 설명해야 하므로 해석력에 치중합니다.

 

그럼 의사결정나무를 어떻게 활용할 수 있을까요?

먼저 세분화를 할 수 있습니다. 데이터를 비슷한 특성이 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견하는 것입니다. 다음으로 분류입니다. 여러 예측변수들에 근거해 관측개체의 목표변수 범주를 몇 개의 등급으로 분류하고자 하는 경우에 사용하는 기법입니다. 또한 예측에도 활용할 수 있습니다. 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우입니다. 차원축소 및 변수 선택의 경우는 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 골라내고자 하는 경우에서 사용하는 기법입니다. 마지막으로 교호작용효과의 파악에 활용하는데, 여러 개의 예측변수들을 결합해 목표변수에 작용하는 규칙을 파악하고자 하거나 범주의 병합 또는 연속형 변수의 이산화에서 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화 하고자 하는 경우입니다.

 

마지막으로 의사결정 나무의 장단점에 대해 알아봅시다.

먼저 장점입니다.

- 결과를 누구에게나 설명하기 쉽습니다.

- 모형을 만드는 방법이 계산적으로 간단합니다.

- 대용량 데이터에서도 빠르게 만들 수 있습니다.

- 비정상 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있습니다.

- 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향을 받지 않습니다.

- 설명변수나 목표변수에 수치형변수와 범주형 변수를 모두 사용 가능합니다.

- 모형 분류 정확도가 높습니다.

 

하지만 단점도 있습니다.

- 새로운 자료에 대한 과대적합이 발생할 가능성이 높습니다.

- 분류 경계썬 부근의 자료값에 대해서 오차가 큽니다.

- 설명변수 간의 중요도를 판단하기 쉽지 않습니다.