본문 바로가기
정보

의사결정 나무의 분석과정과 불순도 측정

by Sunnyspotho 2024. 10. 6.

의사결정 나무의 분석 과정

의사결정나무의 형성과정은 크게 성장, 가지치기, 타당성평가, 해석 및 예측으로 이루어집니다.

먼저 성장단계입니다. 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 ㅁ나족하면 중단합니다. 다음으로 가지치기 단계입니다. 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계입니다. 다음은 타당성 평가 단계입니다. 이익도표, 위험도표 혹은 시험자료를 이용하여 의사결정나무를 평가하는 단계입니다. 마지막으로 해석 및 예측 단계입니다. 구축된 나무모형을 해석하고 예측모형을 설정한 후 예측에 적용하는 단계입니다.

 

 

다음은 분리 기준에 대해 알아보겠습니다.

분리기준은 이산형 목표변수와 연속형 목표변수로 나눌 수 있고 기준 값에 따라 분리기준이 다릅니다.

먼저 이산형 목표변수입니다. 기준값이 카이제곱 통계량 p값인 경우 P값이 가장 작은 예측변수와 그때의 최적분리에 의해서 지식마디를 형성합니다. 지니 지수가 기준값일 경우 지니 지수를 감소시켜 주는 예측변수와 그때의 최적분리에 의해서 자식마디를 선택합니다. 마지막으로 엔트로피 지수가 기준값일 경우 엔트로피 지수가 가장 작은 예측 변수와 이때의 최적분리에 의해 지식마디를 형성합니다. 

연속형 목표변수일 경우입니다. 기준값이 분산분석에서의 F통계량이면 P 값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성합니다. 다음으로 기준 값이 분산의 감소량이면 분리기준은 분산의 감소량을 최대화하는 기준의 최적분리에 의해서 자식마디를 형성합니다.

 

그렇다면 정지규칙은 무엇일까요? 정지규칙이란 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙입니다. 정지기준은 의사결정나무의 깊이를 지정하고 끝마디의 레코드 수의 최소 개수를 지정합니다.

 

앞서 언급한 나무의 가지치기는 너무 큰 나무 모형은 자료를 과대적합하고 너무 작은 나무모형은 과소적합할 위험이 있기에 시행합니다. 나무의 크기를 모형의 복잡도로 볼 수 있으며 최적의 너무 크기는 자료로부터 추정하게 됩니다. 일반적으로 사용되는 방법은 마디에 속하는 자료가 일정 수 (가령 5) 이하일 때 분할을 정지하고 비용-복잡도 가지치기를 이용하여 성장시킨 나무를 가지치기하게 됩니다. 

불순도의 여러 가지 측도

목표변수가 범주형 변수인 의사결정나무의 분류규칙을 선택하기 위해서는 카이제곱 통계량, 지니지수, 엔트로피 지수를 활용합니다. 먼저 카이제곱 통계량은 각 셀에 대한 ((실제도수-기대도수)의 제곱/기대도수)의 합으로 구할 수 있으며 기대도수 = 열의 합계 * 합의 합계 / 전체합계 를 의미합니다. 다음으로 지니지수입니다. 노드의 불순도를 나타내는 값입니다. 지니지수의 값이 클수록 이질적이며 순수도가 낮습니다. 즉 값이 작을수록 순수도가 높아 분류가 잘 됩니다. 또한 가장 작은 값을 갖는 예측변수와 이때의 최적분리에 의해 자식마디를 형성합니다. 마지막으로 엔트로피 지수입니다. 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도입니다. 엔트로피 지수의 값이 클수록 순수도가 낮다고 볼 수 있습니다. 엔트로피 지수가 가장 작은 예측 변수와 이때의 최적분리 규칙에 의해 자식마디를 형성합니다.

 

 

내용 요약

의사결정나무는 성장, 가지치기, 타당성 평가, 해석 및 예측의 4단계로 구성됩니다. 성장단계에서는 최적의 분리규칙을 찾아 나무를 확장하고, 가지치기 단계에서는 불필요하거나 부적절한 가지를 제거합니다. 타당성 평가 단계에서는 이익도표, 위험도표 등을 통해 나무의 성능을 평가하며, 마지막으로 해석 및 예측 단계에서 나무를 해석하고 예측에 활용합니다. 분리 기준은 목표변수가 이산형일 경우 카이제곱, 지니지수, 엔트로피 지수 등을 사용하고, 연속형일 경우 F통계량, 분산 감소량을 기준으로 최적 분리를 수행합니다.