본문 바로가기
정보

연관분석이란 무엇일까? 연관분석의 개념과 장단점

by Sunnyspotho 2024. 10. 6.

연관분석과 연관규칙분석의 개념

연관성 분석은 흔히 장바구니분석이나 서열분석이라고 불립니다. 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용합니다. 장바구니 분석은 '장바구니에 무엇이 같이 들어 있는지에 대한 분석'이며 서열분석은 'A를 산 다음에 B를 산다'라고 이해하시면 됩니다.

연관규칙은 조건와 반응의 형태로 이루어져 있습니다. If A then B의 형태로 만일 A가 일어나면 B가 일어난다의 식입니다. 예를 들어 '아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다' '샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.'로 이해하시면 됩니다. 

연관규칙의 측도는 산업의 특성에 따라 지지도, 신뢰도, 향상도가 있습니다. 각 산업에 따라 이런 규칙을 잘 고려하여 선택해야 합니다. 먼저 지지도입니다. 지지도는 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의합니다. 지지도는 A와 B가 동시에 포함된 거래수를 전채 거래수를 나누어 구할 수 있습니다. 두번째로 신뢰도입니다. 신뢰도는 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률입니다. 이를 통해 연관성의 정도를 파악할 수 있으며 신뢰도는 A와 B가 동시에 포함된 거래수를 A를 포함하는 거래수로 나누어 구할 수 있는데 여기서 A와 B가 동시에 포함된 거래수는 지지도를 의미합니다. 마지막으로 향상도입니다. 향상도는 A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비입니다. 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됩니다. 향상도는 A와 B가 동시에 포함된 거래 수를 A를 포함하는 거래 수 * B를 포함하는 거래수로 구할 수 있으며 여기서 분자에 해당하는 A와 B가 동시에 포함된 거래수는 신뢰도로 볼 수 있습니다.

 

 다음은 연관규칙의 절차에 대해 알아보겠습니다. 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것입니다. 처음에는 5%로 잡고 규칙이 충분히 도출되는지를 보고 다양하게 조절하여 시도합니다. 처음부터 너무 낮은 최소 지지도를 선정하는 것은 많은 리소스가 소모되므로 적절하지 않습니다.

따라서 연관규칙의 절차는 다음과 같습니다.

1) 최소 지지도 결정 2) 품목 중 최소 지지도를 넘는 품목 분류 3) 2가지 품목 집합 생성 4) 반복적으로 수행해 빈발품목 지밤을 찾음

연관규칙의 장점과 단점

먼저 장점입니다.

탐색적인 기법으로 조건 반응으로 표현되는 연관성 분석의 결과를 쉽게 이해할 수 있습니다. 또한 강력한 비목적성 분석기법으로 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용됩니다. 다음으로 사용이 편리한 분석 데이터의 형태로 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료 구조를 갖습니다. 마지막으로 분석을 위한 계산이 간단하다는 장점이 있습니다.

다음은 단점과 개선 방향입니다. 연관규칙은 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다는 단점이 있습니다. 이를 개선하기 위해 유사한 품목을 한 범주로 일반화하며 연관 규칙의 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외합니다. 다음으로 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미 없는 분석이 될 수도 있다는 단점이 있습니다. 이는 적절히 구분되는 큰 범주로 구분해 전체분석에 포함시킨 후 그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행해서 개선할 수 있습니다. 마지막으로 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고 규칙 발견 시 제외하기가 쉽다는 단점이 있습니다. 이런 경우 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관성 규칙의 과정에 포함시켜 개선할 수 있습니다.