본문 바로가기

정보16

K-최근접 이웃 법과 서포트 벡터 머신 K-최근접 이웃법과 K-NN 알고리즘어떤 범주로 나누어져 있는 데이터 셋이 있을 때, 새로운 데이터가 추가된다면 이를 어떤 범주로 분류할 것인지를 결정할 때 사용할 수 있는 분류 알고리즘으로 지도 학습(Supervised Learning)의 한 종류입니다.    K- NN 알고리즘에서는 새로운 데이터의 클래스(범주)를 해당 데이터와 가장가까이 있는 k개 데이터들의 클래스(범주)로 결정합니다. 예를 들어  '?’의 클래스를 구분하고자 한다고 봅시다. 주변에 있는 이웃의 개수를 라고 했을 때 k=l로 설정할 경우 ‘?’는 원으로 분류되고 k=3으로 설정할 경우 '?'는 원으로 분류됩니다. 일종의 다수결과 같이 분류하고자 하는 데이터와 가장 가까운 이웃들이 주로 속해 있는 클래스(범주)를 선택하는 것입니다. .. 2024. 10. 6.
연관분석이란 무엇일까? 연관분석의 개념과 장단점 연관분석과 연관규칙분석의 개념연관성 분석은 흔히 장바구니분석이나 서열분석이라고 불립니다. 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용합니다. 장바구니 분석은 '장바구니에 무엇이 같이 들어 있는지에 대한 분석'이며 서열분석은 'A를 산 다음에 B를 산다'라고 이해하시면 됩니다.연관규칙은 조건와 반응의 형태로 이루어져 있습니다. If A then B의 형태로 만일 A가 일어나면 B가 일어난다의 식입니다. 예를 들어 '아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다' '샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.'로 이해하시면 됩니다. 연관규칙의 측도는 산업의 특성에 따라 지지도, 신뢰도, 향상도가 있습니다. 각 산업에 따라 이런 .. 2024. 10. 6.
의사결정 나무의 분석과정과 불순도 측정 의사결정 나무의 분석 과정의사결정나무의 형성과정은 크게 성장, 가지치기, 타당성평가, 해석 및 예측으로 이루어집니다.먼저 성장단계입니다. 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 ㅁ나족하면 중단합니다. 다음으로 가지치기 단계입니다. 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계입니다. 다음은 타당성 평가 단계입니다. 이익도표, 위험도표 혹은 시험자료를 이용하여 의사결정나무를 평가하는 단계입니다. 마지막으로 해석 및 예측 단계입니다. 구축된 나무모형을 해석하고 예측모형을 설정한 후 예측에 적용하는 단계입니다.  다음은 분리 기준에 대해 알아보겠습니다.분리기준은 이산형 목표변수와 연속형 목표변수로 나눌 .. 2024. 10. 6.
분류분석과 예측분석 / 의사결정나무 분류분석과 예측분석분류분석: 데이터가 어떤 그룹에 속하는지 예측하는 데 사용되는 기법으로 클러스팅과 유사하지만 분류분석은 각 그룹이 정의되어 있다는 차이가 있습니다. 또한 교사학습에 해당하는 예측기법입니다. 예측분석: 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측하는 것으로 여러 개의 다양한 설명변수 즉 독립변수가 아닌 한 개의 설명면수로 생각하면 됩니다. 또한 모델링하는 입력 데이터가 어떤 것인지에 따라 특성이 다릅니다.  분류분석과 예측분석은 레코드의 특정 속성의 값을 미리 알아맞힌다는 공통점이 있지만, 분류분석은 레코드의 범주형 속성의 값을 알아맞히며 예측분석은 연속형 속성의 값을 알아맞힌다는 차이점이 있습니다. 다음으로 예시를 들어보겠다.분류분석은 학생들의 과.. 2024. 10. 6.
데이터베이스란? 데이터 베이스의 정의는 1차와 2차로 나눌 수 있다. 1차는 단순히 정형데이터 관리로서의 데이터 베이스, 2차는 빅데이터의 출현으로 비정형데이터를 포함하는 데이터 베이스를 의미한다. 두 가지 개념으로 분류한 데이터베이스의 정의는 다음과 같다.1차 개념- EU: 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물- 저작권법: 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 2차 개념컴퓨터 용어사전: 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합위키.. 2024. 10. 2.
앙상블 분석과 인공신경망 분석 앙상블 분석이란? 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법.기존에 사용되고 있던 방법론 (ex. 의사결정나무)는 테스트데이터에는 적합하지 않다. 과대적합/과소문제가 주로 발생하는데 이를 해결하기 위에 앙상블을 활용한 분석방법을 앙상블 분석이라 한다. 대표적인 3가지 특징이 있다. 먼저 여러개의 분류 모형에 의한 결과를 종합해 분류의 정확도를 높인다. 다음으론 각모형의 상호연관성이 높을수록 정확도는 떨어지며 마지막으로 성능을 분산시키기 때문에 과적합 감소 효과가 있다. 이어서 더 알아보도록 하자. 보통 학습자료가 조금만 변해도 예측 모형이 크게 변하는 경우, 그 학습방법은 불안정하다라고 한다. 가장 안정적인 방법으로는 가장 가까운 자료만 .. 2024. 10. 2.