본문 바로가기

전체 글53

분석 과제 발굴과 발굴 방법론 분석 과제 발굴 방법론분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출됩니다. 분석과제를 도출하기 위한 방식으로는 크게 하향식 접근 방법과 상향식 접근 방법이 있습니다. 문제가 주어져 있는 상태에서 답을 구하는 하향식 접근 방식이 전통적으로 수행되었던 분석 과제 발굴 방식입니다. 하지만 대규모의 다양한 데이터를 생성하고 빠르게 변한느 기업 환경에서는 문제 자체의 변화가 심해 정확하게 무제를 사전에 정의하는 것이 어려워지고 있습니다. 분석 과제 발굴을 두 가지 방식으로 나누었지만 실제 새로운 상품 개발이나 전략 수립 등 중요한 의사결정을 할 때 하향식 접근 방법과 상향식 접근 방법이 혼용되어 사용되며 분석의 가치를 높.. 2024. 10. 8.
K-최근접 이웃 법과 서포트 벡터 머신 K-최근접 이웃법과 K-NN 알고리즘어떤 범주로 나누어져 있는 데이터 셋이 있을 때, 새로운 데이터가 추가된다면 이를 어떤 범주로 분류할 것인지를 결정할 때 사용할 수 있는 분류 알고리즘으로 지도 학습(Supervised Learning)의 한 종류입니다.    K- NN 알고리즘에서는 새로운 데이터의 클래스(범주)를 해당 데이터와 가장가까이 있는 k개 데이터들의 클래스(범주)로 결정합니다. 예를 들어  '?’의 클래스를 구분하고자 한다고 봅시다. 주변에 있는 이웃의 개수를 라고 했을 때 k=l로 설정할 경우 ‘?’는 원으로 분류되고 k=3으로 설정할 경우 '?'는 원으로 분류됩니다. 일종의 다수결과 같이 분류하고자 하는 데이터와 가장 가까운 이웃들이 주로 속해 있는 클래스(범주)를 선택하는 것입니다. .. 2024. 10. 6.
연관분석이란 무엇일까? 연관분석의 개념과 장단점 연관분석과 연관규칙분석의 개념연관성 분석은 흔히 장바구니분석이나 서열분석이라고 불립니다. 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용합니다. 장바구니 분석은 '장바구니에 무엇이 같이 들어 있는지에 대한 분석'이며 서열분석은 'A를 산 다음에 B를 산다'라고 이해하시면 됩니다.연관규칙은 조건와 반응의 형태로 이루어져 있습니다. If A then B의 형태로 만일 A가 일어나면 B가 일어난다의 식입니다. 예를 들어 '아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다' '샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.'로 이해하시면 됩니다. 연관규칙의 측도는 산업의 특성에 따라 지지도, 신뢰도, 향상도가 있습니다. 각 산업에 따라 이런 .. 2024. 10. 6.
의사결정 나무의 분석과정과 불순도 측정 의사결정 나무의 분석 과정의사결정나무의 형성과정은 크게 성장, 가지치기, 타당성평가, 해석 및 예측으로 이루어집니다.먼저 성장단계입니다. 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 ㅁ나족하면 중단합니다. 다음으로 가지치기 단계입니다. 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계입니다. 다음은 타당성 평가 단계입니다. 이익도표, 위험도표 혹은 시험자료를 이용하여 의사결정나무를 평가하는 단계입니다. 마지막으로 해석 및 예측 단계입니다. 구축된 나무모형을 해석하고 예측모형을 설정한 후 예측에 적용하는 단계입니다.  다음은 분리 기준에 대해 알아보겠습니다.분리기준은 이산형 목표변수와 연속형 목표변수로 나눌 .. 2024. 10. 6.
분류분석과 예측분석 / 의사결정나무 분류분석과 예측분석분류분석: 데이터가 어떤 그룹에 속하는지 예측하는 데 사용되는 기법으로 클러스팅과 유사하지만 분류분석은 각 그룹이 정의되어 있다는 차이가 있습니다. 또한 교사학습에 해당하는 예측기법입니다. 예측분석: 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측하는 것으로 여러 개의 다양한 설명변수 즉 독립변수가 아닌 한 개의 설명면수로 생각하면 됩니다. 또한 모델링하는 입력 데이터가 어떤 것인지에 따라 특성이 다릅니다.  분류분석과 예측분석은 레코드의 특정 속성의 값을 미리 알아맞힌다는 공통점이 있지만, 분류분석은 레코드의 범주형 속성의 값을 알아맞히며 예측분석은 연속형 속성의 값을 알아맞힌다는 차이점이 있습니다. 다음으로 예시를 들어보겠다.분류분석은 학생들의 과.. 2024. 10. 6.
데이터베이스란? 데이터 베이스의 정의는 1차와 2차로 나눌 수 있다. 1차는 단순히 정형데이터 관리로서의 데이터 베이스, 2차는 빅데이터의 출현으로 비정형데이터를 포함하는 데이터 베이스를 의미한다. 두 가지 개념으로 분류한 데이터베이스의 정의는 다음과 같다.1차 개념- EU: 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물- 저작권법: 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 2차 개념컴퓨터 용어사전: 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합위키.. 2024. 10. 2.
반응형