앙상블 분석과 인공신경망 분석

앙상블 분석이란?

주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법.

기존에 사용되고 있던 방법론 (ex. 의사결정나무)는 테스트데이터에는 적합하지 않다. 과대적합/과소문제가 주로 발생하는데 이를 해결하기 위에 앙상블을 활용한 분석방법을 앙상블 분석이라 한다.

대표적인 3가지 특징이 있다. 먼저 여러개의 분류 모형에 의한 결과를 종합해 분류의 정확도를 높인다. 다음으론 각모형의 상호연관성이 높을수록 정확도는 떨어지며 마지막으로 성능을 분산시키기 때문에 과적합 감소 효과가 있다.

이어서 더 알아보도록 하자.

보통 학습자료가 조금만 변해도 예측 모형이 크게 변하는 경우, 그 학습방법은 불안정하다라고 한다. 가장 안정적인 방법으로는 가장 가까운 자료만 변하지 않으면 예측 모형이 변하지 않는 1-Nearest Neighbor과 최소제곱법으로 추정해 모형 결정을 결정하는 선형회귀모형이 있으며 가장 불안정한 방법으로는 의사결정나무가 있다.

-배깅

Breiman에 의해 제안된 배깅은 주어진 자료에서 러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후
결합하여 최종 예측모형을 만드는 방법이다. 붓스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미한다.
보팅은 여러 의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정하는 과정이며 최적의 의사결정나무를 구축할 때 가장 어려운 부분이 가지치기이지만 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용한다.

-부스팅

예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법으로 훈련오차를 빨리, 쉽게 줄일 수 있다. 배깅에 비해선 많은 예측오차가 향상되어 보통 Adaboost가 배깅보다 성능이 높다.

-랜덤 포레스트

의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다. 랜덤한 Forest에 많은 트리들이 생기며 수천 개의 변수를 통해 변수제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보인다.

단점으론 이론적 설명이나 최종 결과에 대한 해석이 어렵다는 점이 있다. 하지만 예측력이 매우 높으며 특히 입력변수가 많은 경우 배깅과 부스팅과 비슷하거나 좋은 예측력을 보인다.

인공신경망 분석이란?

인공신경망은 인간 뇌를 기반으로 한 추론 모델이며 뉴런은 기본적인 정보처리 단위를 의미한다.

이는 분류분석 문제를 해결하는데 매우 높은 적중률을 보여주는 데이터 마이닝 기법 중 하나이다. 인공신경망은 인간의 신경세포를 통한 학습방법에서 아이디어를 얻어 이를 디지털 네트워크 모형으로 구현하게 되었다. 인공신경망 모형은 비선형성 분류문제를 분류할 수 없어 한계에 부딪혔다가 다계층 퍼셉트론을 활용한 역전파 알고리즘이 개발되며 급속히 발전되었다.

1943년 매컬럭 (McCu ll och)과 피츠(Pitts): 인간의 뇌를 수많은 신경세포가 연결된 하나의 디지털 네트워크 모형으로 간주하고 신경 포의 신호처리 과정을 모형화하여 단순 패턴분류 모형을 개발했다.
(Hebb): 신경세포(뉴런)의 연결강도(We ight)를 조정하여 학습규칙을 개발했다.
로젠블릿(Rosenb att, 1955) : 퍼셉트론(Perceptron)이라는 인공 포를 개발했다.
비선형성의 한계점 발생 : XOR(Exclusive OR, 배타적 논리합) 문제를 풀지 못하는 한계를 발견하였다
홉필드(Hopfild), 러멜하트(Rumelhart) 맥클랜드(McCle ll and): 역전파 알고리즘(Ba ck prop ti n) 을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인공신경망모형이 등장했다.

인간 뇌는 100 억 개의 뉴런과 조 개의 시냅스의 결합체이며 인간의 뇌는 현존하는 어떤 컴퓨터보다 빠르고 매우 복잡하고， 비선형 적이며, 병렬적인 정보 처리 시스템과 같다. 적응성에 따라 ‘잘못된 탑’에 대한 뉴런들 사이의 연결은 약화되고， ‘올바른 답’에 대한 연결이 강화된다. 또한 뉴런은 가중치가 있는 링크들로 연결되어 있으며 뉴런은 여러 입력신호를 받지만 출력 신호는 오직 하나만 생성한다.

신경망은 가중치를 반복적으로 조정하며 학습한다. 뉴런은 링크로 연결되어 있으며 각 링크에는 수치적인 가중치가 있다. 인공 신경망은 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신하여 신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다.

저작자표시 비영리 변경금지 (새창열림)

'정보' 카테고리의 다른 글

분류분석과 예측분석 / 의사결정나무 (1)	2024.10.06
데이터베이스란? (2)	2024.10.02
시계열 분석 (2)	2024.09.27
[범죄와 형벌] 1~3장 (0)	2024.09.26
빅데이터란? 빅데이터의 개념과 역사 및 활용 (0)	2024.09.26