• 화. 9월 22nd, 2020

클래스를 예측하기 위한 분류기의 생성

Avatar

Byadmin

8월 25, 2020

클래스를 예측하기 위한 분류기의 생성은 미리 정의 된 규칙을 바탕으로도 가능하지만, 대부분은 데이터와 예측하고자 하는 클래스 혹은 값 사이의 관계를 우리가 구할 수 있는 학습 데이터로부터 모델링하는 방식이다. 이러한 모델링을 하기 전에 각 데이터들이 어떻게 표현 되는지를 알아야 하는데, 이것이 해당 데이터의 변수 혹 은 특성이 된다. 어떠한 변수를 선택하느냐에 따라서 동 일한 기계 학습 알고리즘에서도 모델의 성능이 확연히 달라지므로 예측을 잘 할 수 있는 좋은 변수를 찾아내 는 것은 데이터 마이닝에서 매우 중요하다.

이러한 변수 들은 대부분 해당 분야에 대한 전문지식을 필요로 한다 실제로 이미지 프로세싱이나 컴퓨터 비전 등 특정 도메 인을 대상으로 한 변수 선택 혹은 추출 대한 연구들도 진행되어 왔다[10]. 도메인에 무관하게 어떤 분야에도 적용할 수 있는 기법들도 많이 연구되었는데, 대표적으로 표준화, 정규화, 주성분 분석 등이 있다. 더 좋은 특성를 선택하기 위한 이러한 작업들은 Feature Engineering이 라고 불리며, 데이터 마이닝 모델링 직전에 전처리 과정 으로써 사용된다[10]. 이러한 과정은 그림 2(a)와 같다.

Hinton et al.은 오토인코더를 문헌 검색과 얼굴 인식 등에 적용시켰고, 주성분 분석 및 LSA를 사용하여 2차 원으로 축소시킨 결과보다 오토인코더를 사용하여 2차 원으로 축소시킨 결과가 각 클래스의 특성을 더 잘 보 여주고 있음을 보였다[9]. 이 과정의 흐름도는 그림 2의 (b) 그림과 같다. 본 논문에서는 오토인코더를 그림 2의 (b)가 아니라 (a) 그림처럼 지도 학습 모델링을 위한 전 처리 과정으로 사용하는 방법을 제안하고자 한다.

Deep Neural Network 구성을 위하여 인공신경망 앞 에 오토인코더를 배치하는 방안은 이전부터 제안되어 왔다[9]. 그럼에도 불구하고 오토인코더를 통한 차원 축 소를 통하여 인공신경망이 아닌 의사결정나무, SVM 및 Random Forest 등의 기타 지도 학습과의 결합은 앞의 연구만큼 활발하지는 않았다. 본 논문에서는 오토인코더 에서 인코더 부분까지만을 진행하여 데이터의 차원을 축소시킨 후, 지도 학습을 사용하여 데이터 마이닝 모델 을 학습 및 새로운 데이터를 분류하는 방법을 제안한다.

그림 3은 이러한 과정을 보여준다. 이는 그림 2(a)와 매우 비슷한데, 오토인코더를 사용하여 Feature Engineering을 한다고 볼 수 있다. 오토인코더를 사용하여 차원을 축소 하더라도, 축소하지 않은 원본 데이터만큼의 정밀도 및 재현율이 확보된다면 지도 학습의 분류 성능은 유지하 면서 학습 시간 및 분류 시간의 단축을 기대할 수 있다. 오토인코더는 주성분 분석에 비해 몇 가지 중요한 이 점을 보인다.

첫 번째로 오토인코더는 변수들의 선형조 합보다 복잡한 조합이 가능하므로 주성분 분석보다 변수 들간의 비선형 조합을 더 잘 반영할 수 있다. 두 번째 이점은 주성분 분석으로 만들어진 새로운 변수들의 축 들은 서로 직교하기 때문에 반복적인 주성분 분석이 불 가능하다. 그러나 오토인코더는 각 변수들의 축들이 직 교하지 않으므로 이미 주성분 분석이 된 변수들을 대상 으로 추가적인 차원 축소가 가능할 뿐만 아니라, 오토인 코더를 적용한 후에 주성분 분석을 적용하거나 중첩적 인 오토인코더를 적용하는 등 다양한 변형이 가능하다. 보다 나아가서, 그림 1처럼 1개의 은닉층이 아니라 다수 의 은닉층들을 사용한 오토인코더를 활용한 방법도 제 안해보고자 한다

출처 : 파워볼사이트추천 ( https://www.facebook.com/pg/%EB%A9%94%EC%9D%B4%EC%A0%80-%ED%8C%8C%EC%9B%8C%EB%B3%BC%EC%82%AC%EC%9D%B4%ED%8A%B8-%EC%B6%94%EC%B2%9C-%ED%8C%8C%EC%9B%8C%EB%B3%BC%EB%B0%B8%EB%9F%B0%EC%8A%A4-%EC%9D%B8%EC%A6%9D%EC%97%85%EC%B2%B4-1080271005406430/posts/ )

댓글 남기기