• 화. 9월 22nd, 2020

데 이터에서 주성분 칼럼

Avatar

Byadmin

8월 25, 2020

오토인코더에서도 새로 들어온 하나의 데이 터 인스턴스가 오토인코더를 통과하여 차원 축소되는 시간은 0.001초로 매우 작기에 무시가능 한 수준이다. 표 2에서도 원본 데이터보다 평균적으로 약 10% 정도 의 분류시간이 짧아졌음을 확인할 수 있다. 덧붙여 3 Layer 이상의 오토인코더에서는 학습시간만 추가적으로 길어질 뿐, 정밀도나 재현율이 나아지진 않았다

오토인코더를 전처리기로 사용한 방법의 정밀도 및 재현율 향상을 보여주기 위하여 주성분 분석 처리된 데 이터에서 주성분 칼럼들만을 3, 5, 10개를 각각 선택하 여 Random Forest를 만들어 보았다. 해당 방식은 정밀 도가 최고 0.33, 재현율이 최고 0.795으로, 이는 ReLu 10 오토인코더를 사용하였을 경우의 평균 정밀도인 0.79, 평균 재현율인 0.92에 비해 매우 좋지 않은 성능을 보였 다.

이를 통하여 적절한 오토인코더를 사용한 Feature engineering 기법은 주성분 분석을 사용한 변수 선택보 다 비교적 뛰어난 전처리 기법이라 볼 수 있다 본 논문에서는 실시간 스트림으로 들어오는 데이터에 대해 지도 학습의 속도를 개선하고자 인공신경망을 활 용한 차원 축소 기법인 오토인코더를 전처리기로 사용 하는 방법을 제안하였다. 오토인코더는 데이터의 변수들 간의 비선형적인 관계까지 포착할 수 있고, 주성분 분석 과의 조합 및 오토인코더의 반복적인 적용도 가능한 이 점이 있다.

이상 거래 탐지를 위하여 오토인코더로 신용 카드 결제 데이터의 변수들에 대해 차원 축소를 시행한 후, 대표적인 지도 학습 중 하나인 Random Forest로 분류를 시도하였는데, 정밀도와 재현율의 큰 소실 없이 학습 속도를 확연히 올릴 수 있었다. 또한 새로운 인스 턴스의 분류 속도를 약 10% 정도 빠르게 할 수 있었다. 차후 계획으로는 그림 4에서 보인 Random Forest 모델을 실제로 CQL로 변환하여 DSMS 내부에서의 탐 지를 구현해보고자 한다. 본 논문에서는 이상 거래 탐지 를 위한 기법으로 Random Forest를 사용하였지만, SVM이나 로지스틱 회귀, 인공신경망 등 기타 여러 데 이터 마이닝 기법들과 오토인코더의 조합도 시도해보고 자 한다.

더 나아가 그림 4에서는 입력으로 들어오는 스트림 데이터가 DSMS 외부의 오토인코더에서 인코딩되 는 방식을 택하였지만, CQL로 변환된 오토인코더 모델 을 직접 DSMS 내부에 삽입함으로써 전처리 및 분류의 모든 과정을 DSMS에서도 해결하는 방법도 시도해보고 자 한다.

출처 : 파워볼추천사이트 ( https://adidasnmdr1primeknit.com/2019/09/20/%ED%8C%8C%EC%9B%8C%EB%B3%BC%EC%82%AC%EC%9D%B4%ED%8A%B8-2/ )

댓글 남기기