• 화. 9월 22nd, 2020

이러한 오토인코더를 이용한 방식

Avatar

Byadmin

8월 25, 2020

이러한 오토인코더를 이용한 방식은 빠른 처리가 필 요한 스트림 데이터를 데이터베이스 안에서 실시간으로 처리하는 데에 도움이 되리라 예상된다. 지도 학습 모델 을 CQL(Continuous Query Language)로 변환하여 DS MS(Data Stream Management System)에 탑재함으로 써 DSMS 내부에서의 이상 거래 탐지가 가능할 것이다. 그림 4는 이를 위한 흐름도를 보여준다.

이상패턴 분석기는 기존의 데이터로부터 미리 학습해 둔 데이터 마이닝 모델을 CQL로 변환하여 데이터베이 스 내부에 저장해 둔 것이다. 실시간 스트림으로 들어오 는 데이터를 오토인코더를 사용하여 차원을 축소시키고, 이상패턴 분석기가 CQL을 사용하여 이상 거래 유무를 판단하는 것이다. 알고리즘1은 데이터 마이닝 모델 중 의사결정 나무를 CQL을 활용하여 구현한 예시이다 본 데이터는 2013년 9월 유럽에서의 2일간의 신용카 드 사용 기록이다.

492건의 이상 거래, 284,315건의 정 상 거래로 구성된 총 284,807건의 사용 기록이며, 구성 비에서 볼 수 있듯이 매우 불균형한 데이터이다. 개인 신상 정보 기밀로 인하여 원본 데이터가 아닌, 주성분 분석이 적용된 28개의 변수를 가진 데이터이다[11]. 실험 환경으로는 Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz × 2 (8 × 2 cores), 80GB DDR4 RAM, Ubuntu 16.03.2 LTS를 사용하였고, 언어로는 Python 2.7을 사 용하였다. TensorFlow 1.2 버전을 오토인코더 구현을 위하여[12], Scikit-learn 0.18.1을 Random Forest 모델 링을 위하여 사용하였다 결과를 통합하였고, 원본 데이터와 각 오토인코더로 전 처리된 데이터의 학습 시간, 분류 시간, 정밀도 및 재현 율을 계산 및 비교하였다.

그림 5와 그림 6은 9개의 오토인코더 중에서 정밀도 및 재현율이 가장 높은 3개의 오토인코더(Sigmoid 10, Tanh 10, ReLU 10)를 적용한 데이터와 3차원으로 축 소시키는 오토인코더(Tanh 3)을 적용한 데이터와 원본 데이터를 비교한 실험 결과이다. 9개의 오토인코더 중에서 10차원으로 압축되고 Action Function이 각각 ReLU, Tanh인 ReLU 10과 Tanh 10이 가장 좋은 성능을 보 이는데, 원본 데이터와의 정밀도 및 재현율 차이가 1~ 2% 내외이다. 트리의 개수가 적을 경우 원본 데이터보 다 더 높은 재현율을 보이기도 한다. ReLU의 경우 저 차원으로 압축할수록 정밀도와 재현율 성능이 많이 떨어 지는데, 5차원의 경우 68%로, 3차원의 경우 40%정도까 지 떨어진다. 반면에 Tanh의 경우 3차원으로까지 축소 하였음에도 불구하고 정밀도는 2~3%, 재현율은 7%정 도 밖에 차이 나지 않는다. 따라서 Tanh가 ReLU나 Sigmoid보다 본 데이터의 특징을 잘 함축할 수 있다고 볼 수 있을 것이다

출처 : 파워볼사이트 ( https://expom.io/ )

댓글 남기기