• 화. 10월 20th, 2020

도메인 지식을 통한 이상 거래 탐지

Avatar

Byadmin

8월 25, 2020

도메인 지식을 통한 이상 거래 탐지가 아닌, 데이터를 이용한 이상 거래 탐지를 위하여 다양한 기법들이 제안 되어 왔는데, 크게 2가지 접근법으로 볼 수 있다. 첫 번 째는 데이터의 분포에 대한 방법으로, 이는 정상 카드 거래 결제 건수에 비해 이상 거래 건수의 비율이 압도 적으로 적은 클래스 간의 쏠림 현상에 초점을 맞추는 방식이다.

이러한 쏠림 현상을 해결하기 위해 소수 클래스 인스턴스의 개수를 늘리는 Over-sampling 기법들과 다 수 클래스의 인스턴스 개수를 줄이는 Under-sampling 기법들이 있으며, 이들을 조합한 Hybrid-over and under sampling 기법들도 있다. 두 번째 방식은 알고리즘 측 면에서 접근하는 방식인데, 알고리즘 학습 단계에서 각 카드 결제 건의 Fraud 해당 유무를 알고 분석하는 지도 학습(Supervised Learning) 방식과 대부분의 결제 건과 다른 유형을 보이는 결제 건을 찾아내는 자율 학습 (Unsupervised Learning) 방식이 있다. 본 논문에서는 지도 학습의 속도를 향상시킬 수 있는 방법을 찾는 것 에 목적을 둔다.

이상 거래 탐지를 위해 지도학습을 사용하는 방식은 오랫동안 연구되어 왔다. 의사결정나무는 트리 형식으로 표현될 수 있고, If then-else 로 변환이 가능한 데이터 마이닝 모델이다. ID3, CART, C4.5 등의 의사결정나무 모델로 고객분류 및 이상 패턴 탐지를 하는 연구가 진 행되어 왔다[2,4]. Support Vector Machine (SVM)은 클래스 간의 마 진이 최대화 되도록 하는 초평면을 찾는 기계 학습 기 법이다. 주어진 변수들만으로는 두 클래스가 선형적으로 나뉘어지지 않을 수 있으므로, 커널 함수를 사용하여 더 높은 차원의 공간으로 변환시킨 후에 클래스들을 선형 적으로 구분할 수 있는 초평면을 만들도록 한다. Random Forest는 1개의 트리만을 생성하여 분류를 하는 의사결정나무 방식의 불안정성을 보완하고자 다수 의 의사결정나무를 생성하여, 이들의 분류 결과들 중 가 장 많이 도출되는 클래스를 선택하는 방식이다[5].

다수 의 트리가 생성되기 때문에 과적합 및 데이터 내부의 잡음에 강한 모습을 보인다. Random Forest는 이상 패 턴 감지, 스팸 메일 탐지, 네트워크 침입 탐지 등 데이 터의 클래스들이 편향된 형태를 가진 다양한 분야에서 다른 데이터 마이닝 기법에 비해 높은 정확성을 보인다 [6]. 또한 Random Forest가 이상 거래 탐지 분야에서 다른 데이터 마이닝 기법에 비해 높은 성능을 보인다는 것은 다른 여러 논문에서도 실험되었다. Whitrow et al. 은 Random Forest가 SVM, 로지스틱 회귀분석 및 K-Nearest Neighbors (KNN)보다 더 좋은 성능을 보 인다고 하였고[3], Bhattacharyya et al.도 Random Forest가 SVM과 로지스틱 회귀분석보다 높은 정확성 을 보임을 보였다[2]. 본 논문에서도 클래스를 구분할 모델로써 Random Forest 모델을 사용할 것이다. 인공 신경망도 Random Forest와 비슷한 성능을 보였음에도 불구하고 인공신경망은 Random Forest에 비해 설정해 야 할 파라미터들이 압도적으로 많고, 각 파라미터 설정 에 따라 성능의 차이가 매우 심하기에 Random Forest 모델을 선택하였다

출처 : 사설토토사이트 ( https://facehub.ai/ )

댓글 남기기