본문 바로가기
빅데이터 분석기사,ADsP와 ADP

이상값 인식, 기하평균과 표준편차를 활용한 이상값 탐지

by 귀주대 2023. 10. 10.

 


기하평균과 표준편차를 활용한 이상값 탐지:

이상값을 탐지하기 위한 한 가지 방법은 기하평균과 표준편차를 사용하는 것입니다. 특히, 기하평균 주변의 값들이 일정한 범위 내에 있는지 확인하여 이상값을 식별할 수 있습니다.

1. 기하평균 (Geometric Mean) 계산:

먼저 데이터 집합의 모든 값에 대한 기하평균을 계산합니다. 기하평균은 다음과 같이 정의됩니다:
GM = √(X1 * X2 * X3 * ... * Xn)
여기서,
X1, X2, X3, ..., Xn은 데이터 집합의 개별 데이터 포인트를 나타냅니다.

2. 표준편차 (Standard Deviation) 계산:

이제 데이터 집합의 표준편차를 계산합니다. 표준편차는 데이터 포인트가 평균에서 얼마나 퍼져 있는지를 측정하는 값입니다.

3. 이상값 경계 설정:

일반적으로 이상값을 판단하기 위해 기하평균 주변에 일정한 범위를 설정합니다. 이 범위는 기하평균에서 표준편차의 여러 배만큼 떨어진 값으로 설정됩니다. 예를 들어, 기하평균에서 2.5배 표준편차를 더하고 뺀 범위를 이상값을 탐지하기 위한 경계로 설정할 수 있습니다.

4. 이상값 탐지:

데이터 집합의 개별 데이터 포인트가 설정한 경계를 벗어나면 해당 데이터 포인트는 이상값으로 간주됩니다.
구체적으로, 기하평균 - 2.5 * 표준편차보다 작거나 기하평균 + 2.5 * 표준편차보다 큰 데이터 포인트가 이상값으로 분류됩니다.

이러한 방법을 통해 데이터의 중요한 특성을 고려하여 이상값을 식별할 수 있으며, 경계 값을 조절하여 민감도를 조절할 수 있습니다. 데이터 분포와 이상값의 정의에 따라 경계 값을 조정할 필요가 있을 수 있습니다.

 

댓글