이상값 인식, 기하평균과 표준편차를 활용한 이상값 탐지

기하평균과 표준편차를 활용한 이상값 탐지:

이상값을 탐지하기 위한 한 가지 방법은 기하평균과 표준편차를 사용하는 것입니다. 특히, 기하평균 주변의 값들이 일정한 범위 내에 있는지 확인하여 이상값을 식별할 수 있습니다.

1. 기하평균 (Geometric Mean) 계산:

먼저 데이터 집합의 모든 값에 대한 기하평균을 계산합니다. 기하평균은 다음과 같이 정의됩니다:
GM = √(X1 * X2 * X3 * ... * Xn)
여기서,
X1, X2, X3, ..., Xn은 데이터 집합의 개별 데이터 포인트를 나타냅니다.

2. 표준편차 (Standard Deviation) 계산:

이제 데이터 집합의 표준편차를 계산합니다. 표준편차는 데이터 포인트가 평균에서 얼마나 퍼져 있는지를 측정하는 값입니다.

3. 이상값 경계 설정:

일반적으로 이상값을 판단하기 위해 기하평균 주변에 일정한 범위를 설정합니다. 이 범위는 기하평균에서 표준편차의 여러 배만큼 떨어진 값으로 설정됩니다. 예를 들어, 기하평균에서 2.5배 표준편차를 더하고 뺀 범위를 이상값을 탐지하기 위한 경계로 설정할 수 있습니다.

4. 이상값 탐지:

데이터 집합의 개별 데이터 포인트가 설정한 경계를 벗어나면 해당 데이터 포인트는 이상값으로 간주됩니다.
구체적으로, 기하평균 - 2.5 * 표준편차보다 작거나 기하평균 + 2.5 * 표준편차보다 큰 데이터 포인트가 이상값으로 분류됩니다.

이러한 방법을 통해 데이터의 중요한 특성을 고려하여 이상값을 식별할 수 있으며, 경계 값을 조절하여 민감도를 조절할 수 있습니다. 데이터 분포와 이상값의 정의에 따라 경계 값을 조정할 필요가 있을 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글

통계의 표본 추출 방법 (0)	2023.10.12
이상값 인식, IQR(Interquartile Range)를 활용 방법 (0)	2023.10.11
이상값 인식, ESD (Extreme Studentized Deviate) 방법 (0)	2023.10.09
이상값, 인식과 처리 방법 (1)	2023.10.08
결측값의 종류, 처리방법, R에서의 결측값 처리 함수 (0)	2023.10.07