기하평균과 표준편차를 활용한 이상값 탐지:
이상값을 탐지하기 위한 한 가지 방법은 기하평균과 표준편차를 사용하는 것입니다. 특히, 기하평균 주변의 값들이 일정한 범위 내에 있는지 확인하여 이상값을 식별할 수 있습니다.
1. 기하평균 (Geometric Mean) 계산:
먼저 데이터 집합의 모든 값에 대한 기하평균을 계산합니다. 기하평균은 다음과 같이 정의됩니다:
GM = √(X1 * X2 * X3 * ... * Xn)
여기서,
X1, X2, X3, ..., Xn은 데이터 집합의 개별 데이터 포인트를 나타냅니다.
2. 표준편차 (Standard Deviation) 계산:
이제 데이터 집합의 표준편차를 계산합니다. 표준편차는 데이터 포인트가 평균에서 얼마나 퍼져 있는지를 측정하는 값입니다.
3. 이상값 경계 설정:
일반적으로 이상값을 판단하기 위해 기하평균 주변에 일정한 범위를 설정합니다. 이 범위는 기하평균에서 표준편차의 여러 배만큼 떨어진 값으로 설정됩니다. 예를 들어, 기하평균에서 2.5배 표준편차를 더하고 뺀 범위를 이상값을 탐지하기 위한 경계로 설정할 수 있습니다.
4. 이상값 탐지:
데이터 집합의 개별 데이터 포인트가 설정한 경계를 벗어나면 해당 데이터 포인트는 이상값으로 간주됩니다.
구체적으로, 기하평균 - 2.5 * 표준편차보다 작거나 기하평균 + 2.5 * 표준편차보다 큰 데이터 포인트가 이상값으로 분류됩니다.
이러한 방법을 통해 데이터의 중요한 특성을 고려하여 이상값을 식별할 수 있으며, 경계 값을 조절하여 민감도를 조절할 수 있습니다. 데이터 분포와 이상값의 정의에 따라 경계 값을 조정할 필요가 있을 수 있습니다.
'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글
통계의 표본 추출 방법 (0) | 2023.10.12 |
---|---|
이상값 인식, IQR(Interquartile Range)를 활용 방법 (0) | 2023.10.11 |
이상값 인식, ESD (Extreme Studentized Deviate) 방법 (0) | 2023.10.09 |
이상값, 인식과 처리 방법 (1) | 2023.10.08 |
결측값의 종류, 처리방법, R에서의 결측값 처리 함수 (0) | 2023.10.07 |
댓글