ESD (Extreme Studentized Deviate) 방법:
ESD 방법은 평균에서 얼마나 멀리 떨어져 있는 이상값을 찾는 데 사용되는 통계적 방법 중 하나입니다. 이 방법을 사용하여 특정한 이상값을 탐지하기 위해서는 다음과 같은 단계를 따릅니다:
1. Z-점수(Z-Score) 계산:
데이터 집합의 각 데이터 포인트에 대한 Z-점수를 계산합니다. Z-점수는 다음과 같이 정의됩니다:
Z = (X - μ) / σ
여기서,
X는 개별 데이터 포인트,
μ는 데이터 집합의 평균,
σ는 데이터 집합의 표준 편차입니다.
2. 가장 큰 Z-점수 식별:
Z-점수 중 가장 큰 값을 찾습니다. 이 값은 데이터 집합 내에서 가장 이상적으로 여겨질 수 있는 이상값입니다.
3. 임계값 설정:
사용자가 설정한 유의 수준(일반적으로 0.05)에 따라 임계값을 설정합니다.
4. 이상값 판단:
가장 큰 Z-점수가 설정한 임계값을 초과하는 경우, 해당 데이터 포인트는 이상값으로 간주됩니다.
만약 Z-점수가 임계값을 초과하지 않으면, 해당 데이터 포인트는 이상값이 아닙니다.
예를 들어, 데이터 집합에서 Z-점수가 3을 초과하는 경우, 이 데이터 포인트는 평균에서 3 표준 편차 이상 떨어져 있는 이상값으로 간주됩니다.
ESD 방법은 데이터 분석에서 이상값을 탐지하는 강력하고 통계적으로 기반한 방법 중 하나이며, 특히 정규 분포와 비슷한 데이터 분포에서 유용합니다. 이 방법은 특정 이상값을 식별하는 데 도움이 되며, 데이터의 신뢰성을 높이고 모델의 정확도를 향상하는 데 사용됩니다.
'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글
이상값 인식, IQR(Interquartile Range)를 활용 방법 (0) | 2023.10.11 |
---|---|
이상값 인식, 기하평균과 표준편차를 활용한 이상값 탐지 (0) | 2023.10.10 |
이상값, 인식과 처리 방법 (1) | 2023.10.08 |
결측값의 종류, 처리방법, R에서의 결측값 처리 함수 (0) | 2023.10.07 |
R에서의 데이터 구조 (0) | 2023.10.06 |
댓글