본문 바로가기
빅데이터 분석기사,ADsP와 ADP

이상값 인식, ESD (Extreme Studentized Deviate) 방법

by 귀주대 2023. 10. 9.

 

ESD (Extreme Studentized Deviate) 방법:

ESD 방법은 평균에서 얼마나 멀리 떨어져 있는 이상값을 찾는 데 사용되는 통계적 방법 중 하나입니다. 이 방법을 사용하여 특정한 이상값을 탐지하기 위해서는 다음과 같은 단계를 따릅니다:

1. Z-점수(Z-Score) 계산:

데이터 집합의 각 데이터 포인트에 대한 Z-점수를 계산합니다. Z-점수는 다음과 같이 정의됩니다:
Z = (X - μ) / σ
여기서,
X는 개별 데이터 포인트,
μ는 데이터 집합의 평균,
σ는 데이터 집합의 표준 편차입니다.

2. 가장 큰 Z-점수 식별:

Z-점수 중 가장 큰 값을 찾습니다. 이 값은 데이터 집합 내에서 가장 이상적으로 여겨질 수 있는 이상값입니다.

3. 임계값 설정:

사용자가 설정한 유의 수준(일반적으로 0.05)에 따라 임계값을 설정합니다.

4. 이상값 판단:

가장 큰 Z-점수가 설정한 임계값을 초과하는 경우, 해당 데이터 포인트는 이상값으로 간주됩니다.
만약 Z-점수가 임계값을 초과하지 않으면, 해당 데이터 포인트는 이상값이 아닙니다.
예를 들어, 데이터 집합에서 Z-점수가 3을 초과하는 경우, 이 데이터 포인트는 평균에서 3 표준 편차 이상 떨어져 있는 이상값으로 간주됩니다.

ESD 방법은 데이터 분석에서 이상값을 탐지하는 강력하고 통계적으로 기반한 방법 중 하나이며, 특히 정규 분포와 비슷한 데이터 분포에서 유용합니다. 이 방법은 특정 이상값을 식별하는 데 도움이 되며, 데이터의 신뢰성을 높이고 모델의 정확도를 향상하는 데 사용됩니다.

 

 

댓글