본문 바로가기
빅데이터 분석기사,ADsP와 ADP

이상값, 인식과 처리 방법

by 귀주대 2023. 10. 8.

 

이상값(Outliers)은 데이터 집합에서 일반적인 패턴에서 벗어나 극단적인 값으로 나타나는 데이터 포인트를 의미합니다. 이상값은 데이터 분석을 왜곡시키거나 잘못된 결론을 이끌어낼 수 있으므로 이를 올바르게 처리하는 것이 중요합니다. 이제 이상값에 대한 설명과 R에서의 인식 방법, 그리고 처리 방법에 대해 알아보겠습니다.

이상값의 특징:

이상값은 주로 데이터 집합의 일반적인 분포에서 벗어나 더 높거나 낮은 값으로 나타납니다.
이상값은 단일 변수 또는 다변수 상황에서 나타날 수 있으며, 다른 데이터 포인트와 차이가 큽니다.
이상값은 측정 오류, 특이한 사건 또는 시스템 이상과 관련될 수 있습니다.
이상값 인식 방법:

1. ESD (Extreme Studentized Deviate): ESD는 Z-점수(Z-score)를 사용하여 이상값을 탐지하는 통계적 방법입니다. 일반적으로 표준화된 Z-점수가 임계값을 초과하는 데이터 포인트를 이상값으로 간주합니다.

2. 기하평균(Geometric Mean): 이상값을 탐지하기 위해 기하평균을 사용하는 방법도 있습니다. 기하평균은 평균값과 달리 이상값에 민감하지 않습니다.

3. IQR (Interquartile Range): IQR은 제3사분위수와 제1사분위수의 차이로 계산됩니다. IQR을 기반으로 상자 그림(box plot)을 사용하여 이상값을 시각적으로 확인할 수 있습니다.

이상값 처리 방법:

1. 절단(Truncate): 이상값을 삭제하거나 특정 값으로 대체하는 대신, 절단하는 방법을 선택할 수 있습니다. 예를 들어, 상한과 하한값을 설정하여 데이터를 해당 범위 내로 자를 수 있습니다.

2. 조정(Adjustment): 이상값을 다른 값으로 조정하여 데이터 분포를 보정하는 방법입니다. 일반적으로 이상값을 평균이나 중앙값으로 대체합니다.

이상값 처리는 분석 목적과 데이터 특성에 따라 다를 수 있습니다. 이상값이 실제로 중요한 정보를 포함하고 있을 경우 삭제하기보다는 조정하는 것이 유용할 수 있습니다. 또한 이상값 처리는 데이터 과학자 또는 분석가의 주관에 따라 달라질 수 있으므로 주의가 필요합니다.

 

댓글