이상값(Outliers)은 데이터 집합에서 일반적인 패턴에서 벗어나 극단적인 값으로 나타나는 데이터 포인트를 의미합니다. 이상값은 데이터 분석을 왜곡시키거나 잘못된 결론을 이끌어낼 수 있으므로 이를 올바르게 처리하는 것이 중요합니다. 이제 이상값에 대한 설명과 R에서의 인식 방법, 그리고 처리 방법에 대해 알아보겠습니다.
이상값의 특징:
이상값은 주로 데이터 집합의 일반적인 분포에서 벗어나 더 높거나 낮은 값으로 나타납니다.
이상값은 단일 변수 또는 다변수 상황에서 나타날 수 있으며, 다른 데이터 포인트와 차이가 큽니다.
이상값은 측정 오류, 특이한 사건 또는 시스템 이상과 관련될 수 있습니다.
이상값 인식 방법:
1. ESD (Extreme Studentized Deviate): ESD는 Z-점수(Z-score)를 사용하여 이상값을 탐지하는 통계적 방법입니다. 일반적으로 표준화된 Z-점수가 임계값을 초과하는 데이터 포인트를 이상값으로 간주합니다.
2. 기하평균(Geometric Mean): 이상값을 탐지하기 위해 기하평균을 사용하는 방법도 있습니다. 기하평균은 평균값과 달리 이상값에 민감하지 않습니다.
3. IQR (Interquartile Range): IQR은 제3사분위수와 제1사분위수의 차이로 계산됩니다. IQR을 기반으로 상자 그림(box plot)을 사용하여 이상값을 시각적으로 확인할 수 있습니다.
이상값 처리 방법:
1. 절단(Truncate): 이상값을 삭제하거나 특정 값으로 대체하는 대신, 절단하는 방법을 선택할 수 있습니다. 예를 들어, 상한과 하한값을 설정하여 데이터를 해당 범위 내로 자를 수 있습니다.
2. 조정(Adjustment): 이상값을 다른 값으로 조정하여 데이터 분포를 보정하는 방법입니다. 일반적으로 이상값을 평균이나 중앙값으로 대체합니다.
이상값 처리는 분석 목적과 데이터 특성에 따라 다를 수 있습니다. 이상값이 실제로 중요한 정보를 포함하고 있을 경우 삭제하기보다는 조정하는 것이 유용할 수 있습니다. 또한 이상값 처리는 데이터 과학자 또는 분석가의 주관에 따라 달라질 수 있으므로 주의가 필요합니다.
'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글
이상값 인식, 기하평균과 표준편차를 활용한 이상값 탐지 (0) | 2023.10.10 |
---|---|
이상값 인식, ESD (Extreme Studentized Deviate) 방법 (0) | 2023.10.09 |
결측값의 종류, 처리방법, R에서의 결측값 처리 함수 (0) | 2023.10.07 |
R에서의 데이터 구조 (0) | 2023.10.06 |
R에서의 기본통계량 함수 (1) | 2023.10.05 |
댓글