본문 바로가기
빅데이터 분석기사,ADsP와 ADP

이상값 인식, IQR(Interquartile Range)를 활용 방법

by 귀주대 2023. 10. 11.

 

데이터에서 이상값을 탐지하고 처리하기 위한 방법 중 하나는 IQR(Interquartile Range)를 활용하는 것입니다. IQR은 데이터의 중앙 50% 범위를 나타내며, 이 범위를 벗어나는 데이터 포인트를 이상값으로 간주합니다. 이 방법은 데이터의 분포와 중심 경향성을 고려하여 이상값을 식별하는 강력한 방법 중 하나입니다.

IQR을 계산하고 이상값을 인식하는 과정을 자세히 알아보겠습니다:

1. 데이터 정렬: 먼저 데이터를 크기 순서대로 정렬합니다. 이렇게 하면 데이터 포인트가 순서대로 배열됩니다.

2. Q1(1 사분위수) 계산: 정렬된 데이터에서 하위 25%에 해당하는 값을 찾습니다. 이것이 1 사분위수(Q1)입니다. 1 사분위수는 데이터의 하위 25% 범위를 나타냅니다.

3. Q3(3 사분위수) 계산: 정렬된 데이터에서 하위 75%에 해당하는 값을 찾습니다. 이것이 3 사분위수(Q3)입니다. 3 사분위수는 데이터의 하위 75% 범위를 나타냅니다.

4. IQR 계산: IQR은 Q3에서 Q1을 뺀 값으로, 데이터의 중앙 50% 범위를 나타냅니다. 다음과 같이 계산합니다:

IQR = Q3 - Q1

5. 이상값 식별: 이상값은 주로 아래의 조건을 충족하는 데이터 포인트로 정의됩니다:

Q1 - 1.5 * IQR 보다 작은 값 또는 Q3 + 1.5 * IQR 보다 큰 값
여기서 1.5 * IQR은 일반적으로 사용되는 임계값입니다. 이 값을 벗어나는 데이터 포인트는 이상값으로 간주됩니다. 이상값을 식별한 후에는 다양한 방법을 사용하여 처리할 수 있습니다. 예를 들어, 이상값을 제거하거나 대체할 수 있습니다.

IQR을 활용하면 데이터의 분포와 중심 경향성을 고려하여 이상값을 식별하고 처리할 수 있으므로 데이터 분석 및 품질 관리 과정에서 유용한 도구 중 하나입니다.

 

댓글