본문 바로가기
빅데이터 분석기사,ADsP와 ADP

연관분석을 평가할 때는 몇 가지 주의점

by 귀주대 2024. 1. 27.

 


연관분석은 데이터 간의 관계를 찾아내는 데 사용되는 데이터 마이닝 기법 중 하나로, 특히 상품의 구매 패턴 등에서 유용하게 활용됩니다. 연관분석을 평가할 때는 몇 가지 주의점을 고려해야 합니다. 이에 대한 자세한 설명은 다음과 같습니다.

 


1. 지지도 (Support)의 적절한 설정:

연관분석의 첫 번째 지표인 지지도는 특정 항목 집합이 전체 데이터에서 차지하는 비율을 나타냅니다. 너무 높거나 낮은 지지도는 의미 있는 규칙을 찾기 어렵게 만들 수 있습니다. 적절한 지지도 기준을 설정하여 흥미로운 규칙을 찾을 수 있도록 합니다.

 

2. 신뢰도 (Confidence)와 신뢰도-지지도 그래프 확인:

신뢰도는 조건 아이템이 주어졌을 때 결과 아이템이 함께 발생하는 확률을 나타냅니다. 이 값이 너무 높으면 관련성이 낮은 패턴까지 규칙으로 채택될 수 있습니다. 따라서 신뢰도와 지지도를 함께 고려하여 신뢰도-지지도 그래프를 확인하고 적절한 신뢰도를 선택합니다.

 

3. 리프트 (Lift)의 해석:

리프트는 규칙의 신뢰도를 해당 아이템이 무작위로 선택될 때의 예상 신뢰도로 나눈 값입니다. 리프트 값이 1보다 크면 기대치보다 특별한 패턴이라고 볼 수 있습니다. 그러나 리프트가 크더라도 신뢰도와 지지도를 함께 고려해야 합니다.

 

4. 다중 검정 문제 고려:

다양한 연관 규칙을 살펴보다 보면 다중 검정 문제가 발생할 수 있습니다. 여러 테스트를 수행할 때는 유의수준을 보정하여 잘못된 결론을 피하도록 합니다.

 

5. 의미 있는 도메인 지식 활용:

연관분석 결과를 해석할 때 도메인 지식을 적극적으로 활용해야 합니다. 알고리즘 자체는 통계적인 패턴을 찾지만, 도메인 지식 없이는 결과의 실제 의미를 파악하기 어렵습니다.

 

6. 데이터의 특성 고려:

데이터의 특성에 따라 연관분석을 적용할 때 주의가 필요합니다. 데이터의 크기, 희소성, 노이즈 등을 고려하여 적절한 전처리를 수행하고 적합한 알고리즘을 선택해야 합니다.

 

연관분석에서 이러한 주의점을 고려하면 높은 품질의 규칙을 얻을 수 있으며, 실제 비즈니스 의사 결정에 유용한 정보를 도출할 수 있습니다.

 

'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글

Walktrap 알고리즘  (0) 2024.01.29
사회연결망 분석에서 커뮤니티  (0) 2024.01.28
조합의 기본이해  (0) 2024.01.21
순열의 기본이해  (0) 2024.01.20
배치 사이즈란?  (0) 2024.01.19

댓글