피어슨 상관계수 (Pearson Correlation Coefficient):
개념: 피어슨 상관계수는 두 연속형 변수 간의 선형 상관성을 측정하는 통계량입니다. 이는 두 변수 간의 직선적 관계의 강도와 방향을 평가합니다. 피어슨 상관계수는 -1과 1 사이의 값을 가지며, -1은 완벽한 음의 선형 관계, 1은 완벽한 양의 선형 관계를 나타내며 0은 선형 관계가 없음을 의미합니다.
특징:
선형 관계를 가정합니다. 따라서 비선형 관계를 감지할 수 없습니다.
이상치에 민감할 수 있습니다.
등간격 또는 비율척도의 데이터에 사용됩니다.
데이터의 정규성을 요구할 수 있습니다.
스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient):
개념: 스피어만 상관계수는 두 변수 간의 순위 관계를 측정하는 비모수적인 상관계수입니다. 변수의 순서를 비교하여 상관성을 평가합니다.
특징:
비선형 관계를 포착할 수 있으며, 이상치에 대한 영향이 덜합니다.
등간격, 비율, 순서, 서열 척도의 데이터에 사용됩니다.
정규성 가정이 필요하지 않습니다.
상관계수 선택 가이드:
피어슨 상관계수: 연속형 변수 간의 선형 관계를 확인할 때 유용하며, 정규분포를 따르는 데이터에 적합합니다. 예를 들어, 온도와 아이스크림 판매량 간의 관계를 확인할 때 사용 가능합니다.
스피어만 상관계수: 변수 간의 순위 관계를 파악하고, 비선형 관계 또는 이상치에 강한 상관성을 찾을 때 유용합니다. 예를 들어, 학생들의 시험 성적 순위와 공부 시간 간의 관계를 확인할 때 사용 가능합니다.
상황에 따라 어떤 상관계수를 사용할지 선택해야 하며, 데이터의 특성과 연구 목적에 따라 적절한 상관계수를 활용합니다.
'빅데이터 분석기사,ADsP와 ADP' 카테고리의 다른 글
회귀분석의 종류 (0) | 2023.10.22 |
---|---|
회귀분석의 검정방법 (0) | 2023.10.21 |
인과관계 (Causality) vs 상관분석 (Correlation) (1) | 2023.10.19 |
범주형 자료 (Categorical Data)와 연속형 자료 (Continuous Data) (0) | 2023.10.18 |
변수의 구간화(Variable Binning 또는 Bucketing) (0) | 2023.10.17 |
댓글