본문 바로가기

빅데이터 분석기사,ADsP와 ADP158

피어슨 상관계수 (Pearson Correlation Coefficient),스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient) 피어슨 상관계수 (Pearson Correlation Coefficient): 개념: 피어슨 상관계수는 두 연속형 변수 간의 선형 상관성을 측정하는 통계량입니다. 이는 두 변수 간의 직선적 관계의 강도와 방향을 평가합니다. 피어슨 상관계수는 -1과 1 사이의 값을 가지며, -1은 완벽한 음의 선형 관계, 1은 완벽한 양의 선형 관계를 나타내며 0은 선형 관계가 없음을 의미합니다. 특징: 선형 관계를 가정합니다. 따라서 비선형 관계를 감지할 수 없습니다. 이상치에 민감할 수 있습니다. 등간격 또는 비율척도의 데이터에 사용됩니다. 데이터의 정규성을 요구할 수 있습니다. 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient): 개념: 스피어만 상관계수는 두 변수 간의.. 2023. 10. 20.
인과관계 (Causality) vs 상관분석 (Correlation) 인과관계와 상관분석은 데이터 분석과 통계학에서 중요한 개념이지만, 서로 다른 의미를 갖습니다. 이 두 용어의 차이점을 살펴보겠습니다. 1. 상관분석 (Correlation): 상관분석은 두 변수 간의 관계를 측정하는 통계 기법 중 하나입니다. 상관분석은 두 변수 간의 선형 관계의 강도와 방향을 평가합니다. 이것은 "X가 증가하면 Y도 증가한다" 또는 "X가 증가하면 Y는 감소한다"와 같은 관계를 보여줍니다. 상관분석은 두 변수 간의 연관성을 나타내는 상관 계수(일반적으로 피어슨 상관 계수를 사용)를 생성합니다. 상관 계수의 값은 -1에서 1 사이에 있으며, -1은 완벽한 음의 선형 관계, 1은 완벽한 양의 선형 관계를 나타내며, 0은 선형 관계가 없음을 나타냅니다. 상관분석은 두 변수 간의 연관성을 파악.. 2023. 10. 19.
범주형 자료 (Categorical Data)와 연속형 자료 (Continuous Data) 범주형 자료 (Categorical Data): 범주형 자료는 명목형 자료와 순서형 자료로 나눌 수 있습니다. 1. 명목형 자료 (Nominal Data): 명목형 자료는 서로 다른 범주 또는 그룹으로 구분되는 데이터를 나타냅니다. 이러한 범주는 순서가 없습니다. 예를 들어, 성별, 혈액형, 도시 이름은 명목형 자료의 예입니다. 2. 순서형 자료 (Ordinal Data): 순서형 자료는 범주 사이에 상대적인 순서 또는 등급이 있는 데이터를 의미합니다. 예를 들어, 학점 (A, B, C), 고객 만족도 (매우 만족, 만족, 불만족), 교육 수준 (초졸, 고졸, 대졸)은 순서형 자료의 예입니다. 범주형 자료의 시각화: 범주형 자료를 시각화하기 위한 주요 방법은 다음과 같습니다: 1. 막대 그래프 (Bar .. 2023. 10. 18.
변수의 구간화(Variable Binning 또는 Bucketing) 변수의 구간화(Variable Binning 또는 Bucketing)는 연속형 변수(continuous variable)를 구간 또는 범주(category)로 나누는 과정을 의미합니다. 이 과정은 데이터를 더 쉽게 이해하고 분석하기 위해 사용됩니다. 아래에서 변수 구간화와 구간화의 방법에 대해 설명하겠습니다. 변수의 구간화 (Variable Binning): 변수의 구간화는 주로 연속형 데이터를 분석하고 시각화할 때 사용됩니다. 연속형 데이터는 무한한 값을 가질 수 있으므로, 데이터를 이해하고 해석하기 위해 구간 화하는 것이 도움이 됩니다. 예를 들어, 나이, 소득, 온도, 거리 등의 연속형 변수를 구간 화하여 연령 그룹, 소득 범주, 온도 구간, 거리 범주로 나눌 수 있습니다. 변수 구간화의 방법: 변.. 2023. 10. 17.