본문 바로가기

빅데이터 분석기사,ADsP와 ADP158

통계에서 분포의 형태: 왜도와 첨도 통계학에서 데이터의 분포는 그 형태에 따라 왜도(Skewness)와 첨도(Kurtosis)라는 두 가지 주요 지표로 설명됩니다. 이러한 지표들은 데이터 분포의 특성을 파악하고 정규 분포와의 차이를 이해하는 데 도움이 됩니다. 1. 왜도 (Skewness): 왜도는 데이터 분포의 비대칭 정도를 나타내는 지표입니다. 왜도는 분포의 꼬리가 어느 쪽으로 치우쳐 있는지를 측정합니다. 왜도가 0인 경우: 데이터 분포가 대칭적인 정규 분포에 가깝습니다. 왜도가 양수인 경우: 오른쪽 꼬리가 길어져 분포가 오른쪽으로 치우친 분포입니다. 긍정적 왜도(Positive Skewness)라고도 합니다. 왜도가 음수인 경우: 왼쪽 꼬리가 길어져 분포가 왼쪽으로 치우친 분포입니다. 부정적 왜도(Negative Skewness)라고.. 2023. 9. 26.
통계에서의 중요한 산포 측정 지표들 통계학에서 데이터의 변이나 분포를 측정하고 이해하는 데에는 여러 가지 측정 지표들이 사용됩니다. 이러한 지표들은 데이터의 특성을 파악하고 예측하는 데 도움이 됩니다. 이제 분산, 표준편차, 범위, 사분위수 범위, 변동 계수, 표준 오차에 대해 알아봅시다. 1. 분산 (Variance): 분산은 데이터 포인트가 평균으로부터 얼마나 퍼져있는지를 측정하는 지표입니다. 분산은 각 데이터 포인트와 평균 간의 차이를 제곱한 값의 평균입니다. 높은 분산은 데이터가 평균에서 멀리 떨어져 있음을 나타내며, 낮은 분산은 데이터가 평균 주변에 모여있음을 나타냅니다. 2. 표준편차 (Standard Deviation): 표준편차는 분산의 양의 제곱근으로, 데이터의 퍼짐 정도를 측정하는 데 사용됩니다. 분산과 달리 원래 데이터.. 2023. 9. 25.
평균, 중앙값, 최빈값: 데이터의 대푯값 통계학에서 데이터를 요약하고 중심 경향성을 파악하는 데 사용되는 대푯값(central tendency)은 평균, 중앙값, 최빈값 등이 있습니다. 각각의 역할과 계산 방법에 대해 알아봅시다. 1. 평균 (Mean): 평균은 데이터 집합의 모든 값을 더한 후 데이터의 개수로 나눈 값입니다. 평균은 데이터의 합을 데이터의 개수로 정규화한 대푯값으로, 전체 데이터 집합을 대표하는 중심 경향성의 지표로 널리 사용됩니다. 평균은 수치적인 계산에 유용하며, 이상치(outlier)에 민감할 수 있습니다. 2. 중앙값 (Median): 중앙값은 데이터를 크기순으로 정렬했을 때 가운데에 위치한 값입니다. 데이터 집합의 중간에 있는 값을 찾아내므로 이상치의 영향을 상대적으로 덜 받습니다. 중앙값은 데이터의 중심 경향성을 나.. 2023. 9. 24.
인과관계와 산점도: 종속변수와 독립변수 간의 상호작용 인과관계(Causality)는 통계학과 데이터 분석에서 중요한 주제 중 하나입니다. 종속변수(Dependent Variable)와 독립변수(Independent Variable) 간의 관계를 이해하고 설명하기 위해 사용됩니다. 이 관계를 시각화하고 파악하는데 도움을 주는 도구 중 하나가 '산점도(Scatterplot)'입니다. 1. 산점도 (Scatterplot): 산점도는 데이터 분석에서 종속변수와 독립변수 간의 관계를 나타내는 데 사용되는 그래프입니다. 산점도는 x-축에 독립변수의 값을, y-축에 종속변수의 값을 놓고 각 데이터 포인트를 점으로 표시합니다. 이 점들이 어떻게 분포하느냐에 따라 두 변수 간의 관계를 시각적으로 이해할 수 있습니다. 2. 산점도를 통한 확인할 수 있는 내용: 양적 관계 확.. 2023. 9. 23.