본문 바로가기
빅데이터 분석기사,ADsP와 ADP

R에서의 기본통계량 함수

by 귀주대 2023. 10. 5.

 


R은 통계 분석과 데이터 시각화에 매우 유용한 프로그래밍 언어입니다. R을 사용하여 기본적인 통계량을 계산하는 함수들이 많이 제공됩니다. 이러한 함수들을 사용하여 데이터를 요약하고 분석하는 데 도움이 됩니다. 이제 R에서 기본적인 통계량을 계산하는 몇 가지 함수에 대해 설명해 보겠습니다.

1. 평균 (Mean):

평균은 데이터 집합의 모든 값을 더한 후 데이터 포인트의 총 개수로 나눈 값입니다.
mean(data) 함수를 사용합니다. 예를 들어, mean(c(1, 2, 3, 4, 5))는 숫자 1부터 5까지의 평균을 계산합니다.

2. 중앙값 (Median):

중앙값은 데이터를 크기순으로 정렬했을 때 가운데 위치한 값입니다.
median(data) 함수를 사용합니다. 예를 들어, median(c(1, 3, 5, 7, 9))는 중앙값 5를 계산합니다.

3. 최빈값 (Mode):

최빈값은 데이터 집합에서 가장 자주 나타나는 값을 나타냅니다.
table(data) 함수와 mode() 함수를 사용하여 최빈값을 찾을 수 있습니다.

4. 표준편차 (Standard Deviation):

표준편차는 데이터 포인트가 평균에서 얼마나 퍼져 있는지를 측정하는 값입니다.
sd(data) 함수를 사용합니다. 예를 들어, sd(c(1, 2, 3, 4, 5))는 주어진 데이터의 표준편차를 계산합니다.

5. 분산 (Variance):

분산은 데이터의 퍼진 정도를 측정하는 값으로, 표준편차의 제곱값입니다.
var(data) 함수를 사용합니다. 예를 들어, var(c(1, 2, 3, 4, 5))는 주어진 데이터의 분산을 계산합니다.

6. 사분위수 (Quartiles):

사분위수는 데이터를 4개의 동일한 부분으로 나눈 값으로, 데이터의 중간값인 중앙값(median)과 함께 데이터 분포를 파악하는 데 사용됩니다.
quantile(data) 함수를 사용하여 사분위수를 계산합니다. 예를 들어, quantile(c(1, 2, 3, 4, 5), probs = c(0.25, 0.5, 0.75))는 데이터의 1 사분위수, 중앙값, 3 사분위수를 계산합니다.

7. 상관계수 (Correlation Coefficient):
상관계수는 두 변수 간의 선형적 관계를 측정하는 지표로, -1에서 1 사이의 값을 가집니다.
cor(x, y) 함수를 사용하여 두 변수 x와 y 간의 상관계수를 계산합니다. 이 때, 상관계수가 1에 가까울수록 양의 선형 관계가 강하며, -1에 가까울수록 음의 선형 관계가 강합니다. 0에 가까울수록 선형 관계가 없습니다.
예를 들어, cor(c(1, 2, 3, 4, 5), c(5, 4, 3, 2, 1))은 두 변수 간의 음의 상관계수를 계산합니다. 이 경우, 한 변수가 증가하면 다른 변수는 감소하는 강한 음의 선형 관계가 있음을 나타냅니다.

상관계수는 두 변수 간의 관계를 파악하는 데 도움을 주며, 두 변수 간의 연관성을 이해하는 데 중요한 지표 중 하나입니다.

이러한 함수들을 사용하면 R을 활용하여 데이터의 기본적인 통계량을 쉽게 계산하고 분석할 수 있습니다. R은 데이터 과학 및 통계 분석 분야에서 강력한 도구로 널리 사용되며, 다양한 통계 함수와 라이브러리가 제공되므로 데이터 분석 작업을 보다 효과적으로 수행할 수 있습니다.

 

댓글