본문 바로가기

빅데이터 분석기사,ADsP와 ADP158

이상값, 인식과 처리 방법 이상값(Outliers)은 데이터 집합에서 일반적인 패턴에서 벗어나 극단적인 값으로 나타나는 데이터 포인트를 의미합니다. 이상값은 데이터 분석을 왜곡시키거나 잘못된 결론을 이끌어낼 수 있으므로 이를 올바르게 처리하는 것이 중요합니다. 이제 이상값에 대한 설명과 R에서의 인식 방법, 그리고 처리 방법에 대해 알아보겠습니다. 이상값의 특징: 이상값은 주로 데이터 집합의 일반적인 분포에서 벗어나 더 높거나 낮은 값으로 나타납니다. 이상값은 단일 변수 또는 다변수 상황에서 나타날 수 있으며, 다른 데이터 포인트와 차이가 큽니다. 이상값은 측정 오류, 특이한 사건 또는 시스템 이상과 관련될 수 있습니다. 이상값 인식 방법: 1. ESD (Extreme Studentized Deviate): ESD는 Z-점수(Z-.. 2023. 10. 8.
결측값의 종류, 처리방법, R에서의 결측값 처리 함수 결측값(Missing Values)은 데이터 집합에서 값이 비어있거나 측정되지 않은 상태를 나타냅니다. 이러한 결측값은 데이터 분석과 통계에서 흔히 발생하며, 적절하게 처리해야 합니다. 아래에서 결측값에 대한 설명과 R에서의 처리 방법과 관련 함수를 설명하겠습니다. 1. 결측값의 종류: MCAR (Missing Completely at Random): 결측값이 완전히 무작위로 발생하는 경우입니다. 다른 변수와 상관없이 데이터가 누락됩니다. MAR (Missing at Random): 결측값이 다른 변수와 관련이 있는 경우입니다. 예를 들어, 나이와 수입 데이터가 모두 있을 때, 성별 정보가 누락된 경우입니다. MNAR (Missing Not at Random): 결측값이 누락된 변수와 관련이 있고 그 관.. 2023. 10. 7.
R에서의 데이터 구조 R은 데이터를 다루고 분석하기 위한 강력한 도구이며, 다양한 데이터 구조를 지원합니다. 이러한 데이터 구조들은 데이터를 조직화하고 효율적으로 처리하는 데 도움이 됩니다. 아래에서 R에서 주로 사용되는 데이터 구조들을 설명하겠습니다. 1. 벡터 (Vector): 가장 간단한 데이터 구조로, 하나의 데이터 유형으로 이루어진 연속된 요소들의 집합입니다. 예를 들어, c(1, 2, 3, 4, 5)는 숫자로 이루어진 벡터입니다. 2. 행렬 (Matrix): 2차원 배열로 구성된 데이터 구조로, 모든 요소가 동일한 데이터 유형이어야 합니다. matrix(data, nrow, ncol) 함수를 사용하여 생성합니다. 3. 데이터 프레임 (Data Frame): 표 형식의 데이터 구조로, 각 열은 서로 다른 데이터 유형.. 2023. 10. 6.
R에서의 기본통계량 함수 R은 통계 분석과 데이터 시각화에 매우 유용한 프로그래밍 언어입니다. R을 사용하여 기본적인 통계량을 계산하는 함수들이 많이 제공됩니다. 이러한 함수들을 사용하여 데이터를 요약하고 분석하는 데 도움이 됩니다. 이제 R에서 기본적인 통계량을 계산하는 몇 가지 함수에 대해 설명해 보겠습니다. 1. 평균 (Mean): 평균은 데이터 집합의 모든 값을 더한 후 데이터 포인트의 총 개수로 나눈 값입니다. mean(data) 함수를 사용합니다. 예를 들어, mean(c(1, 2, 3, 4, 5))는 숫자 1부터 5까지의 평균을 계산합니다. 2. 중앙값 (Median): 중앙값은 데이터를 크기순으로 정렬했을 때 가운데 위치한 값입니다. median(data) 함수를 사용합니다. 예를 들어, median(c(1, 3,.. 2023. 10. 5.