본문 바로가기

빅데이터 분석기사,ADsP와 ADP158

통계의 표본 추출 방법 통계의 표본 추출 방법 통계 분석을 수행할 때 모집단(population)으로부터 표본(sample)을 추출하는 것은 중요한 과정 중 하나입니다. 표본 추출 방법은 모집단을 대표할 수 있는 표본을 얻기 위해 사용되며, 다양한 방법이 있습니다. 이제 몇 가지 주요한 표본 추출 방법에 대해 설명하겠습니다. 1. 단순 무작위 추출 (Simple Random Sampling): 이 방법은 모집단 내의 모든 개체가 동일한 확률로 선택될 수 있도록 하는 방법입니다. 예를 들어, 번호표를 사용하여 모집단에서 무작위로 개체를 선택하는 것이 단순 무작위 추출의 한 예입니다. 2. 계통 추출법 (Systematic Sampling): 계통 추출법은 모집단을 일정한 간격(계통)으로 나눈 후, 그 간격에 해당하는 하나의 개체.. 2023. 10. 12.
이상값 인식, IQR(Interquartile Range)를 활용 방법 데이터에서 이상값을 탐지하고 처리하기 위한 방법 중 하나는 IQR(Interquartile Range)를 활용하는 것입니다. IQR은 데이터의 중앙 50% 범위를 나타내며, 이 범위를 벗어나는 데이터 포인트를 이상값으로 간주합니다. 이 방법은 데이터의 분포와 중심 경향성을 고려하여 이상값을 식별하는 강력한 방법 중 하나입니다. IQR을 계산하고 이상값을 인식하는 과정을 자세히 알아보겠습니다: 1. 데이터 정렬: 먼저 데이터를 크기 순서대로 정렬합니다. 이렇게 하면 데이터 포인트가 순서대로 배열됩니다. 2. Q1(1 사분위수) 계산: 정렬된 데이터에서 하위 25%에 해당하는 값을 찾습니다. 이것이 1 사분위수(Q1)입니다. 1 사분위수는 데이터의 하위 25% 범위를 나타냅니다. 3. Q3(3 사분위수) 계.. 2023. 10. 11.
이상값 인식, 기하평균과 표준편차를 활용한 이상값 탐지 기하평균과 표준편차를 활용한 이상값 탐지: 이상값을 탐지하기 위한 한 가지 방법은 기하평균과 표준편차를 사용하는 것입니다. 특히, 기하평균 주변의 값들이 일정한 범위 내에 있는지 확인하여 이상값을 식별할 수 있습니다. 1. 기하평균 (Geometric Mean) 계산: 먼저 데이터 집합의 모든 값에 대한 기하평균을 계산합니다. 기하평균은 다음과 같이 정의됩니다: GM = √(X1 * X2 * X3 * ... * Xn) 여기서, X1, X2, X3, ..., Xn은 데이터 집합의 개별 데이터 포인트를 나타냅니다. 2. 표준편차 (Standard Deviation) 계산: 이제 데이터 집합의 표준편차를 계산합니다. 표준편차는 데이터 포인트가 평균에서 얼마나 퍼져 있는지를 측정하는 값입니다. 3. 이상값 경계.. 2023. 10. 10.
이상값 인식, ESD (Extreme Studentized Deviate) 방법 ESD (Extreme Studentized Deviate) 방법: ESD 방법은 평균에서 얼마나 멀리 떨어져 있는 이상값을 찾는 데 사용되는 통계적 방법 중 하나입니다. 이 방법을 사용하여 특정한 이상값을 탐지하기 위해서는 다음과 같은 단계를 따릅니다: 1. Z-점수(Z-Score) 계산: 데이터 집합의 각 데이터 포인트에 대한 Z-점수를 계산합니다. Z-점수는 다음과 같이 정의됩니다: Z = (X - μ) / σ 여기서, X는 개별 데이터 포인트, μ는 데이터 집합의 평균, σ는 데이터 집합의 표준 편차입니다. 2. 가장 큰 Z-점수 식별: Z-점수 중 가장 큰 값을 찾습니다. 이 값은 데이터 집합 내에서 가장 이상적으로 여겨질 수 있는 이상값입니다. 3. 임계값 설정: 사용자가 설정한 유의 수준(일.. 2023. 10. 9.