통계학에서 자료의 variability(spread)를 정량적으로 표현하기 위해서는 range, interquartile range(IQR), variance, standard deviation를 주로 사용한다.
자료의 최댓값(maximum)과 최솟값(minimum)의 차이(difference)이다.
예를 들어 1, 3, 4, 5, 5, 6, 7, 11 의 Range는 11 – 1 = 10 이다.
중간 50%에 해당하는 자료의 최댓값과 최솟값의 차이이다. 먼저 자료를 크기가 커지는 순서(increasing order)로 배열한다. 정렬된 자료의 하위(lower) 25%와 상위(upper) 25%에 해당하는 측정값을 제거한다. 남아 있는 중앙(middle)50% 측정값의 최댓값과 최솟값의 차이를 구한다.
예를 들어 1, 3, 4, 5, 5, 6, 7, 11 의 IQR를 구해보자. 먼저 하위 25%, 상위 25%에 해당하는 수를 없애면 4, 5, 5, 6 이 남는다. 따라서 IQR = 6 - 4 = 2 이다.
Population variance
$$\sigma^2 = {\Sigma (X_i - \mu )^2 \over N} $$
$\sigma^2$는 population variance, $\mu$는 population mean, $X_i$는 population의 $i$번째 관측값, $N$은 population 관측값 개수
Sample variance
$$S^2 = {\Sigma (X_i - \bar X )^2 \over n-1} $$
$S^2$는 sample variance, $\bar X$는 sample mean, $X_i$는 sample의 $i$번째 관측값, $n$은 sample 관측값 개수
만일 sample variance를 계산할 때 sample size $n$을 사용하면, sample variance의 평균값은 항상 실제 population variance보다 작은 값을 갖게 된다. 이러한 경우를 biased estimator라고 한다. 따라서, 통계학자들은 $n$ 대신 위의 식과 같이 $n-1$을 사용하면 sample variance의 평균값이 실제 population variance 값과 같아진다는 사실을 밝혀냈다. 이 경우 sample variance는 unbiased estimator가 된다. 따라서, 알지 못하는 population variance의 값을 추정(estimate)하고자 할 때는 sample을 뽑아서 sample variance를 구해서 추정한다.
Population standard deviation
$$\sigma = \sqrt{\Sigma (X_i - \mu )^2 \over N} $$
$\sigma$는 population standard deviation, $\mu$는 population mean, $X_i$는 population의 $i$번째 관측값, $N$은 population 관측값 개수
Sample standard deviation
$$S = \sqrt {\Sigma (X_i - \bar X )^2 \over n-1} $$
$S$는 sample standard deviation, $\bar X$는 sample mean, $X_i$는 sample의 $i$번째 관측값, $n$은 sample 관측값 개수
만일 각 관측값에 상수 $a$ 를 더한다면 각 관측값 간의 차이(difference)는 변하지 않는다. 따라서 모든 measure of variability(range, IQR, variation, standard deviation)는 변하지 않는다. 하지만, 각 관측값에 상수 $a$를 곱한다면 모든 measure of variability(range, IQR, standard deviation)은 $|a|$배가 되고, variance는 $a^2$배가 된다.
Problem
A population consists of four observations: {1, 3, 5, 7}. What is the variance?
(A) 2
(B) 4
(C) 5
(D) 6
(E) None of the above
Problem
A sample consists of four observations: {1, 3, 5, 7}. What is the standard deviation?
(A) 2
(B) 2.58
(C) 6
(D) 6.67
(E) None of the above
1.3 Graphical Displays - Patterns in Data (0) | 2017.02.22 |
---|---|
1.2 Quantitative Measures - Measures of Position (0) | 2017.02.21 |
1.2 Quantitative Measures - Measures of Central Tendency (0) | 2017.02.18 |
1.1 Types of Variables (0) | 2017.02.13 |
[정오표] AP Statistics 48시간에 개념뽀개기 (1) | 2009.01.17 |
댓글 영역