통계학에서는 자료 형태를 기술하기 위해 다양한 척도를 사용한다.
여러 값들의 집합인 자료를 가장 대표적인 값 하나로 나타내고자 할 때 measures of central tendency를 사용한다.
Sample 또는 Population의 평균은 측정값을 모두 합하고, 자료 수로 나눠서 계산한다.
일반적으로 평균은 다음 식을 이용해 구한다.
Population Mean
$$\mu = {\Sigma X \over N} $$
$\Sigma X$는 population의 모든 측정값의 합, $N$은 population의 관측값 개수
Sample Mean
$$\bar x = {\Sigma x \over n } $$
$\Sigma x$는 sample의 모든 측정값의 합, $n$은 sample의 관측값 개수
Median을 구하기 위해서는 먼저 자료를 오름차순으로 정렬한 후,
자료 수가 홀수인 경우 : 자료에서 정가운데에 위치한 값
자료 수가 짝수인 경우 : 자료 정가운데 위치한 두 값의 평균을 구한다.
예) 여자 5명의 몸무게가 각각 45kg, 45kg, 49kg, 51kg, 55kg 인 경우,
Mean = (45+45+49+51+55)÷5=49 kg ,
Median = 49kg (정가운데 값) 이다.
자료에서 동일한 값의 개수가 가장 많은 관측값을 말한다.
표본의 수가 크고 outlier를 포함하고 있지 않다면 일반적으로 mean이 central tendency를 나타내는데 더 유용하다. 하지만 만일 자료가 outlier를 포함하고 있다면 outlier 때문에 값이 크게 바뀌는 mean보다는 outlier의 영향을 덜 받는 median이 자료 특성을 나타내는데 적합하다.
예를 들어 10가정의 년 수입을 조사한다고 할 때, 이 중 9가정의 년 수입이 년 3,000만원에서 1억원 사이이고 마지막 10번째 가정의 년 수입이 년 100억원 이라고 하자. 이 때, 10번째 가정의 년 수입은 나머지 9가정의 수입과 큰 차이를 갖는 outlier이다. 만일 우리가 이 10 가정 년 수입의 mean을 구하면 (10번째 가정의 비정상적인 수입으로 인해) 평균 년 수입은 부풀려져서 나타나게 된다. 반면에 median은 outlier에 영향을 받지 않는다.
종종 자료의 단위를 변환해야 하는 경우가 있다(min→hr 또는 cm→m 등). 이런 단위 변환이 mean과 median에 어떤 영향을 주는지 살펴보자.
만일 각 관측값에 상수 를 더한다면 mean, median 모두 만큼 증가한다. 예를 들어 어떤 자료에서 mean=5 이고 median=6 일 때, 자료의 각 관측값에 10을 더한다면 mean = 5 + 10 = 15, median = 6 + 10 = 16 이 된다.
만일 각 관측값에 상수 를 곱한다면 mean, median 모두 배가 된다. 앞의 예에서 mean=5 이고 median=6 일 때, 자료의 각 관측값에 10 곱한다면 mean = 5 × 10 = 50, median = 6 × 10 = 60 이 된다.
Problem
Four friends take an IQ test. Their scores are 96, 100, 106, 114. Which of the following statements is true?
I. The mean is 103.
II. The mean is 104.
III. The median is 100.
IV. The median is 106.
(A) I only
(B) II only
(C) III only
(D) IV only
(E) None is true
1.2 Quantitative Measures - Measures of Position (0) | 2017.02.21 |
---|---|
1.2 Quantitative Measures - Measures of Variation (1) | 2017.02.20 |
1.1 Types of Variables (0) | 2017.02.13 |
[정오표] AP Statistics 48시간에 개념뽀개기 (1) | 2009.01.17 |
AP Statistics 48시간에 개념 뽀개기 판매안내 (2) | 2009.01.01 |
댓글 영역