자료를 시각적으로 나타내는 것은 자료 형태를 통해 유용한 정보를 알아내기 쉽도록 도와준다. 자료 형태는 center, spread, shape과 unusual feature(gap, outlier)를 통해 기술한다.
자료 분포에서 median이 위치한 곳을 말한다. 보통 center는 분포 양 끝에서 절반 정도 되는 지점이다. 다음 그림에서 각 열의 높이는 관측값의 빈도를 나타낸다. 관측값은 5를 중심으로 모여 있다.
자료의 variability를 나타낸다. 만일 관측값이 넓은 범위에 퍼져 있다면 spread가 크고, 특정한 값 주위에 모여 있다면 spread는 작다. 왼쪽의 자료는 범위가 1 ~ 9까지 퍼져 있다. 따라서 range는 8이다. 반면에 오른쪽의 자료는 범위가 3 ~ 7까지 퍼져 있으므로 range는 4이고, 따라서, 오른쪽 자료가 spread 즉, variability가 더 작다.
분포 모양은 다음 특성을 통해 나타낼 수 있다.
중심을 기준으로 양쪽이 서로 mirror image(거울상)일 때를 말한다.
분포는 하나 또는 다수의 peak를 갖는다. Peak가 하나면 unimodal 둘이면 bimodal 이라고 한다.
만일 어떤 자료가 symmetric unimodal 이면 bell-shaped 이라 한다.
자료를 그래프로 나타내었을 때, 한쪽이 반대쪽보다 관측값 개수가 많은 경우가 있다.
대부분의 관측값이 왼쪽(작은 값)에 분포한 경우를 skewed right,
대부분의 관측값이 오른쪽(큰 값)에 분포한 경우를 skewed left 라고 한다.
관측값이 전체 범위에 걸쳐 균일하게 분포되어 있는 경우를 uniform distribution이라 한다. Uniform distribution은 peak를 갖지 않는다.
다음 그래프를 통해 각 모양을 살펴보자.
대표적인 두 가지 unusual features는 gap과 outlier 이다.
분포에서 관측값이 없는 범위를 말한다. 아래 그림에서 왼쪽 분포에 gap (가운데 빈 부분)이 있다.
간혹 다른 관측값들과 동떨어진 극단적인 값을 갖는 경우가 있다. 이러한 점을 outlier라 한다. 위의 그림에서 오른쪽 분포는 outlier가 한 개 있는 분포를 나타낸 것이다. Outlier(오른쪽 끝점)를 제외하면 모든 관측값은 1과 6 사이에 분포한다. Range는 outlier를 포함해서 구하므로 10 – 1 = 9 이다.
1.3 Graphical Displays - Bar chart and Histogram (0) | 2017.02.24 |
---|---|
1.3 Graphical Displays - Dot plot (0) | 2017.02.22 |
1.2 Quantitative Measures - Measures of Position (0) | 2017.02.21 |
1.2 Quantitative Measures - Measures of Variation (1) | 2017.02.20 |
1.2 Quantitative Measures - Measures of Central Tendency (0) | 2017.02.18 |
댓글 영역