1.3 Graphical Displays - Patterns in Data

Posted by 고강사
2017.02.22 00:31 AP Statistics/48시간에 개념뽀개기







1.3 Graphical Displays


1. Patterns in Data


자료를 시각적으로 나타내는 것은 자료 형태를 통해 유용한 정보를 알아내기 쉽도록 도와준다. 자료 형태는 center, spread, shape과 unusual feature(gap, outlier)를 통해 기술한다. 


  • Center

자료 분포에서 median이 위치한 곳을 말한다. 보통 center는 분포 양 끝에서 절반 정도 되는 지점이다. 다음 그림에서 각 열의 높이는 관측값의 빈도를 나타낸다. 관측값은 5를 중심으로 모여 있다.




  • Spread 

자료의 variability를 나타낸다. 만일 관측값이 넓은 범위에 퍼져 있다면 spread가 크고, 특정한 값 주위에 모여 있다면 spread는 작다. 왼쪽의 자료는 범위가 1 ~ 9까지 퍼져 있다. 따라서 range는 8이다. 반면에 오른쪽의 자료는 범위가 3 ~ 7까지 퍼져 있으므로 range는 4이고, 따라서, 오른쪽 자료가 spread 즉, variability가 더 작다.


  • Shape

분포 모양은 다음 특성을 통해 나타낼 수 있다.

  • Symmetry

중심을 기준으로 양쪽이 서로 mirror image(거울상)일 때를 말한다.

  • Number of peaks

분포는 하나 또는 다수의 peak를 갖는다. Peak가 하나면 unimodal 둘이면 bimodal 이라고 한다. 

만일 어떤 자료가 symmetric unimodal 이면 bell-shaped 이라 한다.

  • Skewness

자료를 그래프로 나타내었을 때, 한쪽이 반대쪽보다 관측값 개수가 많은 경우가 있다. 

대부분의 관측값이 왼쪽(작은 값)에 분포한 경우를 skewed right, 

대부분의 관측값이 오른쪽(큰 값)에 분포한 경우를 skewed left 라고 한다. 

  • Uniform

관측값이 전체 범위에 걸쳐 균일하게 분포되어 있는 경우를 uniform distribution이라 한다. Uniform distribution은 peak를 갖지 않는다.


다음 그래프를 통해 각 모양을 살펴보자.




  • Unusual Features

대표적인 두 가지 unusual features는 gap과 outlier 이다.

  • Gap

분포에서 관측값이 없는 범위를 말한다. 아래 그림에서 왼쪽 분포에 gap (가운데 빈 부분)이 있다.

  • Outlier

간혹 다른 관측값들과 동떨어진 극단적인 값을 갖는 경우가 있다. 이러한 점을 outlier라 한다. 위의 그림에서 오른쪽 분포는 outlier가 한 개 있는 분포를 나타낸 것이다. Outlier(오른쪽 끝점)를 제외하면 모든 관측값은 1과 6 사이에 분포한다. Range는 outlier를 포함해서 구하므로 10 – 1 = 9 이다.







사업자 정보 표시
EGO expertgroup | 고봉기 | 서울 광진구 능동로 7 한강파크오피스텔 412 | 사업자 등록번호 : 120-11-13163 | TEL : 070-7527-2250 | Mail : ego.expertgroup@gmail.com | 통신판매신고번호 : 2013-서울광진-0211호 | 사이버몰의 이용약관 바로가기
이 댓글을 비밀 댓글로

티스토리 툴바