Box plot은 box and whisker plot이라고도 부르며, quantitative data를 나타내는데 사용한다.
Box plot은 자료를 quartile에 따라 구분한다. Box plot의 body는 Q1에서 Q3까지의 "box"로 나타낸다. 상자 안에는 Q2를 나타내는 세로줄이 그어져 있는데 이것은 바로 자료의 median이다. 상자의 좌, 우에 뻗어있는 두 개의 수평선은 whisker라고 부른다. 왼쪽 whisker는 Q1에서 outlier가 아닌 자료의 최솟값까지 긋고, 오른쪽 whisker는 Q3에서 outlier가 아닌 자료의 최댓값까지 긋는다. 만일 하나 이상의 outlier가 있다면 각 outlier를 점으로 나타낸다. 예를 들어 위의 box plot에서는 2개의 outlier가 왼쪽 수염 좌측에 있고, 3개의 outlier가 오른쪽 수염 우측에 나타나 있다.
Box plot의 해석 방법을 살펴보자. 먼저, median은 상자 가운데 있는 수직선으로 표시된다. 위 box plot에서 median은 약 400이다. 이 뿐만 아니라, box plot에서 자료의 variability(or spread) 중 두 가지 척도를 알 수 있다.
모든 자료의 range를 알기 위해서는 outlier를 포함해 최솟값과 최댓값의 차이를 구하면 된다. 위의 box plot에서 최솟값은 -700이고, 최댓값은 1700 이므로 range = 1700 – (-700) = 2400 이다.
전체 자료의 middle 50%(중간 50%)에 해당하는 자료의 range를 IQR이라고 한다. Box plot에서 IQR는 상자의 길이 즉, Q3 – Q1 으로 나타난다. 위의 box plot에서 IQR = Q3 – Q1 = 600 – 300 = 300 이다.
마지막으로 box plot에서 자료의 형태를 파악해 보자.
Box plot에서 자료의 skewness를 예상할 수 있다. 만일 위의 세 box plot 에서 왼쪽의 box plot과 같이 대부분 관측값이 작은 값에 집중되어 있다면 대체로 skewed right이고, 오른쪽의 box plot과 같이 대부분 관측값이 큰 값에 집중되어 있다면 skewed left이다. 만일 자료의 분포가 symmetry라면 가운데 box plot에 나타난 것과 같이 관측값은 median 좌우에 고르게 분포한다고 볼 수 있다. 단, box plot이 skewness를 항상 정확하게 나타내는 것은 아니다.
Problem
Consider the box plot below.
Which of the following statements are true?
I. The distribution is skewed right.
II. The interquartile range is about 8.
III. The median is about 10.
(A) I only
(B) II only
(C) III only
(D) I and III
(E) II and III
AP Statistics 필수 개념 2. Modeling Distributions of Data (0) | 2023.02.15 |
---|---|
AP Statistics 필수 개념 1. Exploring Data (0) | 2023.02.15 |
1.3 Graphical Displays - Stemplot (0) | 2017.02.24 |
1.3 Graphical Displays - Bar chart and Histogram (0) | 2017.02.24 |
1.3 Graphical Displays - Dot plot (0) | 2017.02.22 |
댓글 영역