본문 바로가기

EGO expertgroup

(39)
1.3 Graphical Displays - Box plot 1.3 Graphical Displays 5. Box plot (or Box and Whisker Plot) Box plot은 box and whisker plot이라고도 부르며, quantitative data를 나타내는데 사용한다. Box plot은 자료를 quartile에 따라 구분한다. Box plot의 body는 Q1에서 Q3까지의 "box"로 나타낸다. 상자 안에는 Q2를 나타내는 세로줄이 그어져 있는데 이것은 바로 자료의 median이다. 상자의 좌, 우에 뻗어있는 두 개의 수평선은 whisker라고 부른다. 왼쪽 whisker는 Q1에서 outlier가 아닌 자료의 최솟값까지 긋고, 오른쪽 whisker는 Q3에서 outlier가 아닌 자료의 최댓값까지 긋는다. 만일 하나 이상의 outli..
1.3 Graphical Displays - Stemplot 1.3 Graphical Displays 4. Stemplot (or Stem and Leaf Plot) Histogram은 각 group에 속한 관측값들이 분포하는 모양을 보여주지만 그룹에 속한 관측값의 정확한 값을 나타내지는 않는다. 반면에 stemplot은 분포 모양과 함께 각 관측값의 정확한 값을 함께 보여준다. Stemplot은 quantitative data를 나타내는데 사용하며, 일반적으로 자료의 개수가 많지 않은(50 이하) 경우에 사용된다. 다음 stemplot은 어느 학교의 6학년 학생 30명의 IQ를 나타낸 것이다. Stemplot에서 왼쪽에 있는 항목들을 stem이라고 하고 오른쪽에 있는 항목들을 leaf라고 한다. 위의 stemplot에서 stem은 십 단위(80, 90, 100~..
1.3 Graphical Displays - Bar chart and Histogram 1.3 Graphical Displays 3. Bar chart and Histogram Dot plot과 마찬가지로 bar chart와 histogram은 다른 group 간 크기를 비교하는데 사용된다. Bar chart에서는 다음과 같이 각 열을 나타낸다. ▶ 각 열은 categorical variable을 나타내는 label 위에 나타낸다. ▶ 각 열의 높이는 열 label에 의해 정의된 group의 크기를 나타낸다. 다음은 4개 주(New Jersey, New York, New Hampshire, New Mexico)에서의 average income을 나타낸 bar chart이다. Histogram에서는 다음과 같이 각 열을 나타낸다. ▶ 각 열은 quantitative variable을 나타내는..
1.3 Graphical Displays - Dot plot 1.3 Graphical Displays 2. Dot plot Dot plot은 group이나 category별로 frequency(빈도)를 비교하는데 사용한다. Qualitative data를 나타내는데 주로 사용하며, Dot plot의 특징은 다음과 같다. ▶ 각각의 점은 자료의 집합에서 하나의 관측값(또는 특정 관측값 수)를 나타낸다. ▶ Category별로 하나의 열에 점들을 누적해서 나타낸다. 따라서, 각 열의 높이는 각 category에 포함된 관측값의 absolute frequency (절대빈도)나 relative frequency(상대빈도)를 나타낸다.▶ Quantitative data일 때에만 자료 형태에 대해 symmetry, skewness, gap, oulier 등과 같은 shape..
1.3 Graphical Displays - Patterns in Data 1.3 Graphical Displays 1. Patterns in Data 자료를 시각적으로 나타내는 것은 자료 형태를 통해 유용한 정보를 알아내기 쉽도록 도와준다. 자료 형태는 center, spread, shape과 unusual feature(gap, outlier)를 통해 기술한다. Center자료 분포에서 median이 위치한 곳을 말한다. 보통 center는 분포 양 끝에서 절반 정도 되는 지점이다. 다음 그림에서 각 열의 높이는 관측값의 빈도를 나타낸다. 관측값은 5를 중심으로 모여 있다. Spread 자료의 variability를 나타낸다. 만일 관측값이 넓은 범위에 퍼져 있다면 spread가 크고, 특정한 값 주위에 모여 있다면 spread는 작다. 왼쪽의 자료는 범위가 1 ~ 9까지 ..
1.2 Quantitative Measures - Measures of Position 1.2 Quantitative Measures 3. Measures of Position 특정값이 자료의 다른 관측값들 사이에서 어디에 위치하는지 파악하고자 할 때, 가장 널리 쓰이는 것은 percentile, quartile, standard score(or Z-score) 이다. Percentiles전체 자료의 관측값을 increasing order(오름차순)으로 정렬했을 때, 자료를 같은 크기의 100개 구간으로 나누어 주는 값들을 percentiles이라고 한다.Percentile이 $P_i$인 수는 자료 전체에서 $P_i$보다 작은 관측값이 전체 자료 중에 $i$퍼센트이다. 예를 들어, percentile이 50인 수는 $P_{50}$으로 나타내고 전체 자료 중에 보다 작은 관측값의 비율이 50..
1.2 Quantitative Measures - Measures of Variation 1.2 Quantitative Measures 2. Measures of Variation 통계학에서 자료의 variability(spread)를 정량적으로 표현하기 위해서는 range, interquartile range(IQR), variance, standard deviation를 주로 사용한다. Range자료의 최댓값(maximum)과 최솟값(minimum)의 차이(difference)이다. 예를 들어 1, 3, 4, 5, 5, 6, 7, 11 의 Range는 11 – 1 = 10 이다. IQR (Interquartile Range) 중간 50%에 해당하는 자료의 최댓값과 최솟값의 차이이다. 먼저 자료를 크기가 커지는 순서(increasing order)로 배열한다. 정렬된 자료의 하위(lower..
1.2 Quantitative Measures - Measures of Central Tendency 1.2 Quantitative Measures 1. Measures of Central Tendency 통계학에서는 자료 형태를 기술하기 위해 다양한 척도를 사용한다.여러 값들의 집합인 자료를 가장 대표적인 값 하나로 나타내고자 할 때 measures of central tendency를 사용한다. MeanSample 또는 Population의 평균은 측정값을 모두 합하고, 자료 수로 나눠서 계산한다. 일반적으로 평균은 다음 식을 이용해 구한다. Population Mean$$\mu = {\Sigma X \over N} $$$\Sigma X$는 population의 모든 측정값의 합, $N$은 population의 관측값 개수 Sample Mean$$\bar x = {\Sigma x \over n } $..