-
반응형
데이터 세트의 가변성 설명
중심 측정값을 보고하면 데이터 세트에 대한 일부 정보만 제공됩니다. 센터에 대한 가치의 확산을 설명하는 것도 중요합니다. 그림에 표시된 세 가지 샘플은 모두 평균 ! 중앙값! 45. 첫 번째 샘플은 세 번째 샘플에 비해 변동성이 큽니다. 두 번째 샘플은 첫 번째 샘플보다 변동성이 적고 세 번째 샘플보다 변동성이 큽니다. 두 번째 샘플의 변동성 대부분은 두 개의 극단값이 중심에서 멀리 떨어져 있기 때문입니다.
가변성의 가장 간단한 수치 측정은 범위입니다.
데이터 세트의 범위는 다음과 같이 정의됩니다.
범위 = 최대 관측치 ㅡ 최소 관측치
일반적으로 더 큰 범위에서 더 많은 변동성이 반영됩니다. 그러나 변동성은 전체 데이터 세트의 특성이며 각 관찰은 변동성에 기여합니다. 그림에 표시된 처음 두 샘플은 모두 범위가 50이지만 두 번째 샘플에는 변동성이 적습니다.
■ 평균으로부터의 편차
변동성의 가장 일반적인 측정은 표본 관측치가 표본 평균에서 벗어난 정도를 설명합니다. 각 관측치에서 빼면 평균에서 편차 집합이 제공됩니다.
표본 평균과의 n 편차는 차이입니다.
특정 편차는 해당 x 값이 보다 크면 양수이고 x 값이 x보다 작으면 음수입니다.
감자튀김의 아크릴아마이드 수치
● 미국 식품의약국(FDA)의 연구에 따르면 고온에서 조리한 고탄수화물 식품에서 아크릴아마이드(발암 가능성이 있는 물질)가 형성되며 아크릴아마이드 수치는 동일한 브랜드의 식품 내에서도 크게 다를 수 있습니다(Associated Press, 2002년 12월 6일). FDA 과학자들은 7개 지역에서 구입한 맥도날드 감자튀김을 분석한 결과 다음과 같은 아크릴아마이드 수치를 발견했습니다.
497 193 328 155 326 245 270
이 데이터 세트의 경우 표 4.2는 각 관찰에서 빼서 형성된 해당 편차와 함께 데이터를 표시합니다. 관측치 중 3개가 보다 크기 때문에 편차 중 3개가 양수입니다. 음의 편차는 보다 작은 관측치에 해당합니다. 일부 편차는 크기가 상당히 커서(예: 209.286 및 $132.714) 표본 평균에서 멀리 떨어진 관측치를 나타냅니다.
일반적으로 샘플의 변동성이 클수록 편차의 크기(부호 무시)도 커집니다. 이제 편차를 단일 수치 변동성 측정으로 결합하는 방법을 고려합니다. 첫 번째 생각은 편차를 함께 더하여 평균 편차를 계산하는 것일 수 있습니다(이 합계는 간단하게 로 표시한 다음 n으로 나눌 수 있습니다. 하지만 이 방법은 작동하지 않습니다. 왜냐하면 음수 편차와 양수 편차가 합계에서 서로 상쇄되기 때문입니다.
편차를 계산할 때 반올림의 효과를 제외하고는 이 합계가 0이므로 평균 편차는 항상 0이므로 변동성 측정으로 사용할 수 없습니다.
반올림 결과, 예제 4.7에서 7개 편차의 합계 값은 계산에 소수점 정확도를 더 많이 사용했다면 합계는 훨씬 더 0에 가까워졌을 것입니다.
■ 분산과 표준편차
음수 편차와 양수 편차가 서로 상쇄되는 것을 방지하는 일반적인 방법은 결합하기 전에 제곱하는 것입니다. 그런 다음 부호는 반대이지만 크기는 같은 편차(예: #20 및 $20)는 변동성에 동일한 기여를 합니다. 에 대한 공통 표기법은 이 합계를 샘플 크기 n으로 나누면 평균 제곱 편차가 제공됩니다. 이것이 합리적인 가변성 척도인 것처럼 보이지만 n보다 약간 작은 제수를 사용합니다.
s 2 또는 s 값이 상대적으로 큰 것은 표본의 변동성이 크다는 것을 나타내고, s 2 또는 s 값이 0에 가까울수록 변동성이 작다는 것을 나타냅니다. x에 어떤 단위(예: 파운드 또는 초)가 사용되든 제곱 편차와 s 2는 제곱 단위입니다. 제곱근을 취하는 것은 x와 같은 단위로 표현되는 측정값을 제공합니다. 따라서 높이 샘플의 경우 표준 편차는 s ! 3.2인치이고 교과서 가격 샘플의 경우 s= $12.43일 수 있습니다.
■ 사분위 범위
와 마찬가지로 s의 값은 비정상적으로 작거나 큰 단일 관찰의 존재에 의해 크게 영향을 받을 수 있습니다. 사분위수 범위는 이상값의 영향을 받지 않는 변동성의 척도입니다. 사분위수라는 수량을 기반으로 합니다. 하위 사분위수는 데이터 세트의 하위 25%를 상위 75%에서 분리하고
상위 사분위수는 하위 75%에서 상위 25%를 구분합니다. 중간 사분위수는 중앙값이며 상위 50%에서 하위 50%를 구분합니다. 그림은 매끄러운 히스토그램에 대한 이러한 사분위수의 위치를 보여줍니다.
하한 사분위수 = 표본 하반부의 중앙값
상위 사분위수 = 샘플 상반부의 중앙값
(n이 홀수이면 전체 표본의 중앙값을 양쪽 절반에서 제외합니다.)
사분위수 범위(iqr)는 이상값의 존재에 표준 편차만큼 민감하지 않은 변동성의 측정값으로 iqr = 상위 사분위수 - 하위 사분위수로 지정됩니다.
사분위수 범위의 저항 특성은 사분위수 범위의 값에 영향을 주지 않고 가장 작은 표본 관측치의 최대 25%와 가장 큰 표본 관측치의 최대 25%를 더 극단적으로 만들 수 있다는 사실에서 비롯됩니다.
인구 사분위수 범위는 인구 상위 사분위수와 하위 인구 사분위수 간의 차이입니다. 고려 중인 데이터 세트(모집단이든 샘플이든)의 히스토그램이 정규 곡선에 의해 합리적으로 잘 근사될 수 있는 경우 표준 편차(sd)와 사분위수 범위 사이의 관계는 대략 sd= iqr/1.35입니다. iqr/1.35보다 훨씬 큰 표준 편차 값은 정규 곡선보다 더 두꺼운(또는 더 긴) 꼬리가 있는 히스토그램을 나타냅니다. 예제의 병원 비용 대 청구 데이터의 경우 s=14.11인 반면 iqr/1.35 = 14/1.35 =10.37입니다. 이는 줄기-잎 표시에서 볼 수 있듯이 표본 값의 분포가 정규 곡선에 비해 실제로 두꺼운 꼬리를 가진다는 것을 나타냅니다.
반응형'통계학' 카테고리의 다른 글
상관관계 (0) 2023.04.20 데이터 세트 요약: 상자 그림 (0) 2023.04.18 데이터 세트의 중심 설명 (0) 2023.04.14 현자에게 전하는 말: 주의 및 제한 (0) 2023.04.13 이변량 숫자 데이터 표시 (0) 2023.04.10