• 2023. 4. 18.

    by. 그 시절 우리는

    반응형

    데이터 세트 요약: 상자 그림

    섹션에서 수치 측정을 사용하여 데이터 세트의 중심과 가변성을 설명하는 방법을 살펴보았습니다. 중앙 및 산포 측정보다 더 자세한 정보를 제공하지만 줄기 및 잎 디스플레이 또는 히스토그램보다 덜 세부적인 데이터를 요약하는 방법이 있으면 좋을 것입니다. boxplot은 그러한 기술 중 하나입니다.

    콤팩트하지만 데이터의 중심, 산포, 대칭 또는 왜도에 대한 정보를 제공합니다. 골격 상자 그림과 수정된 상자 그림의 두 가지 유형의 상자 그림을 고려합니다.

    골격 상자 그림의 구성

    1. 가로(또는 세로) 측정 눈금을 그립니다.

    2. 아래쪽 사분위수에 왼쪽(또는 아래쪽) 가장자리가 있고 위쪽 사분위수에 오른쪽(또는 위쪽) 가장자리가 있는 직사각형 상자를 구성합니다. 그러면 상자 너비가 iqr과 같습니다.

    3. 중앙값 위치의 상자 안에 수직(또는 수평) 선분을 그립니다.

    4. 상자의 각 끝에서 데이터 세트의 가장 작은 관측치와 가장 큰 관측치까지 위스커라고 하는 수평(또는 수직) 선분을 확장합니다.

    재방문 병원 비용 대 청구 비율

    오레곤에 있는 병원의 청구 비용 데이터를 재고해 봅시다. 정렬된 관찰은 다음과 같습니다.

    정렬된 데이터

    하반부 45 48 50 54 57 60 60 62 63 63 64 65 67 68 69

    중앙값 45 48 50 54 57 60 60 71 63 63 64 65 67 68 69

    상반부 71 72 72 74 74 75 75 76 80 83 84 88 100 100 100

    이러한 데이터의 상자 그림을 구성하려면 최소 관측치, 하위 사분위수, 중앙값, 상위 사분위수 및 최대 관측치 정보가 필요합니다. 이 요약 조치 모음을 종종 5자리 요약이라고 합니다. 이 데이터 세트의 경우

    가장 작은 관측치 = 45

    낮은 사분위수 - 하반부의 중앙값 = 62

    중앙값 - 정렬된 목록의 16번째 관측치 = 71

    상위 사분위수 - 상반부의 중앙값 = 76

    최대 관측치 = 100

    그림은 해당 상자 그림을 보여줍니다. 중간선은 아래쪽 가장자리보다 상자의 위쪽 가장자리에 다소 더 가깝기 때문에 중간 절반의 위쪽 부분에 값이 집중되어 있음을 나타냅니다. 위 수염은 아래 수염보다 약간 길다. 이러한 결론은 그림의 줄기 및 잎 표시와 일치합니다.

    골격 상자 그림을 구성하는 데 사용되는 일련의 단계는 이상값에 대한 정보를 제공하도록 쉽게 수정됩니다.

    정의

    관측치가 가장 가까운 사분위수(상자의 가장 가까운 끝)에서 1.5(iqr) 이상 떨어져 있으면 이상치입니다.

    상자의 가장 가까운 끝에서 3(iqr) 이상 떨어져 있으면 이상값이 극단값이고 그 외에는 온화함입니다.

    수정된 상자 그림은 음영 처리된 원으로 약한 이상값을 나타내고 열린 원으로 극단적인 이상값을 나타내며 수염은 각 끝에서 이상값이 아닌 가장 극단적인 관찰까지 확장됩니다.

    수정된 상자 그림의 구성

    1. 가로(또는 세로) 측정 눈금을 그립니다.

    2. 왼쪽(또는 아래쪽) 가장자리가 하위 사분위수에 있고 오른쪽(또는 위쪽) 가장자리가 상위 사분위수에 있는 직사각형 상자를 구성합니다. 그러면 상자 너비가 iqr과 같습니다.

    3. 중앙값 위치의 상자 안에 수직(또는 수평) 선분을 그립니다.

    4. 데이터 세트에 약하거나 극단적인 이상값이 있는지 확인합니다.

    5. 상자의 각 끝에서 이상값이 아닌 가장 극단적인 관찰까지 연장되는 수염을 그립니다.

    6. 데이터 세트에서 가벼운 이상값의 위치를 표시하는 실선 원을 그립니다.

    7. 열린 원을 그려 데이터 세트에서 극단적인 이상값의 위치를 표시합니다.

    황금 사각형

    첨부된 데이터는 직사각형 모양에 대한 인류학적 연구에서 나온 것입니다(Lowie’s Selected Papers in Anthropology, Cora Dubios, ed. [Berkeley, CA: University of California Press, 1960]: 137142). n 샘플에 대한 변수 x = 너비/길이에 대한 관찰이 이루어졌습니다! 쇼쇼니 인디언에 사용된 20개의 구슬 직사각형

    가죽 수공예품:

    .553 .570 .576 .601 .606 .606 .609 .611 .615 .628

    .654 .662 .668 .670 .672 .690 .693 .749 .844 .933

    수정된 상자 그림을 구성하는 데 필요한 수량은 다음과 같습니다.

    중앙값 = .641 iqr = .681 - .606 = .075

    하위 사분위수 = .606 1.5(iqr) = .1125

    상위 사분위수 = .681 3(iqr) = .225

    따라서,

    (상위 사분위수) = 1.5(iqr) = .681 + .1125 = .7935

    (하위 사분위수) = 1.5(iqr) = .606 - .1125 = .4935

    따라서 0.8440.933은 둘 다 상단에 있는 이상치(0.7935보다 크기 때문에)이고 하단에 이상치가 없습니다(0.4935보다 작은 관측치가 없기 때문에). 왜냐하면

    (상위 사분위수) + 3(iqr) = 0.681 + 0.225 = 0.906

    0.933은 극단적인 이상값이고 0.844는 약한 이상값입니다. 위쪽 수염은 이상값이 아닌 가장 큰 관측값인 0.749까지 확장되고 아래쪽 수염은 0.553까지 확장됩니다. boxplot은 그림에 나와 있습니다. 중앙선은 상자의 중앙에 있지 않으므로 데이터의 중간 절반에 약간의 비대칭이 있습니다.

    그러나 가장 눈에 띄는 특징은 두 개의 아웃라이어가 존재한다는 것입니다. 이 두 x 값은 고대부터 직사각형의 미적 기준으로 사용된 "황금 비율" 0.618을 상당히 초과합니다.

    반응형

    '통계학' 카테고리의 다른 글

    선형 회귀: 이변량 데이터에 선 맞추기  (0) 2023.04.21
    상관관계  (0) 2023.04.20
    데이터 세트의 가변성 설명  (0) 2023.04.17
    데이터 세트의 중심 설명  (0) 2023.04.14
    현자에게 전하는 말: 주의 및 제한  (0) 2023.04.13