-
반응형
이변량 숫자 데이터 표시
이변량 데이터 세트는 두 변수 x와 y에 대한 측정값 또는 관측값으로 구성됩니다. 예를 들어, x는 고속도로로부터의 거리이고 y는 해당 거리에 있는 토양의 납 함량일 수 있습니다. x와 y가 모두 숫자 변수인 경우 각 관측값은 (14, 5.2) 또는 (27.63, 18.9)와 같은 한 쌍의 숫자로 구성됩니다. 쌍의 첫 번째 숫자는 x 값이고 두 번째 숫자는 y 값입니다.
조직화되지 않은 이변량 데이터 목록은 x 값 또는 y 값의 개별 분포에 대한 정보를 거의 제공하지 않으며 두 변수가 서로 어떻게 관련되어 있는지에 대한 정보도 훨씬 적게 생성합니다. 그래픽 디스플레이를 사용하여 단변량 데이터를 요약할 수 있는 것처럼 이변량 데이터에도 도움이 될 수 있습니다. 이변량 수치 데이터를 기반으로 하는 가장 중요한 그래프는 산점도입니다.
산점도에서 각 관찰(숫자 쌍)은 그림과 같이 직각 좌표계의 한 점으로 표시됩니다. 가로 축은 x 값으로 식별되며 모든 x 값을 쉽게 찾을 수 있도록 크기가 조정됩니다. 마찬가지로 세로 또는 y 축은 y 값을 쉽게 찾을 수 있도록 표시됩니다. 특정 (x, y) 쌍에 해당하는 점은 x축 값의 수직선이 y축 값의 수평선과 만나는 곳에 배치됩니다. 그림은 관찰을 나타내는 지점을 보여줍니다. 가로축으로 4.5 이상이고 세로축으로 15 오른쪽에 있습니다.
올림픽 피겨 스케이팅
● 피겨 스케이팅 대회에서 높은 예술적 점수를 얻는 데 장신 스케이터가 유리합니까? x의 데이터 = 높이(cm) 및 y = 2006년 동계 올림픽 남녀 싱글 스케이터의 프리 스케이트 예술 점수는 첨부된 표에 나와 있습니다. (데이터 세트 제공: John Walker.)
그림은 데이터의 산점도를 제공합니다. 데이터와 산점도를 보면 1이라는 것을 알 수 있습니다. x 값은 같지만 y 값이 다른 여러 관측값(예: Stephane Lambiel과 Min Zhang 모두 x = 176cm이지만 Lambiel의 예술적 점수는 38.1400이고 Zhang의 예술적 점수는 31.8600입니다. ). 따라서 y의 값은 x의 값에 의해서만 결정되는 것이 아니라 다양한 다른 요인에 의해서도 결정됩니다. 2. 주어진 높이에서 예술적 점수에는 상당한 변동성이 있습니다. 예를 들어 키가 160cm인 스케이터의 예술적 점수는 최저 약 24.5에서 최고 약 39까지 다양했습니다.
3. 키가 커질수록 예술성 점수가 눈에 띄게 높아지는 경향은 없다.
키와 예술적 점수 사이에는 강한 관계가 없는 것으로 보입니다.
산점도를 구성하는 데 사용된 데이터 세트에는 남녀 스케이터 모두에 대한 데이터가 포함되었습니다. 그림은 파란색으로 표시된 남자 스케이터에 대한 관찰과 주황색으로 표시된 여자 스케이터에 대한 관찰과 함께 (신장, 예술적 점수) 쌍의 산점도를 보여줍니다. 놀랄 것도 없이, 여자 스케이터들은 스케이터들보다 키가 작은 경향이 있습니다.
남성 스케이터(여성에 대한 관측치는 산점도의 왼쪽에 집중되는 경향이 있음). 이 플롯을 주의 깊게 살펴보면 결합된(남성과 여성) 데이터 세트에 명백한 패턴이 없지만 여성 스케이터의 키와 예술적 점수 사이에 관계가 있을 수 있음을 알 수 있습니다.
그림은 남성과 여성에 대한 별도의 산점도를 보여줍니다.
스케이트 선수들. 여성 스케이터의 경우 더 높은 예술 점수가 더 작은 키 값과 관련이 있는 것처럼 보이지만 남성의 경우 키와 예술 점수 사이에 관계가 없는 것으로 보인다는 점이 흥미롭습니다. 여성의 키와 예술적 점수 사이의 관계는 결합된 데이터의 산점도에서 분명하지 않습니다.
그림의 산점도에서 가로축과 세로축은 점 (0, 0)에서 교차하지 않습니다. 많은 데이터 세트에서 x, y 또는 두 변수의 값은 데이터 세트의 값 범위에 비해 0과 상당히 다릅니다. 예를 들어, 에어컨 효율이 일일 최대 실외 온도와 어떻게 관련되는지에 대한 연구에는 80%, 82%, . . . , 98%, 100%. 이러한 경우 축이 (0, 0) 이외의 지점에서 교차하고 그에 따라 표시되는 경우 플롯이 더 많은 정보를 제공합니다. 이것은 예에 설명되어 있습니다.
그 "어려운"수업을 수강하면 보상을받습니다.
● “2005 College Bound Seniors”(College Board, 2005)라는 제목의 보고서에는 6개의 핵심 학과목( 미술과 음악, 영어, 외국어, 수학,
자연 과학, 사회 과학 및 역사). x=공부한 총 연수 및 y=평균 언어 SAT 점수의 두 산점도를 그림 및 보여줍니다.
산점도는 통계 컴퓨터 패키지 MINITAB에서 생성했습니다. 그림에서 MINITAB이 두 축의 배율을 선택하도록 했습니다. 축이 점 (0, 0)에서 교차하도록 지정하여 그림을 얻었습니다. 두 번째 플롯은 공간을 효과적으로 사용하지 않습니다. 그것은 첫 번째 플롯보다 더 혼잡하며 그러한 혼잡은 모든 관계의 일반적인 특성을 보는 것을 더 어렵게 만들 수 있습니다. 예를 들어, 복잡한 플롯에서 곡률을 발견하기가 더 어려울 수 있습니다.
평균 구두 SAT 점수에 대한 산점도는 상당히 강한 곡선 패턴을 나타내며 평균 구두 SAT 점수와 6개의 핵심 학과목에서 공부한 총 연수 사이에 강한 관계가 있음을 나타냅니다. 플롯의 패턴이 선형이 아닌 곡선형이지만 학습 연수가 증가함에 따라 평균 구두 SAT 점수가 증가하는 것을 쉽게 알 수 있습니다. 수치
주황색 점으로 표시된 평균 언어 SAT 점수와 파란색 사각형으로 표시된 평균 수학 SAT 점수가 있는 산점도를 보여줍니다. 이 플롯에서 우리는 평균 수학 SAT 점수가 총 학습 연수의 모든 값에서 평균 구두 점수보다 높은 경향이 있지만 일반적인 곡선 형태는
관계의 내용은 비슷합니다.
■ 시계열 도표.
데이터 세트는 시간 경과에 따른 변화에 대해 배울 수 있도록 일정한 간격으로 시간 경과에 따라 수집된 측정값으로 구성되는 경우가 많습니다. 예를 들어, 주가, 판매 수치 및 기타 사회 경제적 지표는 주 단위 또는 월 단위로 기록될 수 있습니다.
시계열 도표(때때로 시간 도표라고도 함)는 관심을 가질 수 있는 경향이나 패턴을 식별하는 데 매우 유용할 수 있는 시간 경과에 따라 수집된 데이터의 간단한 그래프입니다.
시계열 도표는 데이터 세트를 이변량 데이터 세트로 생각하여 구성할 수 있습니다. 여기서 y는 관찰된 변수이고 x는 관찰이 이루어진 시간입니다. 이러한 (x, y) 쌍은 산점도에서와 같이 표시됩니다. 그런 다음 연속 관찰은 선분으로 연결됩니다. 이것은 시간이 지남에 따라 추세를 파악하는 데 도움이 됩니다.
반응형'통계학' 카테고리의 다른 글
데이터 세트의 중심 설명 (0) 2023.04.14 현자에게 전하는 말: 주의 및 제한 (0) 2023.04.13 수치 데이터 표시: 빈도 분포 및 히스토그램 (0) 2023.04.08 수치 데이터 표시: 줄기 및 잎 표시 (0) 2023.04.06 범주형 데이터 표시: 비교 막대 차트 및 파이 차트 (0) 2023.04.05