KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

01-2.탐색적 분석

Harryㅤ 2025. 3. 17.

 

5. 데이터의 분포 탐색 방법 : 시각화로 나타내며 상자그림, 도수분포표, 히스토그램, 밀도 그림과 같이 표현함

상자그림 : 상자 모양의 형태로 상자의 꼬리부분과 헤드부분의 길이에 따라 데이터의 분포 거리를 시각화
도수분포표 : 각 구간 내 해당하는 데이터 값들의 빈도를 나타내는 시각화
히스토그램 : x,y축을 중심으로 빈도수를 나타내는 시각화
밀도 그림 : 히스토그램 시각화를 곡선으로 나타낸 그림


6. 이진 데이터와 범주 데이터 탐색 방법 : 최빈값, 기댓값, 막대도표와 파이그림을 중심으로 진행

최빈값 : 데이터들 사이에서 가장 많이 등장하는 범주 또는 값
기댓값 : 범주 내 어떤 수치 데이터가 있을 때 그 범주에 출현 확률에 따른 평균 값
막대도표 : 각 범주의 빈도수나 비율을 막대로 시각화
파이그림 : 각 범주의 빈도수나 비율을 부채꼴 모양의 원형 시각화 


7. 상관관계 : 양의 상관관계와 음의 상관관계가 있음

상관계수 : 변수 사이에 어떤 관계가 있는지 나타내는 계수, 양과 음으로 구분
상관행렬 : 행렬이 변수를 의미하는 표이며 표 내 개별 셀은 변수간 상관관계를 나타냄
산점도 : 값의 흩어진 정도를 점으로 시각화, x,y축의 다른 두 변수를 나타낼 수 있는 도표


8. 두 개 이상의 변수를 탐색하는 방법 : 다변량 분석 방법 사용

분할표 : 두 가지 이상의 범주형 변수의 빈도수 시각화
육각형 구간 : 두 변수를 육각 모양의 구간으로 시각화
등고 도표 : 두 변수의 밀도를 등고선 모양으로 시각화
바이올린 그림 : 상자그림과 비슷하지만 밀도추정까지 함께 시각화