KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

01-1. 탐색적 분석

Harryㅤ 2025. 3. 16.

 

 

1. 정형화된 데이터의 필요성 : 원하는 결과와 실제적인 분석을 위해선 광범위하고 무분별한 데이터가 아니라 이런 데이터 속에서 정형화 된 요소로 정제할 필요가 있음

오늘날 데이터를 얻는 곳
센서 측정 값으로 부터 얻은 데이터
각종 이벤트 발생시 이로 얻은 데이터
텍스트 데이터
이미지 데이터
사운드 데이터
비디오 데이터 등

 => 데이터 과학에서 가장 중요한 선결 과제는 가공전의 데이터를 활용 가능한 데이터로 변환하는 것

 

2. 데이터의 기본적인 종류

수치형 데이터 범주형 데이터
연속형 데이터와 이산 데이터로 나뉘며 전자는 연속성(시간 및 수치) 후자의 경우 비연속성의 특징을 가짐(사건 발생 빈도) 범주형 데이터와 이진 데이터로 나뉘며 범주형은 특정 범주안에 관련된 데이터가 있는 모음(도시데이터 : 서울 부산 대전 등, 카페 사이즈 옵션 : 톨 그란데 벤티 트렌타 등)
이진 데이터는 두 가지 값을 가지는 특수한 범주의 경우(예, 아니오 / 연장, 비연장)

 

3. 데이터의 위치 추정 : 주어진 데이터를 살펴보고 대표값을 구하는 것은 그 집단의 중심을 기준으로 각 데이터 값이 어디에 위치하는지 추정할 수 있으므로 중요함

평균 : 모든 값의 총합을 값의 개수로 나눈 값이며 평균의 함정은 데이터의 대표성을 예측하는데 좋지 않은 방법
가중평균 : 가중치를 곱한 값의 총합을 가중치 총합으로 나눈 값
중간값 : 데이터에서 가장 가운데에 위치한 값이며 평균보다는 median으로 처리하는 것이 바람직
백분위수 : 전체 데이터의 퍼센테이니를 아래에 두는 값 = 분위수라고도 함
가중 중간값 : 데이터 정렬 후 각 가중치값을 위에서부터 더하여 총합의 중간이 위치하는 데이터 값
절사평균 : 극단값을 제외한 나머지 값의 평균
특이값 : 아웃라이어, 시각화시 다른 값들과 비교해 다른 곳에 위치한 소수의 값

4. 데이터의 변이 추정 : 변이란 데이터 값의 밀집 정도와 퍼진 산포정도를 의미(=산포도)

편차 : 관측값과 위치 추정값의 사이 거리
분산 : 평균과의 편차를 제곱한 값을 전체 데이터 개수 n-1로 나눈 값
표준편차 : 분산 제곱근
평균절대편차 : 평균과의 편차의 절대값에서의 평균
중간값 중위절대편차 : 중간값과이 편차의 절대값의 중간값
범위 : 최댓값과 최소값 차이
순서통계량 : 최소에서 최대까지 정렬된 데이터 값의 순위
백분위수 : 어떤 값의 n 퍼센트가 이 값보다 더 작은 값을 갖고, 100-n 퍼셑트가 이 값보다 더 큰 값을 갖도록 하는 값
사분위 : 75번째 백분위수와 25번째 백준위수 사이의 차이