1. 정형화된 데이터의 필요성 : 원하는 결과와 실제적인 분석을 위해선 광범위하고 무분별한 데이터가 아니라 이런 데이터 속에서 정형화 된 요소로 정제할 필요가 있음
오늘날 데이터를 얻는 곳 |
센서 측정 값으로 부터 얻은 데이터 각종 이벤트 발생시 이로 얻은 데이터 텍스트 데이터 이미지 데이터 사운드 데이터 비디오 데이터 등 |
=> 데이터 과학에서 가장 중요한 선결 과제는 가공전의 데이터를 활용 가능한 데이터로 변환하는 것
2. 데이터의 기본적인 종류
수치형 데이터 | 범주형 데이터 |
연속형 데이터와 이산 데이터로 나뉘며 전자는 연속성(시간 및 수치) 후자의 경우 비연속성의 특징을 가짐(사건 발생 빈도) | 범주형 데이터와 이진 데이터로 나뉘며 범주형은 특정 범주안에 관련된 데이터가 있는 모음(도시데이터 : 서울 부산 대전 등, 카페 사이즈 옵션 : 톨 그란데 벤티 트렌타 등) 이진 데이터는 두 가지 값을 가지는 특수한 범주의 경우(예, 아니오 / 연장, 비연장) |
3. 데이터의 위치 추정 : 주어진 데이터를 살펴보고 대표값을 구하는 것은 그 집단의 중심을 기준으로 각 데이터 값이 어디에 위치하는지 추정할 수 있으므로 중요함
평균 : 모든 값의 총합을 값의 개수로 나눈 값이며 평균의 함정은 데이터의 대표성을 예측하는데 좋지 않은 방법
가중평균 : 가중치를 곱한 값의 총합을 가중치 총합으로 나눈 값
중간값 : 데이터에서 가장 가운데에 위치한 값이며 평균보다는 median으로 처리하는 것이 바람직
백분위수 : 전체 데이터의 퍼센테이니를 아래에 두는 값 = 분위수라고도 함
가중 중간값 : 데이터 정렬 후 각 가중치값을 위에서부터 더하여 총합의 중간이 위치하는 데이터 값
절사평균 : 극단값을 제외한 나머지 값의 평균
특이값 : 아웃라이어, 시각화시 다른 값들과 비교해 다른 곳에 위치한 소수의 값
4. 데이터의 변이 추정 : 변이란 데이터 값의 밀집 정도와 퍼진 산포정도를 의미(=산포도)
편차 : 관측값과 위치 추정값의 사이 거리
분산 : 평균과의 편차를 제곱한 값을 전체 데이터 개수 n-1로 나눈 값
표준편차 : 분산 제곱근
평균절대편차 : 평균과의 편차의 절대값에서의 평균
중간값 중위절대편차 : 중간값과이 편차의 절대값의 중간값
범위 : 최댓값과 최소값 차이
순서통계량 : 최소에서 최대까지 정렬된 데이터 값의 순위
백분위수 : 어떤 값의 n 퍼센트가 이 값보다 더 작은 값을 갖고, 100-n 퍼셑트가 이 값보다 더 큰 값을 갖도록 하는 값
사분위 : 75번째 백분위수와 25번째 백준위수 사이의 차이
'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글
03. 유의성 검정과 귀무/대립가설 증명 (0) | 2025.03.31 |
---|---|
01-2.탐색적 분석 (0) | 2025.03.17 |
8-3. 그 외 AWS 서비스 3 (0) | 2024.11.25 |
8-2. 그 외 AWS 서비스 2 (0) | 2024.11.18 |
7-1. 데이터베이스 서비스 RDS (0) | 2024.10.28 |