KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

12. 표본 추출 - 단순 임의, 가중치 표본, 층화 임의 추출

Harryㅤ 2024. 6. 17.

 

표본 추출 : 오늘날 기하급수적으로 증가하는 모든 데이터에 대해서 검정이나 검사과정을 거치는 것보단 특정 조건별로 나누어 전체 데이터인 모집단과 모집단의 일부인 표본을 활용해서 데이터를 분석하는 것을 말한다.(표본 : 훈련 데이터 80+테스트 데이터 20)

과적합 : 표본을 구성하는 데이터 중 훈련용과 테스트용을 구분한다. 주요 모델링은 훈련 데이터를 활용하고 성능은 테스트 데이터로 검증한다. 만일 이와 같은 분리과정을 시행하지 않을 경우 불순한 데이터가 포함될 수 있으며 이로 인해 이를 반영한 모델이 생성될 수 있다. 이것을 과적합이라고 하며 예측력 저하를 불러일으킨다.