
통계적 머신러닝 : 결과가 알려진 데이터를 훈련한 뒤 새로운 데이터에 대한 결과를 예측하는 방법. 전체적인 구조에 기반한 전통적 통계방법과 달리 데이터를 기준으로 하는 것이 특징
| 앙상블 학습 | 의사 결정 트리 |
| 가장 널리 사용되는 방법 중 하나 최종 예측 결과를 위한 다수의 모델을 사용 |
가장 널리 사용되는 방법 중 하나 예측변수와 결과변수 사이의 관계 규칙을 학습하는 방향으로 진행 |




K-최근접 이웃 : 회귀 방식과 다르게 모델 피팅하는 과정이 없으며 간단한 예측/분류 방법 중 하나. K를 어떻게 설정하느냐에 따라 예측 결과는 상이할 수 있으며 예측 변수는 수치형이어야 함
| 이웃 | 거리 지표 | 표준화 | z 점수 | k |
| 예측 변수에서 값이 유사한 레코드 | 각 레코드 사이의 떨어진 정도를 나타내는 값 | 평균을 뺀 후 표준편차로 나눈것 | 표준화를 통해 얻은 결과값 | 최근접 이웃을 계산하는데 사용한 이웃의 개수 |
# 대출상환 예측
# paryment_inc_ratio 소득에 대한 대출 상환 비용 변수, dit 소득에 대한 부채 비율
# k =20, 소득에 대한 부채 비율 dit를 22.5인 대출에 대해 knn 으로 상환 여부를 반환하기
newloan <- loan200[1, 2:3, drop = FALSE]
knn_pred <- knn(train=loan200[-1, 2:3], test=newloan, cl=loan200[-1,1], k=20)
knn_pred == 'paid off'
# 결과 TRUE -> 대출이 상환될 것으로 예측 가능'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글
| 6-3. 통계적 머신러닝 (0) | 2025.05.26 |
|---|---|
| 6-2. 통계적 머신러닝 (0) | 2025.05.19 |
| 5-2. 분류 (0) | 2025.05.05 |
| 4-5~5-1. 회귀와 예측, 분류 (0) | 2025.04.28 |
| 4-3. 회귀와 예측 (0) | 2025.04.21 |