KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

6-2. 통계적 머신러닝

Harryㅤ 2025. 5. 19.

 
거리지표 : 두 사이의 점이 떨어진 정도를 측정하는 방법이며 그 거리를 나타내기 위한 방법

유클리드 거리 방법맨해튼 거리 방법
두 지점 사이의 차이에 대한 제곱합한 값의 제곱근. 두 점 사이의 직선거리
데이터 개수가 많아질수록 계산량이 더 중요한데 쌍대 비교가 필요(pairwise)하기 때문
두 지점 사이에 대한 직선 혹은 대각선 거리가 아닌 점과 점 사이의 이동시간으로 근접성을 따질때 한 축 방향으로 움직일 수 있다 가정할때의 두 점 사이의 거리(유클리드 방식과 다르게 근접성을 따질때 더 용이)

* 그외 마할라노비스 거리 : 두 변수 간 상관관계를 사용한 거리 측정 방식으로 상관관계가 높을때 사용에 유리

원-핫 인코더 : 데이터를 이진변수로 바꾸는 방법. 원핫인코더 방식에서는 하나의 비트만 양수고 나머지는 0인 설정값을 의미
표준화 : 전체 변수에서 평균을 빼고 표준편차로 나눈 뒤에 모든 변수를 비슷한 스케일에 올려놓는 과정. 이 과정에서 도출된 결과를 Z 값이라고 함. z 점수가 평균으로부터 표준편차만큼 얼마나 떨어져있는지를 나타내는 점수적 척도가 됨

# 대출 예시를 통한 표준화 방법 적용
newloan

# revol_bal 값이 1687로 제일 큰 값을 가짐
loan_df <- model.matrix(~ -1+payment_inc_ratio+dit+revol_bal+revol_util, data = loan_data)
newloan <- loan_df[1, , drop=FALSE]
loan_df <- loan_df[-1,]
outcome <- loan_df[-1, 1]
knn_pred <- knn(train=loan_df, test+newloan, cl=outcome, k=5)
loan_df[attr(knn_pred, "nn.index"),]
# knn 함수를 이용한 새 데이터에서 가까운 인덱스를 구하기(loan_df 기준에서 가까운 상위 5개 값 출력

'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글

6-5. 통계적 머신러닝  (0) 2025.06.09
6-3. 통계적 머신러닝  (0) 2025.05.26
6-1. 통계적 머신러닝  (0) 2025.05.12
5-2. 분류  (0) 2025.05.05
4-5~5-1. 회귀와 예측, 분류  (0) 2025.04.28