KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

4-3. 회귀와 예측

Harryㅤ 2025. 4. 21.

 
회귀를 통한 예측 방법 종류 : 예측구간(신뢰구간과 예측구간), 외삽법(외삽의 위험)

신뢰구간예측구간
여러 값에서 계산된 평균 등 다른 통계량 값을 의미
회귀계수 주변의 불확실성을 정량화
주어진 예측값에 신뢰구간을 사용할 경우 불확실성이 지나치게 낮아질 수 있으며 항상 옳은 것은 아님. 특정 개별 예측인 경우, 케이스에 따라 신뢰구간보다 예측구간을 사용하는게 더 나은 경우도 존재
개별 예측값 주위에 있는 불확실한 전 구간을 의미
개별 예측값의 불확실성을 정량화
같은 값에 대해 신뢰구간보다 구간이 훨씬 넓음

외삽법 : 외삽이란 회귀모델링의 데이터 범위를 벗어난 부분까지 확장하는 것으로, 정확한 회귀모형은 데이터 범위를 초과해서까지 사용하면 안됨. 예측의 신뢰성이 떨어진다.
 
회귀의 요인변수 : 가변수, 기준 부호화, 원핫인코딩, 편차부호화

가변수 기준 부호화원핫인코딩편차 부호화
요인 데이터를 사용하기 위해 0,1의 이진변수로 부호화 처리한 변수한 요인을 기준으로 하여 다른 요인이 이 기준에 따라 비교할 수 있게 하는 방법머신러닝에서 많이 사용하는 부호화 방법, 모든 요인 수준을 게속 유지한다. 다중선형회귀에 기준 수준과 반대로 전체 평균에 대한 각 수준을 비교하는 부호화 방법

 
회귀 해설 : 표준화잔차, 특이값, 영향값, 이분산성, 레버리지

표준화잔차특이값영향값이분산성레버리지
잔차를 표준오차로 나눈 값대부분의 데이터와 다르게 다른 곳에 위치하는 값(아웃라이어)해당 값의 유무에 따라 회귀방정식에 큰 차이를 보여주게 하는 값어떤 범위 내 출력값의 잔차가 매우 높은 분산을 보이는 경향. 출력된 회귀식에서 특정 예측변수에 대해서 놓치고 있음을 판단할 수 있는 기준이 되는 값회귀선의 회귀식에서 해당 값이 미치는 영향력의 정도를 의미

 

# R 내장 데이터 주택 가격에 대한 가구유형 요인변수 출력
head(house[, 'PropertyType'])

[1] "Multiplex"     "Single Family" "Single Family" "Single Family" "Single Family" "Townhouse"  

# 요인변수의 이진변수화(0,1).R에서는 model.matrix 사용
# model.matrix는 데이터 프레임 객체를 선형모형의 적합한 행렬로 만들며 이것을 원-핫 인코딩 방식이라 함
prop_type_dummies <- model.matrix(~PropertyType -1, data=house)
head(prop_type_dummies)

  PropertyTypeMultiplex PropertyTypeSingle Family PropertyTypeTownhouse
1                     1                         0                     0
2                     0                         1                     0
3                     0                         1                     0
4                     0                         1                     0
5                     0                         1                     0
6                     0                         0                     1



lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms +
     Bedrooms +  BldgGrade + PropertyType, data=house)


Call:
lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms + 
    Bedrooms + BldgGrade + PropertyType, data = house)

Coefficients:
              (Intercept)              SqFtTotLiving                    SqFtLot  
               -4.468e+05                  2.234e+02                 -7.037e-02  
                Bathrooms                   Bedrooms                  BldgGrade  
               -1.598e+04                 -5.089e+04                  1.094e+05  
PropertyTypeSingle Family      PropertyTypeTownhouse  
               -8.468e+04                 -1.151e+05

 

'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글

5-2. 분류  (0) 2025.05.05
4-5~5-1. 회귀와 예측, 분류  (0) 2025.04.28
04-1. 회귀와 예측  (0) 2025.04.07
03. 유의성 검정과 귀무/대립가설 증명  (0) 2025.03.31
01-2.탐색적 분석  (0) 2025.03.17