
회귀를 통한 예측 방법 종류 : 예측구간(신뢰구간과 예측구간), 외삽법(외삽의 위험)
신뢰구간 | 예측구간 |
여러 값에서 계산된 평균 등 다른 통계량 값을 의미 회귀계수 주변의 불확실성을 정량화 주어진 예측값에 신뢰구간을 사용할 경우 불확실성이 지나치게 낮아질 수 있으며 항상 옳은 것은 아님. 특정 개별 예측인 경우, 케이스에 따라 신뢰구간보다 예측구간을 사용하는게 더 나은 경우도 존재 | 개별 예측값 주위에 있는 불확실한 전 구간을 의미 개별 예측값의 불확실성을 정량화 같은 값에 대해 신뢰구간보다 구간이 훨씬 넓음 |
외삽법 : 외삽이란 회귀모델링의 데이터 범위를 벗어난 부분까지 확장하는 것으로, 정확한 회귀모형은 데이터 범위를 초과해서까지 사용하면 안됨. 예측의 신뢰성이 떨어진다.
회귀의 요인변수 : 가변수, 기준 부호화, 원핫인코딩, 편차부호화
가변수 | 기준 부호화 | 원핫인코딩 | 편차 부호화 |
요인 데이터를 사용하기 위해 0,1의 이진변수로 부호화 처리한 변수 | 한 요인을 기준으로 하여 다른 요인이 이 기준에 따라 비교할 수 있게 하는 방법 | 머신러닝에서 많이 사용하는 부호화 방법, 모든 요인 수준을 게속 유지한다. 다중선형회귀에 | 기준 수준과 반대로 전체 평균에 대한 각 수준을 비교하는 부호화 방법 |
회귀 해설 : 표준화잔차, 특이값, 영향값, 이분산성, 레버리지
표준화잔차 | 특이값 | 영향값 | 이분산성 | 레버리지 |
잔차를 표준오차로 나눈 값 | 대부분의 데이터와 다르게 다른 곳에 위치하는 값(아웃라이어) | 해당 값의 유무에 따라 회귀방정식에 큰 차이를 보여주게 하는 값 | 어떤 범위 내 출력값의 잔차가 매우 높은 분산을 보이는 경향. 출력된 회귀식에서 특정 예측변수에 대해서 놓치고 있음을 판단할 수 있는 기준이 되는 값 | 회귀선의 회귀식에서 해당 값이 미치는 영향력의 정도를 의미 |
# R 내장 데이터 주택 가격에 대한 가구유형 요인변수 출력
head(house[, 'PropertyType'])
[1] "Multiplex" "Single Family" "Single Family" "Single Family" "Single Family" "Townhouse"
# 요인변수의 이진변수화(0,1).R에서는 model.matrix 사용
# model.matrix는 데이터 프레임 객체를 선형모형의 적합한 행렬로 만들며 이것을 원-핫 인코딩 방식이라 함
prop_type_dummies <- model.matrix(~PropertyType -1, data=house)
head(prop_type_dummies)
PropertyTypeMultiplex PropertyTypeSingle Family PropertyTypeTownhouse
1 1 0 0
2 0 1 0
3 0 1 0
4 0 1 0
5 0 1 0
6 0 0 1
lm(AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms +
Bedrooms + BldgGrade + PropertyType, data=house)
Call:
lm(formula = AdjSalePrice ~ SqFtTotLiving + SqFtLot + Bathrooms +
Bedrooms + BldgGrade + PropertyType, data = house)
Coefficients:
(Intercept) SqFtTotLiving SqFtLot
-4.468e+05 2.234e+02 -7.037e-02
Bathrooms Bedrooms BldgGrade
-1.598e+04 -5.089e+04 1.094e+05
PropertyTypeSingle Family PropertyTypeTownhouse
-8.468e+04 -1.151e+05
'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글
5-2. 분류 (0) | 2025.05.05 |
---|---|
4-5~5-1. 회귀와 예측, 분류 (0) | 2025.04.28 |
04-1. 회귀와 예측 (0) | 2025.04.07 |
03. 유의성 검정과 귀무/대립가설 증명 (0) | 2025.03.31 |
01-2.탐색적 분석 (0) | 2025.03.17 |