KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

4-5~5-1. 회귀와 예측, 분류

Harryㅤ 2025. 4. 28.

 

다항회귀와 스플라인 회귀 : 응답변수와 예측변수의 상관관계가 직선이 아닌 경우, 곡선과 같은 비선형일 경우 회귀모형을 확장하기 위해 여러 가지 방법을 사용

다항회귀 스플라인 회귀 매듭 일반화모형기법
기존 회귀모형에 다항식 추가(제곱, 세제곱) 다항 구간 곡선을 곡선 형태로 피팅 스플라인 구간 구분하는 값을 의미 자동으로 구간을 결정하는 스플라인 모델

- 비선형회귀모형은 수치 죄적화가 필수.
- 비선형 모델의 경우 예측 변수의 선형 결합, 일부 변환만으로 응답변수를 표현할 수 없는 모든 모델을 의미함

 

분류 : 지도 학습의 형태 중 하나.

지도학습에서 사용된 데이터에는 정답과 오답 데이터가 있으며 데이터를 스스로 학습하는데 크게 분류(이진분류, 다중분류)와 회귀 방법이 존재한다. * 지도학습은  정답 데이터가 있는 데이터셋으로 학습을 진행

분류 회귀
이진분류와 다중분류로 나뉨

1. 이진분류(Binary Classificatioon) : 암 판별 문제, 스팸 판별 문제 등 - 결과의 이진 도출 케이스에 사용

2. 다중분류(Multiclass Classification) : 이진 판별이 아닌 다양한 종이나 결과를 판별해야 하는 케이스에 사용
연속적인 값을 예측하는 케이스에 사용
주식예측, 성적 예측, 합격률 예측, 집값 예측 등
분류에 비해 더 많고 다양한 값을 예측하는데 사용

- 피싱메일을 판별하는 경우 피싱인지 아닌지(0 / 1), 메일의 종류가 어떤 종류의 메일인지 필터링(프로모션, 홍보, 소셜, 스팸 등) 하는 예가 여기에 해당
- 일부 분류의 경우 이진 형태의 두가지가 아닌 그 이상의 개수인 결과를 가질 경우 조건부확률을 통해 다수의 이진문제로 변환하거나 등의 방법으로 분류문제를 해결
- 이진 분류가 아닌 다수 분류일 경우 대부분은 해당 관심 클래스에 해당하는 확률점수로 분류를 처리(R에서는 로그 오즈 척도에 기반하며 파이썬의 경우 사이킷런에서 predict(클래스 반환)와 predcit_proba(각 클래스에 대한 해당 확률 반환) 두가지 예측 메소드를 제공)를 제공하며 컷오프 후 점수를 통해 결정을 내린다(분류)

'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글

5-2. 분류  (0) 2025.05.05
4-3. 회귀와 예측  (0) 2025.04.21
04-1. 회귀와 예측  (0) 2025.04.07
03. 유의성 검정과 귀무/대립가설 증명  (0) 2025.03.31
01-2.탐색적 분석  (0) 2025.03.17