KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

전체 글 127

데이터 석사 준비 목록(2022.04 - 2025.04)

1. 학습 관련- https://www.edx.org/- https://www.coursera.org/edX | Online Courses, Certificates & Degrees from Leading InstitutionsFind the online learning path for you, delivered by world-class institutions like Harvard, Google, Amazon, and more.www.edx.org Coursera | Courses, Professional Certificates, and Degrees OnlineLearn in-demand skills with online courses and Professional Certificates from ..

7-1. 비지도 학습

비지도 학습 : 모델 학습 과정을 통해 데이터로부터 의미 추출하는 것이 아닌 학습 기법. 모델 학습 과정이 없으므로 결과변수와 예측변수 사이의 별다른 구분이 없음군집화 : 비지도 학습 기법 중 하나로 유사성이 높은 데이터들끼리의 클러스터(군집)를 만들어 구분. 특징추출 : 군집분류기나 분류기를 사용하기 이전의 데이터에서 불필요한 정보를 제거하거나 효율성 제고를 위해 원래 데이터 x를 변환해 새로운 특징벡터인 y를 만드는 것변환함수 : 특징추출 과정에서 사용하는 함수로서 x -> y 과정에서 선형/비선형변환 방식으로 나뉨선형변환비선형변환열벡터 x에 변환행렬을 곱해서 m 차원인 특징을 획득. 이 과정에서 도출된 특징벡터인 y가 원하는 분포가 되도록 하는 w를 찾는 변환 방법비선형함수 이용 하여 n 차원 벡터..

6-6. 통계적 머신러닝

# 오버피팅(과적합)정규화seed 0.5xgb_default$evaluation_log[250,]mean(error_default)xgb_penalty 0.5xgb_penalty$evaluation_log[250,]mean(error_penalty)# R에서 제공하는 predict 함수를 통해 파라미터 설정error_default 0.5) pred_penalty 0.5)}# 오차율 시각화errors 부스팅 : 모델을 앙상블 형태로 만드는 기법이며 이전 모델의 오차를 줄여나가는 방식으로 진행앙상블부스팅아다부스트그레디언트 부스팅확률적 그레디언트 부스팅정규화하이퍼파라미터여러 모델의 집합을 이용해 예측한 결과를 생성하는 것연속된 라운딩마다 잔차가 큰 쪽에 가중치를 두고 일련 모델을 생성하는 기법변형된..

6-5. 통계적 머신러닝

랜덤포레스트 : 배깅 방식으로 데이터를 리샘플리아여 다수의 결정트리를 학습하고 결합하면서 숲 형태를 생성배깅 : 부트스트랩 방법을 앙상블 적용, 다수의 모델이 같은 데이터에 대해 구하는 대신 시도할 때마다 매번 부트스트랩의 표본에 대한 새 모델을 일일이 생성앙상블배깅랜덤 포레스트변수 중요도모델 평균화라고도 하며 여러 모델의 집합을 이용해서 하나의 예측결과를 도출하는 방식데이터를 부투스트래핑해 다수의 모델을 생성하는 방법결정트리에 기반하여 배깅추정한 모델생성된 모델의 성능에 미치는 예측변수의 중요도를 나타냄 # 변수 중요도 대출 예제 예시 일부rf

6-3. 통계적 머신러닝

표준화의 필요성 : 특정 값을 얻는 것보다 관심있는 값이 평균과의 차이가 얼마나 나는지의 정도를 알기 위해 표준화(혹은 정규화) 작업을 함. 이 과정에서 해당 모델에 영향을 주는 것을 방지. 정규화 작업을 해서 데이터의 분포에 영향을 미치는 것은 아님표준화(=정규화)Z 점수모델에 영향을 주는 것을 방지하기 위하여 모든 변수에서 평균을 뺀 다음 표준편차로 나누어 변수를 비슷한 스케일에 놓는것표준화 혹은 정규화 과정을 통해 도출된 값.평균으로부터 표준편차만큼 얼마나 떨어져있는가를 표현# 대출데이터 예제를 통한 표준화 일부loan_df * 파이썬 사이킷런에서는 kneighbors 메소드 사용Knn에서의 K 선택 방법 : K 값에 따라 성능이 좌우되며 1이 가장 간단하지만 1보다 클수록 결과가 좋음K가 너무 작..

6-2. 통계적 머신러닝

거리지표 : 두 사이의 점이 떨어진 정도를 측정하는 방법이며 그 거리를 나타내기 위한 방법유클리드 거리 방법맨해튼 거리 방법두 지점 사이의 차이에 대한 제곱합한 값의 제곱근. 두 점 사이의 직선거리데이터 개수가 많아질수록 계산량이 더 중요한데 쌍대 비교가 필요(pairwise)하기 때문두 지점 사이에 대한 직선 혹은 대각선 거리가 아닌 점과 점 사이의 이동시간으로 근접성을 따질때 한 축 방향으로 움직일 수 있다 가정할때의 두 점 사이의 거리(유클리드 방식과 다르게 근접성을 따질때 더 용이)* 그외 마할라노비스 거리 : 두 변수 간 상관관계를 사용한 거리 측정 방식으로 상관관계가 높을때 사용에 유리원-핫 인코더 : 데이터를 이진변수로 바꾸는 방법. 원핫인코더 방식에서는 하나의 비트만 양수고 나머지는 0인 ..

6-1. 통계적 머신러닝

통계적 머신러닝 : 결과가 알려진 데이터를 훈련한 뒤 새로운 데이터에 대한 결과를 예측하는 방법. 전체적인 구조에 기반한 전통적 통계방법과 달리 데이터를 기준으로 하는 것이 특징앙상블 학습 의사 결정 트리가장 널리 사용되는 방법 중 하나최종 예측 결과를 위한 다수의 모델을 사용가장 널리 사용되는 방법 중 하나예측변수와 결과변수 사이의 관계 규칙을 학습하는 방향으로 진행 K-최근접 이웃 : 회귀 방식과 다르게 모델 피팅하는 과정이 없으며 간단한 예측/분류 방법 중 하나. K를 어떻게 설정하느냐에 따라 예측 결과는 상이할 수 있으며 예측 변수는 수치형이어야 함이웃거리 지표표준화z 점수k예측 변수에서 값이 유사한 레코드각 레코드 사이의 떨어진 정도를 나타내는 값평균을 뺀 후 표준편차로 나눈것표준화를 통해 얻은..

5-2. 분류

수치형 변수에 베이즈 방법 적용 : 수치형 변수의 범주형 변환 방법, 조건부 확률 추정을 위한 확률모형 사용- 나이브 베이즈의 경우 예측변수와 결과변수 모두 범주형이어야 함- 베이즈 분류기는 예측변수가 범주형일때 적합하며 수치형 변수일 경우엔 위의 두 가지 방법으로 사용해서 해결 1) 수치형 -> 범주형 전환 2) 조건부 확률 : 예측변수 벡터의 조건부 확률의 곱으로 추정. 어떤 사건이 주어졌을 때 해당 사건을 관찰할 확률이라고 정의판별분석 : 초기의 통계 분류 방법.공분산판별함수판별가중치한 변수가 다른 변수와 함께 변화하는 정도를 나타내는 척도예측변수 적용시 클래스 구분을 최대화하기 위한 함수판별함수를 적용해 얻은 결과를 말하며 어떤 클래스에 속할 확률을 추정하는데 사용되는 값library(MA..

4-5~5-1. 회귀와 예측, 분류

다항회귀와 스플라인 회귀 : 응답변수와 예측변수의 상관관계가 직선이 아닌 경우, 곡선과 같은 비선형일 경우 회귀모형을 확장하기 위해 여러 가지 방법을 사용다항회귀스플라인 회귀매듭일반화모형기법기존 회귀모형에 다항식 추가(제곱, 세제곱)다항 구간 곡선을 곡선 형태로 피팅스플라인 구간 구분하는 값을 의미자동으로 구간을 결정하는 스플라인 모델- 비선형회귀모형은 수치 죄적화가 필수.- 비선형 모델의 경우 예측 변수의 선형 결합, 일부 변환만으로 응답변수를 표현할 수 없는 모든 모델을 의미함 분류 : 지도 학습의 형태 중 하나.지도학습에서 사용된 데이터에는 정답과 오답 데이터가 있으며 데이터를 스스로 학습하는데 크게 분류(이진분류, 다중분류)와 회귀 방법이 존재한다. * 지도학습은 정답 데이터가 있는 데이터셋으로..

4-3. 회귀와 예측

회귀를 통한 예측 방법 종류 : 예측구간(신뢰구간과 예측구간), 외삽법(외삽의 위험)신뢰구간예측구간여러 값에서 계산된 평균 등 다른 통계량 값을 의미회귀계수 주변의 불확실성을 정량화주어진 예측값에 신뢰구간을 사용할 경우 불확실성이 지나치게 낮아질 수 있으며 항상 옳은 것은 아님. 특정 개별 예측인 경우, 케이스에 따라 신뢰구간보다 예측구간을 사용하는게 더 나은 경우도 존재개별 예측값 주위에 있는 불확실한 전 구간을 의미개별 예측값의 불확실성을 정량화같은 값에 대해 신뢰구간보다 구간이 훨씬 넓음외삽법 : 외삽이란 회귀모델링의 데이터 범위를 벗어난 부분까지 확장하는 것으로, 정확한 회귀모형은 데이터 범위를 초과해서까지 사용하면 안됨. 예측의 신뢰성이 떨어진다. 회귀의 요인변수 : 가변수, 기준 부호화, 원핫..