KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서 94

5-2. 분류

수치형 변수에 베이즈 방법 적용 : 수치형 변수의 범주형 변환 방법, 조건부 확률 추정을 위한 확률모형 사용- 나이브 베이즈의 경우 예측변수와 결과변수 모두 범주형이어야 함- 베이즈 분류기는 예측변수가 범주형일때 적합하며 수치형 변수일 경우엔 위의 두 가지 방법으로 사용해서 해결 1) 수치형 -> 범주형 전환 2) 조건부 확률 : 예측변수 벡터의 조건부 확률의 곱으로 추정. 어떤 사건이 주어졌을 때 해당 사건을 관찰할 확률이라고 정의판별분석 : 초기의 통계 분류 방법.공분산판별함수판별가중치한 변수가 다른 변수와 함께 변화하는 정도를 나타내는 척도예측변수 적용시 클래스 구분을 최대화하기 위한 함수판별함수를 적용해 얻은 결과를 말하며 어떤 클래스에 속할 확률을 추정하는데 사용되는 값library(MA..

4-5~5-1. 회귀와 예측, 분류

다항회귀와 스플라인 회귀 : 응답변수와 예측변수의 상관관계가 직선이 아닌 경우, 곡선과 같은 비선형일 경우 회귀모형을 확장하기 위해 여러 가지 방법을 사용다항회귀스플라인 회귀매듭일반화모형기법기존 회귀모형에 다항식 추가(제곱, 세제곱)다항 구간 곡선을 곡선 형태로 피팅스플라인 구간 구분하는 값을 의미자동으로 구간을 결정하는 스플라인 모델- 비선형회귀모형은 수치 죄적화가 필수.- 비선형 모델의 경우 예측 변수의 선형 결합, 일부 변환만으로 응답변수를 표현할 수 없는 모든 모델을 의미함 분류 : 지도 학습의 형태 중 하나.지도학습에서 사용된 데이터에는 정답과 오답 데이터가 있으며 데이터를 스스로 학습하는데 크게 분류(이진분류, 다중분류)와 회귀 방법이 존재한다. * 지도학습은 정답 데이터가 있는 데이터셋으로..

4-3. 회귀와 예측

회귀를 통한 예측 방법 종류 : 예측구간(신뢰구간과 예측구간), 외삽법(외삽의 위험)신뢰구간예측구간여러 값에서 계산된 평균 등 다른 통계량 값을 의미회귀계수 주변의 불확실성을 정량화주어진 예측값에 신뢰구간을 사용할 경우 불확실성이 지나치게 낮아질 수 있으며 항상 옳은 것은 아님. 특정 개별 예측인 경우, 케이스에 따라 신뢰구간보다 예측구간을 사용하는게 더 나은 경우도 존재개별 예측값 주위에 있는 불확실한 전 구간을 의미개별 예측값의 불확실성을 정량화같은 값에 대해 신뢰구간보다 구간이 훨씬 넓음외삽법 : 외삽이란 회귀모델링의 데이터 범위를 벗어난 부분까지 확장하는 것으로, 정확한 회귀모형은 데이터 범위를 초과해서까지 사용하면 안됨. 예측의 신뢰성이 떨어진다. 회귀의 요인변수 : 가변수, 기준 부호화, 원핫..

04-1. 회귀와 예측

단순선형회귀 : 다른 두 변수의 사이의 관계에 대한 모델 제공. x가 증가(혹은 감소)할 때 y가 증가(혹은 감소)하는 등의 상관관계를 나타내는데 쓰임.응답변수독립변수절편회귀계수적합값잔차최소제곱예측하고자 하는 변수, 종속변수라고도 함응답치를 예측하기 위해 사용하는 변수, 예측변수하고도 함회귀직선 상의 절편, x=0일 때의 예측값회귀직선의 기울기히귀선에서 얻은 추정값. 예측값이라고도 함관측값과 척합값의 차이잔차의 제곱합을 최소화한 귀 회귀를 피팅하는 방법 # 기존 패키지 설정 및 불러오기library(MASS)library(dplyr)library(tidyr)library(ggplot2)library(lubridate)# install.packages("lubridate")library(splines)li..

03. 유의성 검정과 귀무/대립가설 증명

가설검정의 4 단계 : 가설 수립 - 실험 설계 - 자료 수집 - 추론결론 도출ex. 미술관 관람 고객 200명 중 입장권을 온라인 구매한 사람이 150명, 현장구매는 50명이다. 온라인 입장권 구매 고객 중 40명이 미술관 해설 패키지표를 구매하였고, 현장 입장권 구매 고객 50명 중 20명이 미술관 해설 패키지 표를 구매하였다. 미술관 입장권의 온라인/현장 구매여부와 미술관 해설 패키지표 구매여부는 서로 독립인지 검정하시오.가설 수립실험 설계자료 수집추론결론 도출미술관 입장권의 온라인/현장구매여부와 미술관 해설 패키지표 사이의 구매여부는 독립적이다온라인과 현장구매 구조와 미술관 해설 패키지표 부분에 대해 기본 조건을 찾고 가설을 설정한다온라인과 현장 구매에 따른 고객의 수 분석, 미술관 해설 패키지표..

01-2.탐색적 분석

5. 데이터의 분포 탐색 방법 : 시각화로 나타내며 상자그림, 도수분포표, 히스토그램, 밀도 그림과 같이 표현함상자그림 : 상자 모양의 형태로 상자의 꼬리부분과 헤드부분의 길이에 따라 데이터의 분포 거리를 시각화도수분포표 : 각 구간 내 해당하는 데이터 값들의 빈도를 나타내는 시각화히스토그램 : x,y축을 중심으로 빈도수를 나타내는 시각화밀도 그림 : 히스토그램 시각화를 곡선으로 나타낸 그림6. 이진 데이터와 범주 데이터 탐색 방법 : 최빈값, 기댓값, 막대도표와 파이그림을 중심으로 진행최빈값 : 데이터들 사이에서 가장 많이 등장하는 범주 또는 값기댓값 : 범주 내 어떤 수치 데이터가 있을 때 그 범주에 출현 확률에 따른 평균 값막대도표 : 각 범주의 빈도수나 비율을 막대로 시각화파이그림 : 각 범주의 ..

01-1. 탐색적 분석

1. 정형화된 데이터의 필요성 : 원하는 결과와 실제적인 분석을 위해선 광범위하고 무분별한 데이터가 아니라 이런 데이터 속에서 정형화 된 요소로 정제할 필요가 있음오늘날 데이터를 얻는 곳센서 측정 값으로 부터 얻은 데이터각종 이벤트 발생시 이로 얻은 데이터텍스트 데이터이미지 데이터사운드 데이터비디오 데이터 등 => 데이터 과학에서 가장 중요한 선결 과제는 가공전의 데이터를 활용 가능한 데이터로 변환하는 것 2. 데이터의 기본적인 종류수치형 데이터범주형 데이터연속형 데이터와 이산 데이터로 나뉘며 전자는 연속성(시간 및 수치) 후자의 경우 비연속성의 특징을 가짐(사건 발생 빈도)범주형 데이터와 이진 데이터로 나뉘며 범주형은 특정 범주안에 관련된 데이터가 있는 모음(도시데이터 : 서울 부산 대전 등, 카페 사..

8-3. 그 외 AWS 서비스 3

기초 용어 정리 및 구분1. Elastic Compute Service2. AMI3. Key Pair4. 배치그룹Elastic Compute Service- 가상 컴퓨팅 서버를 제공- 운영체제가 '기본적으로 설치'되어 있음EBS 인스턴스Instance EC2- 중지 가능- 문제 혹은 초기구성 변경 필요할 경우 재생성- 디스크에 기반함- EBS와 다르게 중지 가능AMI(Amazon Machine Image)- 도커의 설정환경과 유용한 설치를 위해 구성된 디스크 이미지처럼 클라우드 컴퓨팅 환경에서 인스턴스를 시작할 수 있게 하는 형태의 이미지를 의미- 다른 리전으로의 이미지 복사 가능- 이미지와 연결된 스냅샷의 연결은 끊을 수 없음Key Pair- EC2에서 SSH 환경 접속할때 로그인에 필요한 키 정보를 ..

8-2. 그 외 AWS 서비스 2

기초 용어 정리 및 구분 1. 리전 2. 가용존 3. 온프레미스 4. 엣지 로케이션 5. 탄력성과 확장성 리전(Region) - AWS에서 IDC 집합을 의미한다. 다수의 가용존으로 구성한다 - 그렇기 때문에 특정 지역의 az에 장애가 발생하여도 다른 az에서 실행하는 것이 가능하다 - 아시아에 서울을 포함해 전세계에 리전이 나뉘어져있다 가용존, 가용영역(Availability Zone) - 가용영역은 데이터 센터의 역할을 수행한다 - 각 리전마다 3개 혹은 4개의 az가 존재한다 - 특정 az에 장애 또는 문제가 발생하여도 다른 az에서 수행할 수 있다 - 네트워크에서 구성요소 중 하나인 서브넷은 개별(1개)의 az를 의미한다 온프레미스(On Premise) - 클라우드 방식이 아닌 자체 물리서버 등 ..

7-1. 데이터베이스 서비스 RDS

RDS 1. 아마존에서는 Auorora를 비롯해 관계형 데이터베이스 서비스를 제공데이터베이스DBMS데이터의 집합체 데이터를 정의 조작 제어하는 기능은 없음실제 데이터를 정의 조작 제어할 수 있음 데이터 조작을 위해서 사용하는 질의언어를 SQL 오라클, sql server, mysql, postgresql, mariadb 등 다양 관계형 데이터베이스(RDB)비관계형 데이터베이스저장된 데이터의 형태가 표와 같은 형태로 구성 데이터 타입, 종류, 칼럼 별 나열되어 있어 초기구축시 시간소요 많음 대신 개별 데이터에 관한 정밀한 조작 가능구조가 관계형 데이터베이스에 비해 단순하고 설정 부분이 적음 쉽게 구축 가능 정밀한 조작 상대적으로 불가하지만 엑세스는 빠름 키-밸류의 형태를 취함 NoSQL 데이터베이스라고도 ..