KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

전체 글 98

13. 데이터 안정성 확보 방안

데이터 안정성 및 기계학습 최적화 : 수 많은 데이터와 이를 활용한 더 나은 기계학습을 위한 알고리즘을 찾는 것은 모든 분석에 있어서 우선시 해야한다. 이를 위해서는 리서치, 더 나은 피처개발, 적절한 모델선택, 테스트, 문서화, 최신 버전 관리 요소가 있다.리서치 피처개발모델선택테스트문서화최신 버전 관리- 데이터 분석에서 해결하는 알고리즘은 겹치는 내용이 많으므로 이를 먼저 참고한다- 기계학습에서 더 나은 학습을 구현하기 위해서는 데이터의 가족적 단위를 어떻게 활용하느냐에 달려있다- 단독 모델보다는 앙상블과 같은 다양한 모델 위주로도 탐색한다- 코드의 테스트를 통해 안정성과 성능을 보장하고 불확실성을 제거한다- 아이디어나 활용방안, 기계학습에 대한 원초적인 기록을 남겨 사후 참고시 활용한다- 코드의 가..

12. 표본 추출 - 단순 임의, 가중치 표본, 층화 임의 추출

표본 추출 : 오늘날 기하급수적으로 증가하는 모든 데이터에 대해서 검정이나 검사과정을 거치는 것보단 특정 조건별로 나누어 전체 데이터인 모집단과 모집단의 일부인 표본을 활용해서 데이터를 분석하는 것을 말한다.(표본 : 훈련 데이터 80+테스트 데이터 20)과적합 : 표본을 구성하는 데이터 중 훈련용과 테스트용을 구분한다. 주요 모델링은 훈련 데이터를 활용하고 성능은 테스트 데이터로 검증한다. 만일 이와 같은 분리과정을 시행하지 않을 경우 불순한 데이터가 포함될 수 있으며 이로 인해 이를 반영한 모델이 생성될 수 있다. 이것을 과적합이라고 하며 예측력 저하를 불러일으킨다.

11. 기본 통계분석

기초 통계량 : 기본적인 통계량 검정과 계산을 위해서 자주 사용되는 것은 표본평균, 분산, 표준편차, 다섯수치요약, 최빈값이 있다.표본평균분산표준편차다섯수치요약최빈값meanvarsdfivenumwhich 최빈값의 경우 R에서 바로 구할 수 있는 함수가 없으므로 'which'를 통해 도출할 수 있다.임의의 그래프 도출은 상자그림 외에도 여러가지가 있으며 다양한 방법을 통해 통계 결과를 시각화 할 수 있다.

10. 난수 및 분포 함수

통계검정시 R에서 사용하는 분포는 r뒤에 분포명을 붙인 형태로 사용한다이항분포rbinomF분포rf기하분포rgeom정규분포rnorm포아송분포rpoist분포rt난수 생성이외 임의의 난수를 생성후 정규분포를 그리면 일정한 분포 내에서 난수가 생성됨을 알 수 있다. 또한 다른 분포에서도 여러 난수 발생 함수가 존재한다. (빈출 사용정리)이항분포F분포기하분포정규분포포아송분포t분포rbinomrfrgeomrnormrpoisrtdbinomdfdgeomdnormdpoisdtpbinompfpgeompnormpposiptqbinomqfqgeomqnormqpoisqt

7. 데이터 프레임

데이터프레임 : 한 가지 자료형으로만 구성될 수 있음. 1열과 2열에 저장되는 값의 형태가 다를 수 없음 데이터프레임의 칼럼 이름 호출 및 생성 : colnames(), rownames() 문법을 사용데이터프레임 이름$해당 칼럼colnames(), rownames(), names()해당 데이터 프레임의 해당 칼럼 내용을 반환지정된 칼럼에 대한 내용을 반환 데이터프레임 일부분 출력 및 확인 : head(), tail() 문법을 사용

5. 행렬

행렬의 특징 : 한 가지 자료형으로만 구성될 수 있음. 1열과 2열에 저장되는 값의 형태가 다를 수 없음행우선 열우선 : nrow(행의 수 지정), ncol(열의 수 지정)byrow : 행렬 내 원소를 위부터 채우고 싶을 경우 TRUE 설정하며 기본값은 FALSE행렬 내 행과 열의 이름 지정방법 : dimnames(row, col), rownames(), colnames()행렬에서의 인덱싱경우, 각 행과 열에 속하는 요소만이 반환된다.147/258/369 3*3 행렬에서 색인을 c(1,3), c(1,3) -> 1행, 3행( 1,3,7,3,6,9 )/ 1열,3열( 1,2,3,7,8,9 ) => 1,3,7,9 반환  https://statisticsglobe.com/r-error-in-solve-system..

04. 리스트

리스트스에서의 데이터 접근방법: 키값 접근과 서브리스트 순번 접근과 리스트의 n번째 저장된 값을 호출해서 리스트 내 탐색가능x$keyx[n]xx라는 리스트 내에 해당 키 값으로 해당된 요소 반환 및 접근 가능x라는 리스트 내에 해당되는 n번째 데이터의 서브리스트 반환 및 접근 가능x라는 리스트 내에 n번째로 저장된 값 반환 및 접근 가능

03. 벡터

벡터 속 특정 요소 반환 : 양수 - 해당 순번인 요소 반환, 음수 - 해당 순번인 요소를 제외한 나머지 요소 반환 Starts End 문법 : n:m 표기를 통해 범위를 지정하거나 n,m 형식으로 특정 순번인 요소만 반환 length, NROW : 벡터의 길이 반환 벡터의 연산 identical()union()intersect()setdiff()setequal()각 객체간 동일여부 판단, 불값 반환합집합. 전체 요소 반환교집합. 공동 요소반환차집합. 차를 뺀 나머지 요소 반환같은 배열인지 확인후 불값 반환 seq, times, each : 벡터의 생성, 생성길이 간 구간 조절 가능. 반복횟수(times), 각 요소반복(each)