KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

Part 02-1-2. 분석 방법론

Harryㅤ 2022. 6. 25.

 

분석 방법론 : 데이터 분석을 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립으로 기업 내 효과적인 데이터 분석 문화를 정착시킬 수 있다. 분석 방법론은 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 있으며 이에 대한 지식이 있을 경우 활용 가능해야한다.

데이터 기반 의사결정의 필요성
1) 직관, 경험 위주의 의사결정 -> 데이터 기반의 의사결정 변화
2) 기업의 합리적 의사결정을 가로막는 기존 장애요소 : 고정관념, 편향적 사고와 생각, 프레이밍 효과 등

 

방법론의 적용 업무에 따른 모델 종류 : 폭포수 모델, 프로토타입 모델, 나선형 모델

폭포수 모델 구조

1) 폭포수 모델 : 순차적 방식에 따른 단계적 진행방법, 기존 IT SW개발 방식과 유사

 

프로토타입 모델 구조

2) 프로토타입 모델 : 폭포수 모델 단점을 위해 점진적으로 개발해 나가는 접근 방식, 일부 우선 개발하여 사용자에게 제공, 이후 사용자의 반응과 요구분석에 따라 개선과정 진행

 

나선형 모델 구조

3) 나선형 모델 : 반복을 통한 점증적으로 개발하는 방식, 단 체계적 관리가 어려울 경우 오히려 복잡성 측면에서 증가할 수 있음

방법론의 구성
1) 단계 : 최상위 계층, 프로세스 그룹을 통해 완성된 단계별로 각 산출물이 생성됨. 버전관리로 통제 => 단계별 완료 보고서
2) 테스크 : 단계를 구성하는 단위 활동을 의미. 물리적/논리적 단위로 품질검토의 항목. => 보고서
3) 스템 : 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력자로로 구성된 단위 프로세서를 의미 => 보고서의 구성요소

KDD 분석 방법론 : Knowledge Discovery in Database. 프로파일링 기술 기반으로 데이터로부터 통계적 패턴, 지식을 찾기 위해 활용할 수 있도록 체계적 정리한 데이터 마이닝 프로세스.

KDD 분석절차
1) 데이터셋 선택 : 프로젝트 목표 설정, 데이터베이스나 원시 데이터 분석에필요한 데이터를 선택하는 단계. 데이터 마이닝에 필요한 목표데이터를 구성하여 분석에 활용
2) 데이터 전처리 : 추출된 분석 대상이 되는 데이터 셋에 포함된 잡음, 이상치, 결측치를 식별. 제거하거나 의미있는 데이터로 재처리하는 단계. 추가로 데이터 셋이 더 필요한 경우 1) 과정 반복 가능
3) 데이터 변환 : 데이터 전처리 과정을 통해 정제된 데이터의 목적에 맞게 변수생성/변수선택/데이터 차원 축소를 하여 데이터 마이닝을 할 수 있게 데이터에 변경하는 과정. 이때 학습용 데이터 / 검증용 데이터로 분리됨 
4) 데이터 마이닝 : 학습용 데이터 -> 데이터마이닝 기법을 선택. 적절 알고리즘을 선택해 데이터마이닝을 실행하는 단계. 필요에 따라 2)전처리와 3) 변환 프로세스를 추가적 실행가능
5) 데이터 마이닝 결과 평가 : 데이터 마이닝 결과에 대한 해석, 평가과정. 분석 목적과의 일치성을 확인하는 단계. 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련도 실시. 필요에 따라 4) 데이터마이닝 추가적 실행가능

CRISP-DM 분석절차 : 구조는 4레벨, 프로세스는 6단계로 구성 
1) 프로세스 : 업무이해 / 데이터 이해 / 데이터 준비 / 모델링 / 평가 / 전개 로 구성

빅데이터 분석 방법론 : 5단계 구성되어 있으며 프로세스는 3단계로 구성
1) 단계 : 프로세스 그룹 통해 완성된 단계별 산출물 생성. 각 기준선으로 관리되며 버전관리를 통해 통제 이루어짐
2) 테스크 : 각 단계는 여러개의 테스크로 구성. 단계를 구성하는 단위 활동을 의미. 물리적/논리적단위로서 품질 검토의 항목을 의미
3) 스텝 : 워크 패키지에 해당. 입력자료, 처리 및 도구, 출력자료로 구성.

1) 분석기획 : 비즈니스 도메인의 문제점 인식. 분석 계획 및 프로젝트 수행계획 수립
2) 데이터 준비 : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의. 준비
3) 데이터 분석 : 준비된 원천데이터를 바탕으로 분석용 데이터셋으로 편ㅅ넝. 분석기법과 알고리즘 이용해 데이터 분석. 추가적 데이터 필요시 분석단계와 2) 데이터 준비 단계의 반복 시행
4) 시스템 구현 : 분석 기획에 맞는 모델 도출. 실 시스템에 운영 및 반영함으로써 사전 검증을 통한 프로토타입 시스템 구현
5) 평가 및 단계 : 프로젝트 성과 정리, 모델의  발전 계획 수립해 향후 차기 분석 기획으로 전달함과 동시에 프로젝트 종료