KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

전체 글 98

Part 02-1-3,4. 분석 과제 발굴 및 프로젝트 관리 방안

분석과제 발굴 방법론 : 풀어야 할 문제 -> 데이터 분석 문제 변환 -> 과제 정의서 형태 도출 하향식(top-down approach) 접근법 : 전통적인 분석 과제 발굴 방식이며 대규모의 데이터 생성과 동시에 빠르게 변하는 환경에서는 적용하기 어려운 문제가 있다. 상향식(bottom up approach) 접근법 : 현황 분석을 통해 문제를 탐색 -> 문제 정의 -> 해결방안 탐색 -> 데이터 분석의 타당성 평가 -> 분석 과제 도출 디자인 사고(design thinking) 접근법 : 상향식 접근 방식과 하향식 접근 방식의 발산, 수렴을 반복적 수행하는 기법이며 최적의 의사결정 방식. 분석과제 관리를 위한 5가지 영역 1) data size : 분석하고자 하는 데이터의 양. 하둡과 DBMS에서의 ..

Part 02-1-2. 분석 방법론

분석 방법론 : 데이터 분석을 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립으로 기업 내 효과적인 데이터 분석 문화를 정착시킬 수 있다. 분석 방법론은 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 있으며 이에 대한 지식이 있을 경우 활용 가능해야한다. 데이터 기반 의사결정의 필요성 1) 직관, 경험 위주의 의사결정 -> 데이터 기반의 의사결정 변화 2) 기업의 합리적 의사결정을 가로막는 기존 장애요소 : 고정관념, 편향적 사고와 생각, 프레이밍 효과 등 방법론의 적용 업무에 따른 모델 종류 : 폭포수 모델, 프로토타입 모델, 나선형 모델 1) 폭포수 모델 : 순차적 방식에 따른 단계적 진행방법, 기존 IT SW개발 방식과 유사 2) 프로토타입 모델 : 폭포수 모델 단점을 위해 점진적..

Part 02-1-1. 데이터 분석 기획의 이해-분석기획 방향성 도출

분석기획 : 분석을 수행하기 전에 분석을 수행할 과제를 정의/결과 도출을 위해 적절하게 관리할 수 있는 방안까지 사전에 계획/ 하는 일련의 전체 작업을 의미함 목표 시점 별 분석 기획 방안의 종류 : 과제 중심적 접근 방식 / 장기적 마스터플랜 방식 1) 과제 중심적 접근 방식 : 현재 당면한 과제를 빠르게 해결하는 것 2) 장기적 마스터플랜 방식 : 지속적인 분석 내재화를하는 방식 # 의미있는 분석을 위해서 필요한 것 : 분석 기술, IT프로그래밍, 분석 주제에 대한 도메인 전문성, 의사 소통이 중요 정형/반정형/비정형 데이터 1) 정형 데이터 : Structured Data from DB. 데이터 자체로 분석 가능하며 RDB 구조의 데이터를 의미하며 데이터베이스로 관리 가능(ERP, CRM, SCM ..

Part 01-3. 가치창조를 위한 데이터 사이언스와 전략 인사이트

빅데이터 열풍과 회의론 : 과거의 고객관계관리(CRM) 는 투자대비 효과를 거두지 못했던 부정적 학습효과의 예시 중 하나. -> 공포마케팅 : 도입만 하면 모든 문제의 해소가 될 것이라는 기대 / 거액을 투자해 솔루션 도입해도 활용 방법을 모르고 가치를 얻어야 할 지 몰랐던 경우 대다수 -> 빅데이터 분석도 기존의 분석과 마찬가지로 데이터에서 가치와 통찰을 바탕으로 단순히 '빅데이터'에 포커스를 두기보다는 분석을 통해 가치를 만들어야 할 필요성이 대두됨 일차원적 분석 vs 전략도출 위한 가치기반 분석 비교 1) 산업별 일차원적 분석 애플리케이션 1-1) 금융서비스(신용점수 산정, 사기 탐지, 가격 책정, 클레임 분석, 고객 수익성 분석) 1-2) 소매업(판촉, 매대 관리, 매대 관리, 수요 예측, 재고 ..

Part 01-2. 데이터의 가치와 미래

빅데이터 3V 1) Volume(양) : 데이터의 규모 측면 2) Variety(다양성) : 데이터의 유형, 소스 측면(정형/비정형 데이터) 3) Velocity(속도) : 데이터 수집/처리 빅데이터의 출현 배경과 변화 : 산업계, 학계, 기술발전으로 인해 출현 대두. 기존에 사용하지 않은 데이터에 대한 가치 발굴+아키텍쳐와 거대 데이터를 다루는 통계 도구의 발전+인터넷 보급과 디지털화, 클라우드 컴퓨팅 등 기술 발전 빅데이터가 만들어내는 본질적 변화 1) 사전처리 -> 사후처리 : 기존에 필요한 데이터만 사전수집한 것과 다르게 모든 데이터를 모으고 숨은 정보를 찾아냄 2) 표본조사 -> 전수조사 : 데이터 수집 비용 감소, 클라우드 컴퓨팅 발전으로 전수조사를 통해 샘플링 기법과 다른 활용 방법으로의 변..

Part 01-1. 데이터의 이해

데이터 : 추론과 추정의 근거를 이루는 사실 / 단순한 객체로서의 가치뿐만 아니라 타객체와의 상호관계 속에서 가치를 갖는것 데이터의 특성 1) 존재적 특성 : 객관적 사실. 2) 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 데이터의 유형 1) 정성적 데이터 : 언어, 문자 등 -> 검색, 저장, 분석에 많은 비용 소모 2) 정량적 데이터 : 수치, 도형, 기호 등 -> 정형화된 데이터라 비용 소모 적음 지식경영의 핵심 이슈 1) 암묵지 : 학습과 경험을 통해 개인에게 체화 -> 겉으로 드러나지 않는 지식 / 상호작용(공동화, 내면화) 2) 형식지 : 문서나 메뉴얼처럼 형상화 된 지식 -> 전달과 공유 용이 / 상호작용(표출화, 연결화) 데이터와 정보의 관계 데이터 : 개별 데이터 자체로는 의미..

08. Docker Container System

00. Docker : 온프레미스 환경뿐만 아니라 AWS나 GCE 등 클라우드 환경에서도 작동하는 가상화 환경에서 애플리케이션을 관리 및 실행하기 위한 오픈소스 기반의 플랫폼. 01. 도커의 Portability : 이식성(Portability)이란 한 번 만들어 놓으면 어디서라도 가동될 수 있는 소프트웨어의 특성을 말한다. Docker는 이식성이 높기 때문에 클라우드 환경에서도 친화성이 높으며, 개발한 업무 애플리케이션을 온프레미스클라우드, 클라우드클라우드 등 시스템 요건과 예싼에 따라서 쉽게 이동이 가능함. 또한 web 애플리케이션 실행에 필요한 모든 것들은 Container에 모아두기에 Docker가 설치된 어느 환경에서건 동작이 가능함. 02. 가상화 기술 02-1. 호스트 가상화 : 기존 베이스..

07. System Maintenance

00. 시스템 운용의 의의 : 실제 Release 이후 ~ 시스템이 사용자에게 제공하는 서비스가 종료될 때까지의 task 01. 용량관리 : 시스템이 제공하는 서비스의 수요를 예측/감시/평가한 뒤 수요를 충족하기 위해 필요한 최적의 시스템 자원을 제공하는 것. 01-1. 온프레미스 환경에서의 관리 : 서비스 수요를 미리 산정 - 수요에 걸맞는 시스템 리소스 구축이 일반적. -> 구축도 하기 전에 수요를 미리 예측한다는건 어려운 일 01-2. 가상화 기술 환경에서의 관리 : 복수의 서비스에서 cpu나 메모리 등 하드웨어 자원 공유 가능. 이용한 자원의 양이나 시간에 따라 종량 과금. -> 서비스 부하에 맞춰 동적 변경이 가능. 02. 가용성관리 : 가용성이란 시스템을 계속 가동할 수 있는 능력. 가용성 시..

06. AWS Security

01. 정보보안 3대 요소 : 기밀성, 완전성, 가용성 3-1) 기밀성(Confidentiality) : 정보 접근 권한에 있어 허가된 사람만이 정보에 접근할 수 있고 권한 없는 사람의 접근을 금지. 3-2) 완전성(Integrity) : 권한 없는 사람에 의해 데이터가 수정되거나 삭제되지 않도록 하는 것. 3-3) 가용성(Availability) : 접근 권한을 가지고 있는 사람이 이용할 때 정보에 접속할 수 있는 것. 가용성을 유지 못할 경우 서비스나 업무ㅇ2. 위험과 위협 : 정보 보안이 유지되지 못하도록 손해나 영향을 발생시킬 가능성을 위험(Risk), 위험을 일으키는 요인을 위협(Threath). 정보 보안에서의 위협은 인적 위협과 환경적 위협으로 나뉨 2-1) 인적 위혐 : 악의를 가진 사람에..

05. 네트워크 구축

01. MAC address : NIC(Network Interface Controller)에 물리적으로 배정된 48비트의 주소. NIC는 네트워크 내에서 통신을 담당하는 하드웨어. 맥 주소의 앞 24비트는 네트워크 부품 업체를 식별하는 번호, 뒤 24비트는 업체들이 중복되지 않게 할당됨. 또한 물리적인 네트워크 부품마다 고유 할당된 것이므로 원칙적으로 변경이 불가. OSI 2계층인 데이터 링크계층에서 사용됨 02. IP address : 인터넷/인트라넷에 접속된 컴퓨터나 네트워크 기기에 별 번호. 맥 주소와 다르게 네트워크 관리자가 서버나 기기의 NIC에 임의의 값 할당 가능 03. 네트워크 프로토콜 : 프로토콜은 '규약' 이라는 의미를 가지고 있으며 네트워크 프로토콜이란 '상호간 통신 규악을 통한 약..