KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

Part 03-01-01~02. 데이터 표준화 개념- 정의,대상

Harryㅤ 2023. 5. 15.

 

데이터 표준화 정의 : 현실 세계의 정보 -> 데이터베이스에 저장하는 정보 항목의 종류/명칭/형식/유효값/관리 절차 => 특정 기준에 따라 표준화 하는 행위(전사적 활용)

데이터 명칭 주요 특징 
- 유일성 : 한 개념당 하나의 명칭만 허락
- 보편성 : 업무적 관점에서 보편적으로 인지할 수 있어야 함
- 충분성 : 데이터 명칭 이름만으로 데이터의 의미, 범위 파악이 충분해야 함

데이터 정의 : 데이터가 의미하는 범위와 자격 요건을 규정하고, 사용자가 잘 이해할 수 있도록 한다. 데이터의 소유자를 결정하는 요인이 됨
- 데이터 의미를 잘 이해할 수 있어야 함 => 업무를 잘 모르는 3자의 입장에서 기술
- 서술식 의미만으로 정의 어려울 경우 => 실제 발생 데이터 같이 기술
- 데이터 명칭 그대로 표기 또는 약어, 전문용어 => 가급적 사용하지 말 것

데이터 형식 : 표준 도메인이라고도 함
- 데이터 타입 : Numeric, Text, Date, Char,, Timestamp etc.
- 데이터의 최댓값 또는 최대 길이가 비고정일 경우 => 충분히 여유있게 정의
- 특수 타입은 가급적 제약이 있는 경우가 많으므로 사용을 지양

데이터 규칙 : 업무규칙이라고도 함. 발생 가능 데이터를 사전 정의하여 입력 오류와 통제 위험을 최소화 함(정합성, 완전성)
- 기본값 : 입력 생략시 자동 입력되는 값
- 허용값 : 입력 가능한 데이터 값을 제한
- 허용범위 : 입력 가능한 값을 범위로 제한

데이터 표준 사전 : 데이터 표준화의 결과물.
- 구성 : 단어 사전, 용어 사전, 도메인 사전

데이터 표준화 구성요소 : 데이터표준 / 데이터 표준 관리 조직 / 데이터 표준화 절차
- 데이터 표준 :
   표준용어(업무적 용어 : 보고서, 색인 / 기술적 용어 : 테이블명, 칼럼명)
   표준단어(동일 개념 의미하는 용어 재생성을 방지.)
   표준 도메인(칼럼 성질 그룹화 및 데이터 타입 및 길이를 일관성 있게 정의)
   표준코드(도메인의 한 유형. 이미 정의된 도메인. 코드값까지 미리 정의 필수)
   기타 데이터 표준 관련 요소 를 관리
- 데이터 표준 관리 조직 : 데이터 관리자는 하나의 기업 또는 조직 내 데이터에 대한 정의, 감독, 보안 업무 담당
- 데이터 표준화 절차 : 새 재구축, 신생시스템 구축, 단위시스템 추가 구축, 시스템 통합, 고도화, 공공데이터 표준 준수 등에 따라 표준화를 시행해야 함.