KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

Part 03-02-02. 데이터 표준 정의

Harryㅤ 2023. 6. 5.

 

데이터 표준 정의 : 표준 단어 사전 정의, 표준 도메인 사전 정의

표준 단어 사전 정의 : 업무상 실사용, 일정한 의미를 갖는 최소 단위의 단어를 정의

1) 해당 기관에서 사용하는 모든 단어를 추출, 종류 및 유형을 분류하고 용도를 고려해 표준단어를 정의
2) 동음이의어, 이음동의어 처리
3) 정의한 표준단어 -> 원칙 참고해 영문명 및 영문약어명 정의 필요
4) 표준화의 핵심 -> 동일한 의미의 속성명을 통일하는 것
5) 표준 단어 관리기준은 표준성, 일반성, 대표성이다.
6) 표준 단어 정의 프로세스 : 현행용어 수집 > 단어분할 > 단어 정렬 > 표준 단어 사전 정의
7) 표준 단어 정의 시 주의사항 : 최소 단위를 기준으로 할 것, DBMS 첫글자는 알파벳으로 정의 => 영문명 동일
단어 동음이의어 문제 있을 경우 => 사용빈도 높은 것이 우선, 빈도 낮은것은 다른 단어와 조합해서 중복정의 회피

표준 도메인 사전 정의 : 논리/물리적으로 유사한 데이터를 구롭화하여 유형과 길이를 정의한 것. 데이터 타입과 길이,포맷이 같은 값의 집합. 다수의 하위 도메인으로 구성되거나 하나의 도메인이 여러개의 도메인에 중복적으로 사용 가능

1) 표준 도메인 관리 기준은 표준성, 유일성, 업무지향성(업무 특성을 반영)
2)표준 도메인 작성 형식 : 모든 데이터 속성은 대표 속성 가운데 DBMS에 동일 형태로 구현되는 속성을 추출 > 그룹화(동일 형태 속성)  속성은 하나 이상의 도메인이 복수 할당되지 않으며 속성과 도메인은 상호매핑. 새 속성 추가시 해당 속성의 도메인 선정,등록하며 기존에 사용하는 속성이 없을때 가능
3) 표준 도메인 정의시 혼재된 칼럼명, 데이터 타입, 길이를 정리 > 표준 도메인 정립
4) 표준 도메인 정의는 업무적으로 의미 있는 도메인명을 부여, 기존 데이터와 호환성, 범용성을 위해 그룹화한 용어 중에 가장 큰 데이터 길이를 표준으로 지정
5) <표준 도메인 정의 시 유의사항 >
어떠한 도메인에도 속하지 않는 칼럼이 존재할 수 있다(O) -> 모든 용어를 포함하는 표준도메인은 필요없음
6) 표준 코드 사전 정의 : 현 코드를 바타으 통합 필요성에 따라 통합 대상인 표준 코드를 정의하고 현코드와 매핑 설계.
7) 표준 코드 관리 기준은 재상용성,일관성,정보 분석성
8) 표준 코드 정의 프로세스 : 현행 코드 수집 > 현행 코드 상세 분석 > 표준 코드 정의
9) 표준 코드 활용 : 향후 모든 정보시스템에는 표준 코드를 사용. 일부 코드 값만을 사용할 시 표준 코드부터 파생된 코드를 사용, 파생된 코드 또한 표준 코드에 사전 정의되어야하며 먼저 정의해야한다(O)
10) <표준 코드 정의 시 유의사항>
향후 잠재적 확장성을 고려할 것
시스템 운영 중 변경시 해당 코드 사용한 기존 데이터를 위해 삭제하지 않고 중지상태로 관리. 새 코드 값을 신규정의

표준 용어 사전 정의 : 단어, 도메인, 코드 표준이 정의되면 이것을 바탕으로 한 표준 용어를 구성. 단어의 조합, 도메인 분류, 데이터 타입 길이, 코드값 등을 기준으로 표준 적용이 무리 없는지 검토하는 단계. 업무에서 자주 사용하는 단어 조합을 의미. 전사적 사용하는 엔티티 대상으로 조합하여 정의하는 것

1) 표준 용어 관리 기준은 표준성, 일반성(지나치게 업무 관점에서 정의하지 말것), 업무 지향성
2) 표준용어 작성시 엔티티 용어사전과 속성 용어사전을 구분한다(O)
논리명(한글명)과 물리명(영문명) 을 각각 가진다(O)
용어 범위 및 자격 형식이 설명되어야한다(O)
3) <표준 용어 정의 시 고려사항>
데이터 표준 원칙 상 정의한 한글명 및 영문명의 허용길이를 초과해서는 안됨
영문명의 허용길이 문제시 한글명 변경 또는 표준 단어의 일부를 조합하여 새로 등록
셍성된 표준 용어가 길 경우 두개의 표준 용어를 복합하여 생성

 

표준화 원칙 예시
- 특정한 날짜 의미 > 일자 용어 사용
- 시분초 > 일시 용어 사용
- 년, 월, 일 중 일부 > 년, 년월, 월, 월일, 일
- 가격, 좌수, 단가, 잔액 등의 관행단어 제외 나머지 금전 용어 > 금액 용어 사용
- 최근 표준화 작업 > 메타관리 시스템과 연동하여 수행
- 표준화 시스템의 핵심 : 속성등록, 및 관리.엔티티가 어떤 속성을 가지는지, 특정 속성이 어떤 엔티티에서 사용되는지를 보여주는 것.