KNOU STUDYREAD

한국방송통신대학교 통계데이터과학과 블로그

CS & Department of Statistics and Data Science

통계데이터과학과 및 컴퓨터과학 독서

Part 01-2. 데이터의 가치와 미래

Harryㅤ 2022. 6. 11.

 

빅데이터 3V
1) Volume(양) : 데이터의 규모 측면
2) Variety(다양성) : 데이터의 유형, 소스 측면(정형/비정형 데이터)
3) Velocity(속도) : 데이터 수집/처리

빅데이터의 출현 배경과 변화 : 산업계, 학계, 기술발전으로 인해 출현 대두. 기존에 사용하지 않은 데이터에 대한 가치 발굴+아키텍쳐와 거대 데이터를 다루는 통계 도구의 발전+인터넷 보급과 디지털화, 클라우드 컴퓨팅 등 기술 발전

빅데이터가 만들어내는 본질적 변화
1) 사전처리 -> 사후처리 : 기존에 필요한 데이터만 사전수집한 것과 다르게 모든 데이터를 모으고 숨은 정보를 찾아냄
2) 표본조사 -> 전수조사 : 데이터 수집 비용 감소, 클라우드 컴퓨팅 발전으로 전수조사를 통해 샘플링 기법과 다른 활용 방법으로의 변화
3) 질 -> 양 : 데이터의 지속적인 양적 추가의 경우 좋은 결과 산출에 긍정적으로 영향을 미침. 추론을 바탕에 둔 변화
4) 인과관계 -> 상관관계 : 데이터 기반 상관관계분석 > 인과관계에 의한 미래 예측 방향으로 전환


빅데이터의 가치 산정이 어려운 이유
1) 데이터 활용방식 관점 : 재사용, 재조합, 다목적 개발의 일반화로 인한 누가, 언제, 어디서 활용할 수 있는지에 대해 아는게 어려워짐. -> 가치 산정도 어려워짐
2) 새로운 가치 창출 : 기존에 없던 가치의 생성으로 인해 그 가치 측정이 상대적으로 모호해지고 어려워짐
3) 분석 기술 발전 : 현재 가치가 없는 데이터일지라고 후에 분석 기법이 고도화 된다면 가치화 될 수 있기에 가치산정 결론이 어려움

맥킨지가 언급한 빅데이터가 가치를 만들어내는 다섯가지 방식
1) 투명성 재고로 연구개발 및 관리 효율성 재고
2) 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
3) 고객 세분화 및 맞춤 서비스 제공
4) 알고리즘을 활용한 의사결정 보조 혹은 대체
5) 비즈니스 모델과 제품, 서비스의 혁신


다양한 빅데이터 활용 사례
1) 기업 : 구글의 사용자 로그 데이터를 활용한 검색엔진 개발, 페이지랭크 알고리즘 혁신 -> 검색 서비스 개선 / 월마트의 구매패턴 분석 -> 상품진열 활용
2) 정부 : 교통정보 수집, 기후 정보, 각종 지질활동, 소방 서비스 등 국가 안전 확보를 위한 실시간 모니터링
3) 개인 : 정치인의 예상 유세지역 선정 후 선거활동 펼침 / 가수의 청취자 청취 기록 분석을 활용한 셋리스트 분석

빅데이터 기본 활용 테크닉
1) 연관규칙학습
2) 유형분석 
3) 유전자 알고리즘
4) 기계학습
5) 회귀분석
6) 감정분석
7) 소셜네트워크(사회관계망) 분석


빅데이터 위기 요인
1) 사생활 침해 : 익명화 필요.
2) 책임원칙 훼손 : 분석 대상이 되는 일부 사람들은 예측 알고리즘 희생양 될 가능성 농후(ex. 마이너리티 리포트)
3) 데이터 오용 : 일어난 일에 대한 데이터에 의존하여 정확성이 있다고는 하나 항상 언제나 맞을 수는 없기에 + 잘못된 자료를 사용할 시 오히려 빅데이터의 폐해가 될 수 있음

위기 요인에 따른 예방안
1) 동의 -> 책임 : ex. 개인정보를 사용하는 사용자의 책임으로 변경(개인정보 제공자 동의 -> 개인정보 사용자의 책임)
2) 결과 기반 책임 원칙 고수 : 책임원칙 훼손 위기요인에 대한 예방안. 잘못된 예측 알고리즘을 통한 판단으로 불이익이 발생할 수 있으므로 이런 피해를 최소화
3) 알고리즘 접근 허용 : 데이터 오용에 대한 위기 요인을 예방하기 위해 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개함(불이익 당한 사람들을 대변할 알고리즘 전문가인 '알고리즈미스트' 직업의 대두화)


빅데이터 활용 3요소
1) 데이터 : 모든것의 데이터화
2) 기술 : 발전하는 인공지능과 알고리즘
3) 인력 : 데이터 사이언티스트, 알고리즈미스트 등