데이터 안정성 및 기계학습 최적화 : 수 많은 데이터와 이를 활용한 더 나은 기계학습을 위한 알고리즘을 찾는 것은 모든 분석에 있어서 우선시 해야한다. 이를 위해서는 리서치, 더 나은 피처개발, 적절한 모델선택, 테스트, 문서화, 최신 버전 관리 요소가 있다.
리서치 | 피처개발 | 모델선택 | 테스트 | 문서화 | 최신 버전 관리 |
- 데이터 분석에서 해결하는 알고리즘은 겹치는 내용이 많으므로 이를 먼저 참고한다 | - 기계학습에서 더 나은 학습을 구현하기 위해서는 데이터의 가족적 단위를 어떻게 활용하느냐에 달려있다 | - 단독 모델보다는 앙상블과 같은 다양한 모델 위주로도 탐색한다 | - 코드의 테스트를 통해 안정성과 성능을 보장하고 불확실성을 제거한다 | - 아이디어나 활용방안, 기계학습에 대한 원초적인 기록을 남겨 사후 참고시 활용한다 | - 코드의 가독성과 이력을 남기기 위해 활용한다 |
그 외 디버깅을 통해 예측과정에서 실패한 데이터를 분석하고, 이를 바탕으로 적절한 알고리즘을 찾는데 노력해야 한다.
'통계데이터과학과 및 컴퓨터과학 독서' 카테고리의 다른 글
12. 표본 추출 - 단순 임의, 가중치 표본, 층화 임의 추출 (0) | 2024.06.17 |
---|---|
11. 기본 통계분석 (0) | 2024.06.10 |
10. 난수 및 분포 함수 (1) | 2024.06.03 |
8-9. 타입 판별 및 변환 (0) | 2024.05.27 |
7. 데이터 프레임 (0) | 2024.05.20 |