Rabet 2024. 9. 10. 11:46

 

CRISP-DM

비즈니스 문제해결 방법론

① 비즈니스 문제 이해 - 가설 수립

무엇이 문제인가?

가설 수립

1. 해결해야 할 문제가 무엇인가? (y, 목표, 관심사)
2. Y를 설명하기 위한 요인을 찾기 (x)  
3. 가설의 구조를 정의 (x → y)

 

② 데이터 이해

1. 초기 가설과 준비된 데이터 셋

데이터 원본 식별 및 취득 (있는 데이터, 없는 데이터 확인)

 

2. 분석을 위한 구조 만들기

 

3. 데이터 탐색

 EDA : 탐색적 데이터 분석 (그래프, 통계량)

 CDA : 확증적 데이터 분석 (가설검정, 실험)

 

4. 가설 확인, 전처리 대상 정리, 데이터와 비즈니스에 대해 이해

 

③ 데이터 준비

모델링을 위한 데이터 구조 만들기

1. 모든 셀은 값이 있어야 한다. (결측치 조치)

2. 모든 값은 숫자여야 한다. (가변수 화)

3. (필요 시) 숫자의 범위가 일치해야 한다. (스케일링)

 

④ 모델링

데이터로부터 패턴을 찾는 과정

- 필요한 2가지

1. 학습 데이터 (train, val, test)

2. 알고리즘

 

⑤ 평가

1. 기술적 관점 평가

2. 비즈니스 관점 평가

 

⑥ 개발

1. 모델 관리

2. AI 서비스 구축