위 이미지에서처럼, 모델을 자동으로 배포하는 Machine learning lifecycle을 구현하려면 우선 기본데이터가 필요하다. 일반적인 기업은 raw data가 기업활동을 통해 생성이 되겠지만, 스터디의 경우 직접 raw data 선택 및 생성부터 진행해야한다.
이번 스터디에서는 미래 주식이 오를지 내릴지를 예측하기 위해 두개의 raw data를 사용한다
다만 스터디의 목적이 전체적인 파이프라인 설계인만큼 raw data 추출 과정은 코드를 그대로 사용해서 스킵해도 되고, 설명도 간단하게 진행한다