4. 데이터 컬렉션

Untitled

위 이미지에서처럼, 모델을 자동으로 배포하는 Machine learning lifecycle을 구현하려면 우선 기본데이터가 필요하다. 일반적인 기업은 raw data가 기업활동을 통해 생성이 되겠지만, 스터디의 경우 직접 raw data 선택 및 생성부터 진행해야한다.

이번 스터디에서는 미래 주식이 오를지 내릴지를 예측하기 위해 두개의 raw data를 사용한다

Twitter API로 한시간 단위의 유저들의 트윗 내용
Binance API로 15분단위의 주식 정보

다만 스터디의 목적이 전체적인 파이프라인 설계인만큼 raw data 추출 과정은 코드를 그대로 사용해서 스킵해도 되고, 설명도 간단하게 진행한다

4.1 트위터 데이터 가져오기

4.2 차트 데이터 가져오기

4.3 AWS lambda를 활용한 ETL 구축