이제 일반 기업과 같이 raw data가 생성되었으니, 이를 정제하는 작업이 필요하다
복잡한 데이터는 여러 단계에 거쳐서 정제가 되고, 어느정도는 모델링단계에서 정제하기도 하는데, 이에 정확한 컨벤션이 있진 않은 것 같다
다만 모델에 바로 사용 가능하게 텍스트 정보 등을 유의미한 함축된 값 (feature)으로 변환해서 반환하는게 모델에 넣기 위한 데이터를 처리하는 방식이다.
차트데이터의 경우 처음 받아오는 데이터가 이미 전처리가 되어있는 형태이다. 예를들어, 15분에 있던 모든 거래에서 최고, 최저금액, 거래량 등이 정리가 되어 저장된다
하지만 트위터의 경우 공통적인 premart의 가공단계가 한번 더 필요해서 pipeline의 길이가 더 길어진다.
3.1에서는 트위터 premart에 해당하는 코드를 다룬다
3.2, 3.3은 트위터에서 생성한 데이터를 각각 다른 mart 형태로 만든다
3.4는 차트 데이터에서 간단한 mart 피처를 만든다.
마지막에 코드는 파이썬버전과 파이스팤버전 두가지로 관리가 되겠지만, 우선 파이썬버전 코드만 소개한다. 또한, 전처리정도는 코드를 보고 이해할 수 있을 것으로 간주하고 간단하게 설명한다.
실제 서비스 환경에서는 주로 연산이 오래 걸리는 작업은 주단위나 일단위 배치로 하고, 실시간성이 필요한건 시간단위로 처리하게 된다.
이번 실험에서 사용할 데이터의 양은 많지 않아 대부분 시간단위 (사실 분단위로도 연산이 가능)로 작업이 가능하지만, 데이터의 양이 많다고 가정하고 작업해본다