사실 실무에서는 크론으로 작업 스케줄링하고 파이썬으로 작업을 돌리지 않는다.

데이터도 훨씬 많기 때문에 파이썬으로 돌리다가는 한 작업에 몇시간씩 걸릴 수 있고

모델의 성능도 훨씬 좋고 확장성이 있어야하며

api의 서빙도 안정적이어야한다.

아래에서는 튜토리얼과 실제 서비스의 다른점들을 간단히 소개한다.

cron vs airflow

크론으로 개발을 하면서 시행착오를 겪게되면 다양한 불편함을 느끼지만, 우선 에러에 대한 확인과 수정이 어렵다.

가끔 작업을 하다보면, 잘 되던 작업이 코드 외의 이유로 안될수 있고, 코드에 수정이 필요해서 옛날 데이터 중 일부만 다시 돌리고 싶을 수도 있다.

이 외에 아래에 설명하듯 빅데이터를 사용하다보면 코드 외적으로 컴퓨팅 파워 이슈로 에러를 경험하기도 한다.

혹은, 코드마다 필요한 연산량이 다르니 비용절감을 위해 세부적으로 사용할 컴퓨팅파워를 조정하고 싶을 수 있다.

이러한 수많은 기능을 위해 사용하게되는게 airflow이다.

자세하진 못해도, 9장에서는 airflow를 간단하게 설치하고 사용해본다.

EC2 python vs cloud (EMR) spark

EMR과 클라우드에 대해서는 짧게 설명하기에는 너무 많은 설명이 필요하다

실제로 시리즈 A, B 수준의 커머스 회사라면 아직 EMR과 spark를 사용할 필요가 없다

10장에서는 간단하게 EMR을 소개하면서 띄워보고, airflow에서 호출해보고 5장에 만든 전처리 코드를 EMR로도 돌려볼 것이다.

Spark에 대해서는 DE, ML이라면 너무 당연히 알아야하지만 처음부터 EMR 환경설정을 하는 경험은 모두가 하게 될 일도 아니고, 모든 파이썬 airflow 작업을 EMR 작업으로 변환하기도 너무 많은 시간이 걸린다.

무엇보다, EMR은 개인이 스터디용으로 사용하기에 비용이 너무 커서 스터디와 적합하지 않다

사실 airflow도 스터디를 위해 개인이 만드는게 말이 안되긴 하는데, EMR은 더 심하다