서론

데이터 분석가와 ML엔지니어가 모여 데이터 풀스택이 되기 위해 배운 내용들을 공유한다

데이터업계에서 일을 해보며 다함께 공감한 바로는 최소 네가지 직군의 협업이 요구되는데

  1. 데이터 엔지니어
  2. 데이터 분석가
  3. 데이터 엔지니어
  4. ML Ops

로 구분되고

네가지 모두 할 수 있지 않다면 개인이 end to end 서비스를 개발할 수 없다는 것이다.

(스터디를 하다보니 지속가능성을 포기하면 약식으로 구현할 방법들은 있다)

이에 따라 해당 커리큘럼은 얕은 깊이로나마 단신으로 end to end 데이터 서비스를 제공할 수 있기 위해 제작되었으며

스터디하며 학습/공유된 다양한 지식들과

실제로 end to end 서비스를 만든 결과물과 코드를 함께 공유한다

커리큘럼 구성

1부는 환경설정에 대한 내용이다.

AWS에서 컴퓨팅을 위한 EC2를 띄우고 EC2 환경설정을 하며 다양한 AWS 서비스에 대해 설명한다

이중 스터디는 했지만 사용하지 않는 툴들도 있고, 간단하게 사용해보지만 최종 서비스에는 적용하지 않는 툴도 있다

(물론 왜 최종 서비스에는 사용하지 않는지도 설명한다)

2부는 약식으로 개발하기 위한 설명들이다.

cronjob으로 파이프라인을 대체하는 법, serverless를 쓰지 않고 한개 서버에서 모든 서비스를 제공하는 방법들로, 데이터엔지이너링 없이 데이터를 다룰 수 있는 방법도 소개된다.

최종적으로는 airflow, spark를 사용하기 위해 사용되지 않는 기술들이지만 개발자로서 알아두면 후에 학습에 도움 될 내용들이 있다.