서론

해당 페이지에서는 트위터에서의 작업을 airflow로 구현한다

정확히는

4.1 트위터 데이터 가져오기

5.1 트위터 전처리

5.2 트위터 TFIDF 전처리

5.3 트위터 이슈성 전처리

4개에서 만든 작업을 dag로 구현한다

하나의 단순한 작업으로 구현하면 쉽겠지만, 조금 더 고차원적으로 airflow를 사용해보기 위해 구조를 복잡하고 현실 서비스를 대신할 수 있게 설계했다.

이 dag에서는 하나의 dag에서 기본 BashOperator만 쓰는 대신 PythonOperator, Sensor, 등을 사용하며 두가지 operator를 복합적으로 사용한다.

전체 코드는 https://github.com/gnkwon95/GHxPipeliner/blob/main/airflow/dags/twitter_dag.py 를 보면 되고, 세부 작업 코드는 https://github.com/gnkwon95/GHxPipeliner/tree/main/airflow/dags/feature 이쪽 경로를 참고한다

또한, airflow를 설명하기 위한 가이드인 만큼 세부적으로 변경된 작업 코드 설명은 생략한다

전체 구조 설명

Untitled

그림 1. hourly dag 그래프

Untitled