트위터에서 가져온 데이터 중 자연어를 사용해 TFIDF를 만들었고, 감정분석도 고려한 지표를 만들었다

이제 단순 카운팅으로도 사용하기에 따라 시계열 분석이 가능한 것을 보이기 위해 지표를 뽑아보겠다

최신 한시간에 글을 쓴 사람들의 유저 아이디와 기존에 글을 쓴 사람들을 비교해서 분석하는 지표다

아래의 지표는 임의로 만든 지표로, 어떻게든 새롭게 아이디어를 내서 지표 생성이 가능함을 보인다

전처리

tfidf 때 사용한 아래 코드를 똑같이 사용해서 지난 7일간의 모든 데이터를 우선 가져온 후

df = read_prefix_to_df("premart/author", args.ts_nodash, s3_client)

아래와 같이 개별 코인에서 필요한 값을 가져온다

coin_df = df[df['key']==coin][['author_id', 'cnt', 'date', 'time']]

이슈성 지표 1

간단히, 데이터를 타겟 시간 대상과 아닌것으로 나눈다

prev_df = coin_df[(coin_df['date']!=ts_nodash[:8]) | (coin_df['time']!=ts_nodash[9:11])]
last_hour_df = coin_df[(coin_df['date']==ts_nodash[:8]) & (coin_df['time']==ts_nodash[9:11])]

기존에 글 쓴 사람들과 새로 글 쓴 사람들을 모아, 간단한 비교로 새로 글 쓴 사람을 찾을 수 있다

이를 new_author_rate로 정의한다