AI 산업 모니터링

Industry Monitoring using AI algorithm

sentiment
natural language processing
bert
Author

Cheonghyo Cho

<서범석. 2023. “AI 알고리즘을 이용한 산업 모니터링: 증권사 리포트 텍스트 분석”, BOK 이슈노트 제 2023-5호, 한국은행.>을 소개한다. 이 연구는 자연어처리 등 통계 기법을 이용하여, 증권사 애널리스트의 기업 평가 보고서를 토대로 산업별 모니터링 정보를 추출하였다.

논문 요약

선행연구

경제 분석을 위한 자연어 처리의 활용

  • 데이터
    • 뉴스 텍스트: 언론 견해 반영 (Baker et al., 2016; Shapiro et al., 2020).
    • SNS 및 검색 데이터 (Sun et al., 2016).
    • 기업 회계 및 평가 보고서(Lewis and Young, 2019).
  • 기존 연구의 초점:
    • 사전접근법 또는 통계 모형 기반의 감성분석(sentiment analysis) 및 토픽 모델링
    • 최근은 복잡한 인공신경망 모형 이용
  • 분석
    • 물가, 주가 등 가격지표 예측(Kalamara et al. 2022, Li et al. 2020)
    • 위기 지표, 불확실성 지표 등 새로운 경제정보 산출(Li et al 2009, Baker et al 2016)
    • 사기 탐지(fraudulent detection)(Li et al. 2020)
    • 기업의 지속가능성 분류(Te Liew et al. 2014)
    • 신용 평가(credit scoring)(Yap et al. 2011)
  • 국내 연구
    • Lee et al. (2019): 뉴스 텍스트 분석을 통해 통화정책 서프라이즈 지수를 산출.
    • 서범석(2022a): 뉴스 텍스트로 경기 예측 및 부문별 텍스트 지표 개발.
    • Seo et al. (2022b): 트랜스포머(Transformer) 기반의 뉴스심리지수 개발.
    • 한승욱 외(2022): 인플레이션 어조지수 평가.
    • 트위터 데이터 활용 핀테크 트렌드 분석 (김도희·김민정, 2022).
    • ESG 보고서를 통한 ESG 방향성 평가 (박수빈·이용규, 2022).
  • 본 연구의 차별점
    • 대부분의 기존 연구는 단순 경제 지표 예측 또는 일회성 평가에 집중.
    • 본 연구는 산업별 업황 분석 및 변동요인 파악에 유용한 텍스트 지표를 제시하고, 추정 과정의 알고리즘화 가능성을 논함

데이터

리포트 수집

  • 2019년~2022년 증권사 기업 평가 보고서 12만 8천건 수집
    • 52개 증권사 1,079명의 애널리스트가 작성한 2,283개 기업에 대한 기업 분석 보고서로 월평균 2천 문건
    • 산업 및 거시 분석 보고는 제외, 개별 기업 분석 보고서만 수집
    • 개별 기업에 대한 미시적 평가를 바탕으로 국가 전체에 대한 거시적 효과를 분석하기 위함
  • 보고서 발간 시점 기준으로, 분기별로 취합

텍스트 데이터 추출

  • 전처리 과정
    • Bag-of-words 데이터로 전환
    • 중복 문장, 단순 수치 언급, 이해관계 고지 등 문장 제거로 약 145만개 유효 문장 선별
    • 약 145만개의 유효 문장 선별

텍스트 기반 산업 모니터링 정보 추출

텍스트 기반 업황 지수(Text-based Business Confidence Indicator, TBCI)

  • 감성분석(sentiment analysis) 모형 적용
    • 트랜스포머(transformer) 기반의 통계 모형 구축
    • 문장을 긍정, 부정 또는 중립으로 분류
    • 미리 학습한 Pre-trained 모형에 Seo et al.(2022 b)의 뉴스 데이터 일부 학습

\(TBCI_{i,t} = \frac{X_{i,t} - \overline{X}_{i,.}}{s_{i,.}} \times 10 + 100,\)

\(X_{i,t} = \frac{\sum_{s \in S_{i,t}} \left[I(s \in P) - I(s \in N)\right]}{\sum_{s \in S_{i,t}} \left[I(s \in P) + I(s \in N)\right]},\)

\(\overline{X}_{i,.} = \frac{\sum_{t} X_{i,t}}{T},\)

\(s_{i,.} = \sqrt{\frac{\sum_{t} (X_{i,t} - \overline{X}_{i,.})^2}{T - 1}}.\)

  • \(P\)\(N\)은 각각 가능한 모든 긍정 및 부정 문장의 집합
  • \(S_{i,t}\)는 증권사 리포트에서 추출한 업종 \(i\)\(t\)기 문장 샘플 중복집합(multiset)

즉, 업황 \(TBCI_{i,t}\)는 업종 \(i\)와 관련한 증권사 리포트의 문장 논조를 분류한 뒤, 산출한 긍정 문장과 부정 문장 수의 차이를 두 수의 합계로 나누어 추정하고, 장기평균을 이용해 표준화하여 산출

기업경영환경 변화 요인표 (Business Condition Factors, BC-factors)

  • 키워드 빈도 분석 적용
    • 경제적으로 의미 없는 불용어 제거
    • 문장구조를 요인, 관계언, 평가 로 분해하여 요인 표현 품사 제거 후 Trigram 방법으로 기업경영환경 변화요인 추정
      • (예) ‘신모델 출시 효과로 전분기 대비 판매 호조를 보이면서 매출과 영업이익에서 견조한 성장세’ 에서 신모델·출시·효과, 판매·호조·보이

\(BC\text{-factors}^5_{i,t} = \{ (\omega^{[K]}, \dots, \omega^{[K-4]}) \mid \omega^{[k]} = f(v_{(k)}) \\ , v = m_{U_{i,t} \setminus W}(\omega), \\ v_{(k)} \text{ is the } k^\text{th} \text{ order statistic of } v. \}\)

  • \(U_{i,t}\)는 증권사 리포트에서 추출한 업종 \(i\)\(t\)기 Trigram 패턴 샘플의 중복집합
  • \(m_A(\omega)\)는 multiplicity function, 즉 \(A\)에 나타나는 \(\omega\)의 개수
  • \(W\)는 Trigram 패턴 불용어 집합
  • \(K\)는 불용어를 제외한 Trigram 패턴의 수, 즉 \(K =|Supp(U_{i,t}\W)|\)

주요 이벤트의 영향도 (Text-based Impact of an Event Indicator, TIEI)

  • TIEI(Text-based Impact of an Event Indicator)는 특정 이벤트(예: 금리 변동, 환율 상승, 전쟁, 코로나 등)가 업종별로 얼마나 중요한 영향을 미치는지를 정량적으로 측정하는 지표

산출 방법 - 증권사 리포트에서 특정 키워드(이벤트 관련 단어)의 등장 빈도를 측정하여 해당 이벤트가 업종별로 얼마나 언급되는지를 확인 - TIEI는 특정 이벤트 키워드를 포함하는 문장 수를 전체 문장 수로 나눈 값으로 계산

$$$$

\(TIEI_{i,t} = \frac{\sum_{s \in S_{i,t}} I(s \in A_w)}{|S_{i,t}|} \times 100\)

  • \(A_w\) : 단어군 \(w\)를 포함하는 문장의 집합

  • TIEI 값이 클수록 해당 이벤트가 업종 내에서 중요하게 다뤄지고 있음을 의미

주요 이벤트에 대한 평가 (Text-based Evaluation of an Event Indicator, TEEI)

  • TEEI는 특정 이벤트에 대해 증권사 애널리스트들이 긍정적으로 평가하는지, 부정적으로 평가하는지를 정량적으로 측정하는 지표

  • 즉, TIEI가 “이벤트가 얼마나 중요하게 다뤄졌는지”를 측정한다면, TEEI는 특정 이벤트가 업종별로 호재인지 악재인지 판단

\(TEEI_{i,t}^A = \frac{X_{i,t}-\bar{X}_{i,.}}{s_{i,.}}\times10+100\)

$ X_{i,t} = {{s S{i,t}} } $

  • 즉, 업종별 평가는 특정 단어를 포함하는 긍·부정 문장 수의 차이를 그 합계로 나누어 추정

공통요인 기반 산업별 유사도 (Business Condition Similarity, BC-Similarity)

  • 각 산업이 얼마나 유사한 경제적 요인을 공유하는지를 측정하는 지표
  • 즉, 특정 시점에서 다른 산업들 간의 공통적인 경제 환경 변화 요인(예: 환율, 원자재 가격, 금리, 공급망 차질 등)이 얼마나 많이 겹치는지를 정량적으로 측정

\(d_{KL}(P_{i,t} \parallel P_{j,t}) = \sum_{u \in (U_{i,t} \cup U_{j,t}) \setminus W} P_{i,t}(u) \log \left( \frac{P_{i,t}(u)}{P_{j,t}(u)} \right).\)

\(BC\text{-}similarity_{(i,j),t} = \frac{2}{d_{KL}(P_{i,t} \parallel P_{j,t}) + d_{KL}(P_{j,t} \parallel P_{i,t})}.\)

  • \(d_{KL}(P_{i,t} \parallel P_{j,t})\)는 업종 \(i\)\(j\)의 키워드 분포 차이를 측정하는 KL Divergence.
  • \(P_{i,t}(u)\)는 업종 \(i\)에서 특정 키워드 \(u\)의 출현 확률.

텍스트 정보의 타당성 검증

업황 지수 \(TBCI_{i,t}\)는 주가지수, GDP, BSI 등 금융·경제 지표와의 비교를 통해 선행성과 예측력 등을 평가

  • 텍스트 업황 지표는 코스피 산업별 지수의 흐름을 잘 추정하며, 상관계수는 0.5~0.9 수준으로 높게 나타남.

  • 일부 업종에서는 텍스트 지표가 코스피 산업별 지수보다 선행하는 경향을 보임. 다만, 업종별로 상관성과 선행성에는 차이가 존재함.

  • 텍스트 업황 지표는 숫자 정보 없이 텍스트 정보만으로 추정되었음에도 높은 예측력을 보임.

  • 1차 차분을 적용하여 트렌드를 제거한 후 상관계수를 계산하면 다소 낮아지는 경향이 나타남.

  • 이는 텍스트 업황 지표가 단기 변동보다는 장기적인 트렌드 파악에 더 유용할 가능성을 시사함.

참고문헌

  • 서범석 (2023). BOK 이슈노트[제2023-5호] AI 알고리즘을 이용한 산업모니터링: 증권사 리포트 텍스트 분석