본문 바로가기
교육이론

토픽 모델링이란?(개념 및 장단점)

by 신박에듀 2022. 4. 28.
반응형

안녕하세요 에듀몬입니다. 지난 시간에는 온라인 상의 텍스트를 분석하는 기법 중 하나로 감성분석에 대해 알아보았는데요. 이번 시간에는 비슷한 결의 분석이라 할 수 있는 토픽 모델링에 대해 알아보도록 하겠습니다.

 

 

1. 토픽 모델링(Topic Modeling)의 개념

 

  토픽모델링이란 문장들의 코퍼스(Corpus)에 내재되어 있는 화제(토픽)를 끌어내는데 쓰이며 전체 문서를 하나의 주제로 보고 주제를 구성하는 토픽을 찾아내어 문장을 분류하는 방법론입니다. 비지도(Non-Training) 기계학습의 하나이며 이 모델링은 주제뿐만 아니라 단어차원축소, 동음이의어를 찾아내는 부가적인 기능도 수행할 수 있습니다. 문장을 구성하고 있는 차원을 줄인다는 차원 축소의 장점이 있으나 토픽모델링을 적용할 때에 적절한 토픽의 수를 결정하는 것 또한 중요한 과정 중에 하나이며 적절한 토픽의 수와 줄인 차원의 제목은 연구자가 결정해야하는 단점이 있으므로 문서의 주제를 잘 이해하는 것이 필요하고 그 주제의 개념구조를 잘 이해하여야 합니다.

  국내외 연구에서 주로 사용되고 있는 토픽모델링 알고리즘에는 LDA(Latent Disrichlet Allocation), LSA(Latenet Semantic Analysis), 딥러닝(Deep-Learning) 모델 등이 있습니다. LDA는 주어진 문서에 대해 각각 어떤 주제들이 존재하는지에 대한 확률모형으로서, 미리 알고 있는 주제별 단어 수 분포를 바탕으로, 문서가 포함하는 단어에 기반 하여 주제별로 문서를 분류할 수 있게 해주는 방법론입니다. LSA(Latent Semantic Analysi)는 텍스트의 잠재적 개념을 발견해내는 알고리즘으로써 각 단어들이 특정 개념을 지향하고 있다고 가정합니다. 딥러닝(Deep-Learning)은 인간의 신경망과 유사하도록 설계된 알고리즘으로, 입력된 변수가 출력변수를 예측하는지 살펴보고 맞지 않을 때 잠재된 레이어의 bias를 조정하는 기법입니다.

 

 

 

 

2. 토픽 모델링(Topic Modeling)의 장단점

 

구분 LSA (Latent Semantic Analysis) 딥러닝 (Deep-Learning) LDA (Latent Disrichlet Allocation)
개념 - 잠재된 개념을 발견해내는 알고리즘
- 각 단어들이 특정 개념을 지향하고 있다고 가정함
수많은 데이터 속에서 패턴을 발견해 컴퓨터가 데이터를 분류하여 예측함 - 잠재 디리클레 할당
- 주어진 문서에 대해 어떤 주체들이 존재하는지에 대한 확률 모형을 문서가 포함하는 단어에 기반 하여 주제별로 문서를 분류할 수 있게 해주는 방법론
장점 - 미리 알고 있는 주제별 단어 수 분포를 바탕으로 주어진 문서에서 발견된 단어 수 분포를 분석
- 해당 문서가 어떤 주제 들을 함께 다루고 있을지 예측
다량의 데이터로부터 높은 수준의 추상화 모델 구축가능 - 사전확률을 고려하므로 분류 성공률 높고 해석이 용이함
- SNS데이터와 같이 노이즈가 많은 데이터에서 실시할 경우 연구자가 원하는 단어나 문장만 추출 가능
단점 텍스트의 잠재적 의미 파악 위해 가중치 산정 및 SVD 계산을 통한 자원 축소 과정 선행되어야 함 고사양의 머신 요구 연구자에 의해 도메인 대한 사전 지식/경험 기반 토픽 수, 토픽명이 결정

 

 

※ 참고문헌: 빅데이터 마이닝에 의한 환경민원의 감성분석 및 공간패턴분석(홍석은, 2018)

반응형