안녕하세요 에듀몬입니다. 지난 시간에는 온라인 상의 텍스트를 분석하는 기법 중 하나로 감성분석에 대해 알아보았는데요. 이번 시간에는 비슷한 결의 분석이라 할 수 있는 토픽 모델링에 대해 알아보도록 하겠습니다.
1. 토픽 모델링(Topic Modeling)의 개념
토픽모델링이란 문장들의 코퍼스(Corpus)에 내재되어 있는 화제(토픽)를 끌어내는데 쓰이며 전체 문서를 하나의 주제로 보고 주제를 구성하는 토픽을 찾아내어 문장을 분류하는 방법론입니다. 비지도(Non-Training) 기계학습의 하나이며 이 모델링은 주제뿐만 아니라 단어차원축소, 동음이의어를 찾아내는 부가적인 기능도 수행할 수 있습니다. 문장을 구성하고 있는 차원을 줄인다는 차원 축소의 장점이 있으나 토픽모델링을 적용할 때에 적절한 토픽의 수를 결정하는 것 또한 중요한 과정 중에 하나이며 적절한 토픽의 수와 줄인 차원의 제목은 연구자가 결정해야하는 단점이 있으므로 문서의 주제를 잘 이해하는 것이 필요하고 그 주제의 개념구조를 잘 이해하여야 합니다.
국내외 연구에서 주로 사용되고 있는 토픽모델링 알고리즘에는 LDA(Latent Disrichlet Allocation), LSA(Latenet Semantic Analysis), 딥러닝(Deep-Learning) 모델 등이 있습니다. LDA는 주어진 문서에 대해 각각 어떤 주제들이 존재하는지에 대한 확률모형으로서, 미리 알고 있는 주제별 단어 수 분포를 바탕으로, 문서가 포함하는 단어에 기반 하여 주제별로 문서를 분류할 수 있게 해주는 방법론입니다. LSA(Latent Semantic Analysi)는 텍스트의 잠재적 개념을 발견해내는 알고리즘으로써 각 단어들이 특정 개념을 지향하고 있다고 가정합니다. 딥러닝(Deep-Learning)은 인간의 신경망과 유사하도록 설계된 알고리즘으로, 입력된 변수가 출력변수를 예측하는지 살펴보고 맞지 않을 때 잠재된 레이어의 bias를 조정하는 기법입니다.
2. 토픽 모델링(Topic Modeling)의 장단점
구분 | LSA (Latent Semantic Analysis) | 딥러닝 (Deep-Learning) | LDA (Latent Disrichlet Allocation) |
개념 | - 잠재된 개념을 발견해내는 알고리즘 - 각 단어들이 특정 개념을 지향하고 있다고 가정함 |
수많은 데이터 속에서 패턴을 발견해 컴퓨터가 데이터를 분류하여 예측함 | - 잠재 디리클레 할당 - 주어진 문서에 대해 어떤 주체들이 존재하는지에 대한 확률 모형을 문서가 포함하는 단어에 기반 하여 주제별로 문서를 분류할 수 있게 해주는 방법론 |
장점 | - 미리 알고 있는 주제별 단어 수 분포를 바탕으로 주어진 문서에서 발견된 단어 수 분포를 분석 - 해당 문서가 어떤 주제 들을 함께 다루고 있을지 예측 |
다량의 데이터로부터 높은 수준의 추상화 모델 구축가능 | - 사전확률을 고려하므로 분류 성공률 높고 해석이 용이함 - SNS데이터와 같이 노이즈가 많은 데이터에서 실시할 경우 연구자가 원하는 단어나 문장만 추출 가능 |
단점 | 텍스트의 잠재적 의미 파악 위해 가중치 산정 및 SVD 계산을 통한 자원 축소 과정 선행되어야 함 | 고사양의 머신 요구 | 연구자에 의해 도메인 대한 사전 지식/경험 기반 토픽 수, 토픽명이 결정 |
※ 참고문헌: 빅데이터 마이닝에 의한 환경민원의 감성분석 및 공간패턴분석(홍석은, 2018)
'교육이론' 카테고리의 다른 글
퍼실리테이션이란? ② 유형 및 효과 (0) | 2022.04.30 |
---|---|
퍼실리테이션이란? ⓛ 개념 및 효과 (0) | 2022.04.29 |
감성분석이란?(개념 및 분석) (0) | 2022.04.27 |
공동체 의식이란?(개념 및 특성): 청소년을 중심으로 (0) | 2022.04.24 |
다문화 수용성이란?(개념 및 구성요소) (0) | 2022.04.23 |