안녕하세요 에듀몬입니다. 우리 사회의 다양한 장면에서 쌓이는 셀 수 없는 데이터는 이미 '빅 데이터'라는 이름으로 2010년대 들어 각광을 받고 있지요. 이러한 메가급 데이터를 분석하고 다루는 방법은 다양한 방법이 있겠지만, 숫자나 기호가 아닌 어떠한 텍스트를 기준으로 데이터를 분석하는 것은 조금 생소할텐데요. 이번 시간에는 네트워크 분석에 대해 알아보도록 하겠습니다.
1. 네트워크 분석의 정의
네트워크 분석은 복잡한 관계를 조금 더 쉽게 설명할 수 있도록 돕는 하나의 도구입니다. 그 대상은 사회일 수도 있고, 조직 간 관계나 조직 내부의 관계일 수도 있으며, 개인들의 이웃 간 연결일 수도 있습니다. 최근 네트워크 분석의 범위는 인간 관계뿐 아니라 단어 사이의 관계로까지 확장되고 있습니다.
네트워크 분석은 이제는 새로운 사회과학 분석 방법론이라 할 수 없을 정도로 많이 확산되었습니다. 1979년 [Social Networks] 저널이 발간된 이래 꾸준히 높은 수준의 연구들이 발표되어왔고, 다학제 연구 성과를 담는 [Networks Science] 같은 저널을 통해 많은 연구가 공유됩니다. 커뮤니케이션학이나 정보학 분야에서는 네트워크 관점에서의 연구들만을 다루는 분과 저널들도 생겨났습니다. 한국에서도 사회학뿐만 아니라 경영학, 언론학, 정치학, 교육학, 행정학, 문헌정보학 등 인접 학문영역에서 활발한 연구가 진행되고 있습니다. 특히 문헌정보학 영역에서는 오래전부터 계량정보학(informetrics)이라는 영역에서 인용 네트워크, 공저 네트워크, 지식지도 등과 같은 지식자원 간의 다양한 관계를 네트워크로 표현하고 분석하는 방법론을 사용하여왔는데, 이는 일종의 지식 네트워크 분석에 해당합니다. 1960년대 유진 가필드, 맥스웰 케슬러 등을 중심으로 한 문헌의 인용 네트워크를 시작으로, 학술논문 저자들의 협력 관계를 기반으로 하는 공저 네트워크, 문헌 텍스트 내 단어들의 동시 출현 관계를 기반으로 하는 키워드 네트워크, 웹사이트의 연결구조에 대한 링크분석을 바탕으로한 웹사이트 네트워크 등 다양한 유형의 지식 네트워크들이 출현하게 되었습니다.
네트워크 분석의 기본적인 출발점은 행렬과 그래프를 이해하는 것입니다. 네트워크는 현실 세계의 관계적 상황에 대한 추상적 모델이며, 시각적 형태로는 그래프, 데이터 처리를 위해서는 행렬로 표현됩니다. 두 점 (i, j) 사이의 관계가 있고 없음을 1과 0으로 나타내는 행렬을 인접 행렬(adjacency matrix)이라고 부르는데, 이는 완전 네트워크(Complete Network)의 기본 형태입니다. n개의 노드 사이에 상호작용이 있는지 없는지에 따라 i와 j의 관계를 이분법(binary)으로 표현하거나 관계의 강도를 숫자로 표현하는 네트워크를 완전 네트워크라고 부릅니다. 이때 행렬 요소의 값이 이진값(0 또는 1)을 가지는 행렬을 이진 행렬, 가중치를 가지는 경우를 가중 행렬이라고 합니다.
완전 네트워크는 행렬의 행과 열이 같은 노드로 구성됩니다. 이처럼 행과 열에 같은 노드가 배열될 때, 이러한 행렬을 1원(1-mode) 자료라고 부릅니다. 그러나 행과 열에 다른 수준의 노드가 배열되는 경우가 있는데, 이를 2원(2-mode) 자료라고 부릅니다. 가령, i라는 사람이 k라는 책을 구입하면 B=1 로, 구입하지 않았으면 B=0으로 표현한 행렬 B는 2원(사람X책) 자료가 됩니다. 행은 사람이고, 열은 책이 됩니다. 이러한 2원 행렬로부터 책 사이의 관계를 도출할 때, 책 사이의 관계를 표현한 행렬을 준-네트워크(quasi network)라고 부릅니다.
여기서 중요한 점은 책과 책 사이에는 직접적인 관계가 없지만, 책을 구매한 사람들에 의해서 인위적으로 관계가 설정되었다는 점입니다. 이렇게 직접적인 상호작용 관계가 없더라도 관계를 인위적으로 설정한 네트워크를 준-네트워크(quasi-network)라고 합니다. 준-네트워크도 네트워크 분석의 대상이 되며, 사회과학에서는 기존의 자료를 네트워크 자료로 재구성하여 활용할 수 있다는 장점 때문에 널리 쓰입니다.
최근에는 문서 혹은 문장에서 함께 포함된 단어의 연계성을 바탕으로 문서의 의미를 파악하는 데도 준-네트워크 분석이 활용됩니다. 이러한 준-네트워크는 행위자(노드) 간의 직접적인 관계가 아니라 서로 다른 성격을 가지고 있는 두 방식(mode)의 다른 노드들과의 관계를 바탕으로 1원 네트워크 자료가 생성된다는 점을 명심해야 합니다. 예를 들어, ‘논문-키워드’는 전형적인 2원 자료입니다. 키워드 중첩으로 ‘논문 간의 연결 관계’를 볼 수 있고, 동시에 논문을 통해서 같이 등장한 키워드 들이 연결을 이루며, 반복적으로 등장한 키워드로 인해 ‘키워드 집단 간의 연결’ 이 형성되는 것을 볼 수 있습니다. 2원 행렬은 약간의 변환을 거치면 쉽게 1원 네트워크로 만들 수 있고, 변환 이후에 중심성⋅구조적 등위성 등 다양한 지표를 이용하여 분석할 수 있습니다.
지금까지 살펴본 네트워크의 응용 분야, 분석 초점, 가중치의 유무, 행과 열의 개체 속성 외에 방향성, 모양, 변화 유무, 규모 등에 따라 네트워크를 분류하는 것 또한 가능합니다. 즉, 개체 간의 연결 방향성이 의미를 가지는 방향 네트워크와 연결 여부만이 중요한 무방향 네트워크를 구분할 수 있으며, 네트워크를 그래프로 나타내었을 때의 모양에 따라 네트워크 유형을 구분하는 것 역시 가능합니다. 또한, 해당 네트워크의 연결구조가 시간에 따라 변화하는지의 여부에 따라서 정적 네트워크와 동적 네트워크를 구분할 수 있으며, 네트워크의 규모에 따라 개체 수(노드 수)가 100개 미만인 소규모 네트워크, 100개에서 1,000 개 정도의 중규모 네트워크, 1,000개 이상의 대규모 네트워크를 나누어 살펴볼 수도 있습니다.
2. 네트워크 분석의 유형
앞서 설명한 내용을 바탕으로 분류 가능한 네트워크의 유형을 정리하면 아래의 <표>와 같이 나타낼 수 있습니다.
<다양한 기준에 따른 네트워크 유형 분류>
분류 기준 | 네트워크 유형 |
방향성 | 뱡향 네트워크(directed network)/ 무방향 네트워크(indirected network) |
가중치 유무 | 가중 네트워크(valued network)/ 이진 네트워크(binary network) |
분석 초점 | 완전 네트워크(complete network)/ 하위 네트워크(sub-network) |
모양 | 스타형, Y형, 체인형, 원형 네트워크 등 |
변화 유무 | 정적 네트워크(static network)/ 동적 네트워크(dynamic network) |
규모 | 소규모/중규모/대규모 네트워크(small/medium/large network) |
행/열 속성 | 일원 모드 행렬(1-mode matrix)/ 이원 모드 행렬(2-mode matrix) |
응용 분야 | 공학, 사회, 지식, 생태, 복잡계 등 |
3. 네트워크 분석 방법
지금까지 네트워크와 네트워크 분석이 ‘무엇인지’에 대하여 살펴보았는데요. 이어서 위와 같은 다양한 유형의 네트워크를 ‘어떻게’ 분석할 수 있는지를 살펴보고자 합니다. 네트워크 자료를 분석하기 위해서 처음부터 행렬 형태로 자료를 입력 혹은 가공하는 것은 쉽지 않은 일입니다. 네트워크 자료의 특성상 노드(node)가 증가함에 따라 입력해야 하는 값이 노드 수의 제곱으로 증가하기 때문입니다. 최근 네트워크 분석에서는 이러한 자료의 문제를 해결하기 위하여 네트워크를 행렬의 형태가 아닌 관계목록(edgelist)의 형태로 입력하는 방법을 사용합니다. 또한, 최근 네트워크 분석 프로그램에서는 숫자뿐만 아니라 문자까지도 직접 입력이 가능하며, 자동으로 행렬로 전환하는 기능을 탑재하고 있어 편리하게 네트워크 자료를 가공할 수 있습니다.
대부분의 네트워크 분석에서는 노드 자체의 ‘속성’ 데이터를 분석하기보다 노드 간의 ‘관계’ 데이터를 분석하는 데 관심을 두게 됩니다. 관계는 기본적으로 추상적인 개념이므로 측정이 쉽지 않습니다. 조작적으로 정의된 관계 의 명칭 및 내용과 함께 관계의 강도, 방향 등 관계의 다양한 속성에 해당하는 데이터를 정의하고 측정해야 합니다. 관계의 유형은 크게 사회적 관계와 비사회적 관계로 구분할 수 있는데, 사회적 관계는 노드가 사람, 조직이나 기관, 지역, 생물 등인 경우이며, 비사회적 관계는 노드가 웹사이트⋅키워드⋅문헌 등 사물인 경우입니다. 네트워크 분석은 단순히 시각화를 통해 개체 사이의 관계를 직관적으로 파악하기 쉽게 해주는 것을 의미하는 데 그치지 않습니다. 이를 바탕으로 하여 네트워크의 구조적 특성 분석, 중심성 (centrality) 분석, 하위집단 구분을 통한 군집 분석(Clustering), 지위와 역할 분석 등 다양한 분석을 진행할 수 있습니다.
중심성 분석(centrality analysis)은 각 개체(node)가 네트워크 내에서 점유하는 특정한 구조적 위치를 파악할 수 있도록 돕습니다. 네트워크의 중심에 위치한 정도, 즉 중심성(centrality)을 측정하는 방법은 여러 가지가 있을 것입입니다. 네트워크에서 한 노드가 얼마나 많은 다른 노드들과 연결되는지를 가지고 측정할 수도 있고, 하나의 노드가 다른 모든 노드들에 도달하려면 몇 단계를 필요로 하는지, 즉 경로 거리의 합을 가지고 측정할 수도 있습니다. 전자는 연결 정도 중심성(degree centrality)에 해당하며, 후자는 인접 중심성 (closeness centrality)에 해당합니다. 혹은 남들이 다른 사람들에게 도달하기 위해 나를 거쳐야 하는 경우가 많을수록, 즉 서로 다른 노드들이 나를 매개로 연결될 경우 중심성이 높다고 정의할 수도 있는데, 이는 매개 중심성(betweenness centrality) 에 해당합니다. 연결 정도 중심성은 자신과 인접하고 있는 이웃 관계에 한정하여 국지적으로 측정하지만, 인접 중심성과 매개 중심성은 네트워크 전체구조를 반영합니다. 따라서 연결 정도 중심성은 지역 중심성이라고 개념화할 수 있는 한편, 인접 중심성과 매개 중심성은 전체 중심성이라고 개념화할 수 있습니다.
하위집단 분석(sub-group analysis)은 전체 네트워크의 노드들을 유사한 속성을 가지는 몇 개의 노드 집합으로 구분하고, 이들로 구성되는 하위 네트워크 또는 하위집단들을 구분해내는 작업을 말합니다. 전체 네트워크는 회사 내의 부서, 학교 내의 동아리 등과 같이 동질적 특징을 가지는 하위집단들로 구성됩니다. 네트워크 분석에서의 하위집단은 노드 개체의 개별적 속성보다는 노드 사이에 존재하는 연결 관계 패턴의 유사성을 토대로 도출하여 분석하게 됩니다. 도출된 각 하위집단 명칭의 경우, 각 집단에 포함된 노드들의 출현빈도를 파악하 여 빈도수가 가장 높은 노드를 해당 집단을 대표하는 명칭으로 사용할 수 있습니다.
네트워크 분석을 위한 도구는 분석대상 네트워크의 크기, 시각화 기능의 중요성, 데이터 입출력의 편리성, 해당 연구 분야에서의 활용 여부, 분석하고자 하는 네트워크 지표의 지원 여부 등에 따라 다양하게 선택 가능합니다.
※ 참고문헌: 디지털 인문학을 통한 《論語》 연구방법론(박선영, 2021)
'교육이론' 카테고리의 다른 글
알아차림(Mindfulness)이란?(개념 및 효과) (0) | 2021.10.25 |
---|---|
문화관광해설사란?(제도 및 역할) (1) | 2021.10.24 |
연구윤리 위반행위의 개념 및 유형 알아보기(위조, 변조, 표절, 부당한 저자표기) (0) | 2021.10.18 |
공적개발원조(ODA)란? (0) | 2021.10.16 |
학교생활 만족도란?(개념 및 구성) (0) | 2021.10.13 |