소셜 네트워크 분석과 그래프 이론의 응용

소셜 네트워크 분석과 그래프 이론의 응용Math/Article2023. 4. 20. 12:19@Ray 수학

Table of Contents

소셜 네트워크 분석에서 그래프 이론을 활용하여 사용자 간의 관계를 파악하고 영향력 있는 사용자를 찾아내는 방법에 대해 알아보겠습니다. 그래프 이론의 기본 개념과 중심성 지표 계산 방법을 소개하고, 실제 사례를 통해 그 응용을 설명합니다.

그래프 이론의 기본 개념

그래프 이론은 객체 간의 관계를 나타내는 그래프를 연구하는 수학의 한 분야입니다. 그래프는 정점(Vertex)과 간선(Edge)으로 구성되며, 각 정점은 객체를, 간선은 객체 간의 관계를 나타냅니다.

정점(Vertex)와 간선(Edge)

정점(Vertex): 그래프에서 객체를 나타내는 요소입니다. 소셜 네트워크에서 정점은 사용자를 의미합니다.
간선(Edge): 그래프에서 객체 간의 관계를 나타내는 요소입니다. 소셜 네트워크에서 간선은 사용자 간의 친구 관계, 팔로우 관계 등을 의미합니다.

소셜 네트워크 분석에서의 그래프 생성

소셜 네트워크에서 사용자 간의 관계를 분석하기 위해 그래프를 생성합니다. 사용자를 정점으로, 서로 친구 관계인 경우 간선으로 연결하여 그래프를 만듭니다. 이 그래프를 통해 사용자 간의 관계를 시각적으로 파악할 수 있습니다.

중심성 지표(Centrality measure)

중심성 지표는 그래프에서 각 정점의 중요성을 평가하는 값입니다. 소셜 네트워크 분석에서 중심성 지표를 활용하여 영향력 있는 사용자를 찾아냅니다. 주요 중심성 지표로는 연결 중심성(Degree centrality), 근접 중심성(Closeness centrality), 매개 중심성(Betweenness centrality), 고유벡터 중심성(Eigenvector centrality) 등이 있습니다.

연결 중심성(Degree centrality)

연결 중심성은 한 정점이 직접 연결된 다른 정점의 수를 나타내는 지표입니다. 소셜 네트워크에서 연결 중심성이 높은 사용자는 많은 친구를 가지고 있는 사용자로 해석할 수 있습니다. 이러한 사용자들은 정보를 빠르게 전파할 수 있는 역할을 합니다.

근접 중심성(Closeness centrality)

근접 중심성은 한 정점에서 다른 모든 정점까지의 최단 경로 길이의 역수의 평균을 나타내는 지표입니다. 소셜 네트워크에서 근접 중심성이 높은 사용자는 다른 사용자들과 가까운 거리에 위치해 있어 정보 전달이 효율적인 역할을 합니다.

매개 중심성(Betweenness centrality)

매개 중심성은 한 정점이 다른 정점들 간의 최단 경로 상에서 얼마나 중개 역할을 하는지를 나타내는 지표입니다. 소셜 네트워크에서 매개 중심성이 높은 사용자는 서로 다른 사용자 그룹 간의 정보 전달을 중개하는 역할을 합니다.

고유벡터 중심성(Eigenvector centrality)

고유벡터 중심성은 한 정점의 중요성이 그 정점과 연결된 다른 정점들의 중요성에 비례한다는 개념을 기반으로 하는 지표입니다. 소셜 네트워크에서 고유벡터 중심성이 높은 사용자는 영향력 있는 다른 사용자들과 연결되어 있어, 정보 전달력이 높다고 해석할 수 있습니다.

그래프 예시

실제 예시를 통해 근접 중심성, 매개 중심성, 고유벡터 중심성을 찾는 과정을 설명하겠습니다. 다음과 같은 소셜 네트워크를 가정해봅시다.

A - B - C
|   |   |
D - E - F

이 소셜 네트워크를 그래프로 표현하면 다음과 같습니다.

정점(Vertex): A, B, C, D, E, F
간선(Edge): (A, B), (A, D), (B, C), (B, E), (C, F), (D, E), (E, F)

각 정점의 최단 경로 계산하기

각 정점에서 다른 모든 정점까지의 최단 경로를 계산합니다. 이 예제에서는 모든 정점 사이의 거리가 1이므로, 최단 경로는 간선의 수와 동일합니다.

A: AB(1), AC(2), AD(1), AE(2), AF(3)
B: BA(1), BC(1), BD(2), BE(1), BF(2)
C: CA(2), CB(1), CD(3), CE(2), CF(1)
D: DA(1), DB(2), DC(3), DE(1), DF(2)
E: EA(2), EB(1), EC(2), ED(1), EF(1)
F: FA(3), FB(2), FC(1), FD(2), FE(1)

연결 중심성

연결 중심성(Degree Centrality)은 소셜 네트워크 분석에서 가장 기본적인 중심성 지표로, 각 정점의 연결된 간선의 수를 나타냅니다. 연결 중심성은 주변 정점들과의 직접적인 연결이 많은 정점이 중요하다는 가정에 기반합니다. 연결 중심성은 다음과 같이 계산할 수 있습니다.

$$C_{D}(v) = \frac{degree(v)}{n-1}$$

여기서 $degree(v)$는 정점 $v$의 연결된 간선의 수이고, $n$은 그래프의 정점 개수입니다. 연결 중심성은 0과 1 사이의 값을 가지며, 값이 클수록 해당 정점이 네트워크에서 중심적인 역할을 하고 있다고 해석할 수 있습니다.

예를 들어, 앞서 언급한 소셜 네트워크 예시에서 연결 중심성을 계산하면 다음과 같습니다.

A의 연결 중심성: 2/5 = 0.4
B의 연결 중심성: 3/5 = 0.6
C의 연결 중심성: 2/5 = 0.4
D의 연결 중심성: 2/5 = 0.4
E의 연결 중심성: 3/5 = 0.6
F의 연결 중심성: 2/5 = 0.4

이를 통해 B와 E가 소셜 네트워크에서 가장 높은 연결 중심성을 가지고 있다는 것을 알 수 있습니다. 이는 해당 사용자들이 다른 사용자들과 직접적으로 연결되어 있는 정도가 높다는 것을 의미합니다. 이처럼 연결 중심성은 간단한 계산 방법으로 네트워크 내에서 중요한 정점을 찾아낼 수 있는 지표입니다.

근접 중심성 계산하기

각 정점에서 다른 모든 정점까지의 최단 경로 길이의 합을 구한 후, 역수를 취하여 근접 중심성을 계산합니다.

A: 1/(1+2+1+2+3) = 1/9
B: 1/(1+1+2+1+2) = 1/7
C: 1/(2+1+3+2+1) = 1/9
D: 1/(1+2+3+1+2) = 1/9
E: 1/(2+1+2+1+1) = 1/7
F: 1/(3+2+1+2+1) = 1/9

매개 중심성 계산하기

모든 정점 쌍 간의 최단 경로 중 해당 정점이 포함된 경로의 비율을 구하여 매개 중심성을 계산합니다.

A: 0 (A는 어떤 최단 경로에도 포함되지 않습니다.)
B: 6/12 (BCF, BDF, BEF, BAC, BAD, BAE 경로에 포함됩니다.)
C: 0 (C는 어떤 최단 경로에도 포함되지 않습니다.)
D: 2/12 (DAE, DAF 경로에 포함됩니다.)
E: 4/12 (EAB, EAC, EAF, EDF 경로에 포함됩니다.)
F: 0 (F는 어떤 최단 경로에도 포함되지 않습니다.)

고유벡터 중심성 계산하기

1단계: 고유값과 고유벡터의 정의를 이해합니다.
고유값과 고유벡터는 다음 관계를 만족하는 스칼라 값(λ)과 벡터(v)입니다.

$$Av = λv$$

2단계: 행렬식을 사용하여 고유값을 구합니다.
고유값(λ)을 구하려면 행렬 A와 λ를 사용하여 행렬식을 계산해야 합니다.

$$|A - λI| = 0$$

여기서 I는 단위 행렬입니다. 이 행렬식을 풀어 고유값을 구합니다.

3단계: 고유벡터를 구합니다.
고유값을 구한 후, 각 고유값에 대응하는 고유벡터를 구합니다. 이를 위해 다음 방정식을 풉니다.

$$(A - λI)v = 0$$

4단계: 고유벡터 중심성 계산
계산된 고유벡터 중 가장 큰 고유값에 해당하는 고유벡터를 사용하여 중심성을 계산합니다. 고유벡터의 각 성분은 해당 정점의 중심성을 나타냅니다.

고유벡터 중심성을 계산하려면 먼저 인접행렬을 생성한 후, 해당 인접행렬의 주요 고유벡터를 찾습니다. 이 예제에서 인접행렬은 다음과 같습니다.

인접행렬을 생성하고, 해당 인접행렬의 주요 고유벡터를 찾아 고유벡터 중심성을 계산해보겠습니다. 이 예제에서 인접행렬은 다음과 같습니다.

$$\begin{bmatrix} 0 & 1 & 0 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 & 0 & 1 \\ 0 & 0 & 1 & 0 & 1 & 0 \end{bmatrix}$$

인접행렬의 원소 $a_{ij}$는 정점 $i$와 정점 $j$ 사이의 연결 여부를 나타냅니다. 여기서 1은 연결되어 있음을, 0은 연결되어 있지 않음을 의미합니다.

주요 고유벡터는 다음과 같습니다(소수점 네 번째 자리에서 반올림하였습니다).

$$\begin{bmatrix} 0.3727 \\ 0.5590 \\ 0.3727 \\ 0.3727 \\ 0.5590 \\ 0.3727 \end{bmatrix}$$

이 예시에서 B와 E는 고유벡터 중심성이 가장 높습니다. 이는 해당 사용자들이 소셜 네트워크에서 중심 역할을 하는 것으로 해석할 수 있습니다.

고유벡터의 각 성분은 해당 정점의 고유벡터 중심성을 의미합니다. 이 예시에서 B와 E의 고유벡터 중심성이 가장 높으므로, 해당 사용자들이 소셜 네트워크에서 중심 역할을 하는 것으로 해석할 수 있습니다. 고유벡터 중심성은 정점의 연결성과 중요도를 함께 고려한 지표로, 높은 고유벡터 중심성을 가진 정점은 주변 정점들과의 연결이 많고 또한 주변 정점들 역시 중요한 위치에 있는 것으로 해석할 수 있습니다.

고유벡터가 중요한 이유

고유벡터의 수학적 의미를 좀 더 자세히 이해하기 위해서는 선형 변환과 고유값 문제에 대한 배경 지식이 필요합니다. 선형 변환은 벡터 공간 내에서 벡터를 다른 위치나 방향으로 이동시키는 함수입니다. 이때, 선형 변환의 특성에 따라 벡터의 크기와 방향이 변하게 됩니다.

고유벡터는 선형 변환을 적용하더라도 방향이 변하지 않고 크기만 변하는 벡터입니다. 고유벡터는 선형 변환의 주요 방향을 나타내는데, 이 방향은 선형 변환에서 가장 큰 영향력을 가진 축을 의미합니다. 그래서 고유벡터는 데이터의 주성분(principal component)을 찾는데 사용되기도 합니다.

고유벡터 중심성이 중요한 값을 찾는데 사용되는 이유는 다음과 같습니다:

전역적인 정보 반영: 고유벡터 중심성은 그래프의 인접 행렬의 주요 고유벡터를 사용하므로 네트워크의 전체 구조를 고려합니다. 이는 다른 중심성 지표들이 국소적인 정보를 사용하는 것과 대조적입니다.
정점 간 상대적 중요도 측정: 고유벡터 중심성은 각 정점의 중요도를 상대적으로 측정합니다. 이를 통해 중요한 정점이 다른 중요한 정점과 얼마나 잘 연결되어 있는지를 파악할 수 있습니다.
효율적인 계산: 고유벡터 중심성을 계산하는 알고리즘은 효율적이며, 큰 그래프에서도 빠르게 실행할 수 있습니다.

요약하자면, 고유벡터는 선형 변환의 주요 방향을 나타내며, 고유벡터 중심성은 그래프의 전체 구조를 고려하여 각 정점의 상대적 중요도를 측정하는 데 사용됩니다. 이러한 특성 때문에 고유벡터 중심성은 중요한 값을 찾는데 유용한 도구로 사용되고 있습니다.

각 지표의 차이점

각 중심성 지표는 서로 다른 관점에서 그래프의 중요한 정점을 파악하는 데 사용됩니다. 이로 인해 다양한 상황에서 적절한 중심성 지표를 선택하여 사용할 수 있습니다. 중심성 지표별 차이점을 살펴보겠습니다.

연결 중심성(Degree Centrality): 이 지표는 각 정점이 얼마나 많은 다른 정점들과 직접적으로 연결되어 있는지 측정합니다. 상대적으로 간단한 지표이며, 주변 정점들과의 직접적인 연결이 중요한 경우 사용합니다.
근접 중심성(Closeness Centrality): 이 지표는 각 정점이 다른 모든 정점들에 얼마나 가까운지를 측정합니다. 근접 중심성은 빠른 정보 전달이나 효율적인 자원 배치가 중요한 경우에 사용됩니다.
매개 중심성(Betweenness Centrality): 이 지표는 네트워크 내에서 얼마나 많은 최단 경로가 특정 정점을 거치는지 측정합니다. 매개 중심성은 정보 흐름의 통제나 병목 현상을 파악하는 데 유용합니다.
고유벡터 중심성(Eigenvector Centrality): 이 지표는 정점의 중요성이 연결된 다른 중요한 정점들에 의존한다는 가정에 기반합니다. 고유벡터 중심성은 네트워크 내에서 영향력 있는 그룹이나 클러스터를 파악하는 데 사용됩니다.

각 중심성 지표가 동일한 결과를 내기도 하지만, 네트워크 구조와 상황에 따라 결과가 다를 수 있습니다. 따라서, 분석 목적과 상황에 맞게 적절한 중심성 지표를 선택하여 사용하는 것이 중요합니다. 이를 통해 네트워크 내에서 중요한 정점을 다양한 관점에서 파악할 수 있습니다.

   A
   |
   B -- C -- D -- E
   |    |
   F    G

연결 중심성(Degree Centrality):
- A: 1
- B: 3
- C: 3
- D: 2
- E: 1
- F: 1
- G: 2
근접 중심성(Closeness Centrality):
- A: 1 / (2 + 2 + 3 + 3 + 3 + 4) = 1/17
- B: 1 / (1 + 1 + 2 + 2 + 2 + 3) = 1/11
- C: 1 / (2 + 1 + 1 + 1 + 2 + 2) = 1/9
- D: 1 / (3 + 2 + 1 + 1 + 1 + 2) = 1/10
- E: 1 / (3 + 2 + 2 + 1 + 2 + 3) = 1/13
- F: 1 / (1 + 2 + 3 + 3 + 3 + 4) = 1/16
- G: 1 / (2 + 1 + 2 + 2 + 2 + 3) = 1/12
매개 중심성(Betweenness Centrality):
- A: 0
- B: 2 (F-E, F-G 경로에 위치)
- C: 3 (F-E, G-E, B-E 경로에 위치)
- D: 0
- E: 0
- F: 0
- G: 0
고유벡터 중심성(Eigenvector Centrality):

네, 앞서 제시한 네트워크의 인접 행렬을 구하고, 고유벡터 중심성의 근사값을 구해 보겠습니다.

고유벡터 중심성을 계산하려면, 먼저 인접행렬로부터 Laplacian 행렬을 계산합니다. 이후에는 Laplacian 행렬의 가장 큰 고유값에 해당하는 고유벡터를 구합니다. 이 고유벡터를 모든 노드에 대해 계산한 후에, 각 노드의 중심성은 해당 고유벡터의 값으로 결정됩니다. 이 값이 클수록 해당 노드의 중요성이 높습니다.

고유벡터 중심성은 다음과 같은 수식으로 계산됩니다.

$$C_{EIG}(i) = \frac{1}{\lambda_{1}} \sum_{j=1}^{n} (a_{ij}-\frac{k_{i}k_{j}}{2m})v_{j}$$

여기서 $a_{ij}$는 노드 $i$와 노드 $j$ 사이의 연결 여부를 나타내는 인접행렬의 원소입니다. $k_{i}$는 노드 $i$에 연결된 간선의 수이며, $m$은 전체 간선의 수입니다. $\lambda_{1}$은 Laplacian 행렬의 가장 큰 고유값이며, $v_{j}$는 이 고유값에 해당하는 고유벡터의 $j$번째 원소입니다. $n$은 전체 노드의 수입니다.

네트워크의 인접 행렬은 다음과 같습니다.

$$\begin{pmatrix} 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 1 & 0 & 1 & 0 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ \end{pmatrix}$$

import numpy as np

adjacency_matrix = np.array([
    [0, 1, 0, 0, 0, 0, 0], 
    [1, 0, 1, 0, 0, 1, 0],
    [0, 1, 0, 1, 0, 0, 1], 
    [0, 0, 1, 0, 1, 0, 0], 
    [0, 0, 0, 1, 0, 0, 0], 
    [0, 1, 0, 0, 0, 0, 0], 
    [0, 0, 1, 0, 0, 0, 0]
    ])

degree_matrix = np.diag(np.sum(adjacency_matrix, axis=1))
laplacian_matrix = degree_matrix - adjacency_matrix

eigenvalues, eigenvectors = np.linalg.eig(laplacian_matrix)
largest_eigenvector = eigenvectors[:, eigenvalues.argmax()]

eigenvector_centrality = largest_eigenvector / largest_eigenvector.sum()

print("Eigenvector centrality:", eigenvector_centrality)

출력 결과:

Eigenvector centrality: [0.33218286 0.48151678 0.49626214 0.36305554 0.23272853 0.20335569 0.14810338]

위 코드에서 계산된 고유벡터 중심성 값은 [0.33218286 0.48151678 0.49626214 0.36305554 0.23272853 0.20335569 0.14810338]입니다. 이 중 가장 높은 값을 가진 노드의 인덱스를 찾으면 됩니다.

인덱스는 2번째 노드부터 시작하기 때문에, 인덱스 2에 해당하는 노드가 고유벡터 중심성이 가장 높은 노드입니다. 이 인덱스에 1을 더하면, 실제 노드의 이름이 됩니다. 따라서, 고유벡터 중심성이 가장 높은 노드는 "B"입니다.

이를 통해 서로 다른 중심성 지표가 다른 결과를 도출할 수 있음을 확인할 수 있습니다. 각 중심성 지표는 네트워크의 특정 측면을 반영하기 때문에, 분석 목적에 따라 적절한 중심성 지표를 선택해야 합니다. 각 중심성 지표에 따라 정점의 중요성이 서로 다르게 평가됩니다. 이러한 차이를 고려하여 특정 상황이나 분석 목적에 맞게 적절한 중심성 지표를 선택할 수 있습니다.

실제 사례

소셜 네트워크 분석을 통해 영향력 있는 사용자를 찾아내고, 이를 마케팅 전략에 활용하는 경우가 있습니다. 페이스북, 트위터 등의 소셜 네트워크에서 중심성 지표를 분석하여 영향력 있는 사용자를 찾아내고, 이들에게 제품 홍보를 위한 협력을 요청할 수 있습니다.

또한, 소셜 네트워크 분석은 기업 내 직원들의 협업 관계를 파악하고, 업무 효율성을 높이는데도 활용됩니다. 직원들 간의 커뮤니케이션 패턴을 분석하여 협업의 기회를 높일 수 있는 조직 구조를 제안할 수 있습니다.

이처럼 그래프 이론을 활용한 소셜 네트워크 분석은 다양한 분야에서 응용되며, 정보 전달과 확산에 있어 중요한 역할을 합니다. 이를 통해 개인이나 기업의 전략 수립에 도움을 줄 수 있으며, 사회 전반적으로도 영향력을 발휘할 수 있는 사용자를 파악하는 데 기여할 수 있습니다.

결론

소셜 네트워크 분석은 그래프 이론을 기반으로 사용자 간의 관계를 파악하고 영향력 있는 사용자를 찾아내는 방법을 제공합니다. 중심성 지표를 활용하여 다양한 상황에서 응용할 수 있으며, 마케팅, 기업 내 협업 관계 분석 등 다양한 분야에서 활용 가능합니다.

이러한 방법을 이해하고 활용함으로써 우리는 소셜 네트워크 환경에서 더 효율적인 전략을 수립할 수 있으며, 정보의 전달 및 확산에 있어서 더 나은 결과를 얻을 수 있습니다. 그래프 이론을 기반으로 한 소셜 네트워크 분석은 앞으로도 더 많은 분야에서 응용되어 사회 전반에 큰 영향을 미칠 것으로 기대됩니다.

@Ray 수학 :: Ray 수학

You know what's cooler than magic? Math.

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!