注意
跳转到末尾以下载完整示例代码。
在线用户操作
本示例重现了互联网公司中典型的数据科学场景。我们从一个包含在线用户操作的pandas DataFrame开始,例如,对于一个在线文本编辑器:用户可以创建页面、编辑页面或删除页面。我们希望构建并可视化一个用户图,突出显示他们在同一页面/项目上的协作。
import igraph as ig
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
让我们首先准备一些表示在线用户的模拟数据。每行表示用户执行的某个操作(例如,点击网站内的按钮)。实际用户数据通常带有时间戳,但这对于本示例来说并非必需。
action_dataframe = pd.DataFrame([
['dsj3239asadsa3', 'createPage', 'greatProject'],
['2r09ej221sk2k5', 'editPage', 'greatProject'],
['dsj3239asadsa3', 'editPage', 'greatProject'],
['789dsadafj32jj', 'editPage', 'greatProject'],
['oi32ncwosap399', 'editPage', 'greatProject'],
['4r4320dkqpdokk', 'createPage', 'miniProject'],
['320eljl3lk3239', 'editPage', 'miniProject'],
['dsj3239asadsa3', 'editPage', 'miniProject'],
['3203ejew332323', 'createPage', 'private'],
['3203ejew332323', 'editPage', 'private'],
['40m11919332msa', 'createPage', 'private2'],
['40m11919332msa', 'editPage', 'private2'],
['dsj3239asadsa3', 'createPage', 'anotherGreatProject'],
['2r09ej221sk2k5', 'editPage', 'anotherGreatProject'],
],
columns=['userid', 'action', 'project'],
)
本示例的目标是检查两位用户何时在同一页面上进行协作。我们选择为此使用加权邻接矩阵,即一个以用户为行和列索引的表格,只要人们协作,其条目就非零。首先,让我们获取用户并准备一个空矩阵
users = action_dataframe['userid'].unique()
adjacency_matrix = pd.DataFrame(
np.zeros((len(users), len(users)), np.int32),
index=users,
columns=users,
)
然后,让我们逐个遍历所有项目,并添加所有协作
for _project, project_data in action_dataframe.groupby('project'):
project_users = project_data['userid'].values
for i1, user1 in enumerate(project_users):
for user2 in project_users[:i1]:
adjacency_matrix.at[user1, user2] += 1
有许多方法可以实现上述矩阵,所以如果您提出了另一种算法,请不要感到惊讶 ;-) 现在是时候构建图了
g = ig.Graph.Weighted_Adjacency(adjacency_matrix, mode='plus')
我们可以通过绘图函数查看图。我们可以首先制作一个布局
然后我们可以根据顶点与其他顶点的接近程度来准备顶点大小
最后,我们可以绘制该图

循环表示“自我协作”,这没有太大意义。为了在不丢失边权重的情况下过滤掉循环,我们可以使用

脚本总运行时间:(0分钟0.314秒)