脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - 利用Python将社交网络进行可视化

利用Python将社交网络进行可视化

2023-02-24 11:57Python编程学习圈 Python

这篇文章介绍了利用Python将社交网络进行可视化,主要是一些Python的第三方库来进行社交网络的可视化,利用领英(Linkedin)的社交关系数据展开介绍,内容可当学习练习题有一定的参考价值,需要的小伙伴可以参考一下

前言:

我们平常会使用很多社交媒体,如微信、微博、抖音等等,在这些平台上面,我们会关注某些KOL,同时自己身边的亲朋好友也会来关注我们,成为我们自己的粉丝。慢慢地,关注和粉丝随着时间不断累积,这层关系网络也会不断地壮大,很多信息也是通过这样的关系网络不断向外传播。因此,分析这些社交网络对于我们做出各项决策来说也是至关重要的。

今天我们就用一些Python的第三方库来进行社交网络的可视化

利用Python将社交网络进行可视化

 

数据来源

本案例用的数据是来自领英(Linkedin)的社交关系数据。由于作者之前在美国读书,并且在国外找实习、找工作,都是通过领英投递简历、联系同事等,久而久之也逐渐地形成了自己的社交网络,将这部分的社交数据下载下来,然后用pandas模块读取

利用Python将社交网络进行可视化

由于涉及隐私信息,数据就不便提供了。如果你有领英账号,可以通过设置里的“获取资料副本”导出这样一份CSV关系数据。或者也可以按照这个表头自己生成一份假数据:

利用Python将社交网络进行可视化

 

数据的读取和清洗

首先导入需要用到的模块:

import pandas as pd
import janitor
import datetime

from IPython.core.display import display, HTML
from pyvis import network as net
import networkx as nx

读取所需要用到的数据集:

df_ori = pd.read_csv("Connections.csv", skiprows=3)
df_ori.head()

接下来我们进行数据的清洗,具体的思路就是将空值去除掉,并且数据集当中的“Connected on”这一列,内容是日期,但是数据类型却是字符串,因此我们也需要将其变成日期格式。

df = (
    df_ori
    .clean_names() # 去除掉字符串中的空格以及大写变成小写
    .drop(columns=['first_name', 'last_name', 'email_address']) # 去除掉这三列
    .dropna(subset=['company', 'position']) # 去除掉company和position这两列当中的空值
    .to_datetime('connected_on', format='%d %b %Y')
  )

输出:

companypositionconnected_on
0xxxxxxxxxxTalentAcquisition2021-08-15
1xxxxxxxxxxxxAssociatePartner2021-08-14
2xxxxx猎头顾问2021-08-14
3xxxxxxxxxxxxxxxxxxxxxxxxxConsultant2021-07-26
4xxxxxxxxxxxxxxxxxxxxxxAccountManager2021-07-19

 

数据的分析与可视化

来看一下这些人脉中,分别都是在哪些公司工作的

df['company'].value_counts().head(10).plot(kind="barh").invert_yaxis()

输出:

利用Python将社交网络进行可视化

再来看一下我的人脉网络中,大多都是什么职业的

df['position'].value_counts().head(10).plot(kind="barh").invert_yaxis()

输出:

利用Python将社交网络进行可视化

接下来我们绘制社交网络的可视化图表。但是在这之前呢,需要先说明几个术语,每一个社交网络都包含:

  • 节点:社交网络当中的每个参与者
  • 边:代表着每一个参与者的关系以及关系的紧密程度

我们先来简单的绘制一个社交网络,主要用到的是networkx模块以及pyvis模块,

g = nx.Graph()
g.add_node(0, label = "root") # intialize yourself as central node
g.add_node(1, label = "Company 1", size=10, title="info1")
g.add_node(2, label = "Company 2", size=40, title="info2")
g.add_node(3, label = "Company 3", size=60, title="info3")

我们先是建立了4个节点,也分别给他们命名,其中的参数size代表着节点的大小,然后我们将这些个节点相连接

g.add_edge(0, 1)
g.add_edge(0, 2)
g.add_edge(0, 3)

最后出来的样子如下图:

利用Python将社交网络进行可视化

我们先从人脉中,他们所属的公司来进行网络的可视化,首先我们对所属的公司做一个统计排序

df_company = df['company'].value_counts().reset_index()
df_company.columns = ['company', 'count']
df_company = df_company.sort_values(by="count", ascending=False)
df_company.head(10)

输出:

companycount
0Amazonxx
1Googlexx
2Facebookxx
3StevensInstituteofTechnologyxx
4Microsoftxx
5JPMorganChase&Co.xx
6AmazonWebServices(AWS)xx
9Applex
10GoldmanSachsx
8Oraclex

然后我们来绘制社交网络的图表:

# 实例化网络
g = nx.Graph()
g.add_node('myself') # 将自己放置在网络的中心

# 遍历数据集当中的每一行
for _, row in df_company_reduced.iterrows():

    # 将公司名和统计结果赋值给新的变量
    company = row['company']
    count = row['count']

    title = f"<b>{company}</b> – {count}"
    positions = set([x for x in df[company == df['company']]['position']])
    positions = ''.join('<li>{}</li>'.format(x) for x in positions)

    position_list = f"<ul>{positions}</ul>"
    hover_info = title + position_list

    g.add_node(company, size=count*2, title=hover_info, color='#3449eb')
    g.add_edge('root', company, color='grey')

# 生成网络图表
nt = net.Network(height='700px', width='700px', bgcolor="black", font_color='white')
nt.from_nx(g)
nt.hrepulsion()

nt.show('company_graph.html')
display(HTML('company_graph.html'))

输出:

利用Python将社交网络进行可视化

同样,我们再来可视化一下人脉中各种岗位的分布。

先做一个统计排序:

df_position = df['position'].value_counts().reset_index()
df_position.columns = ['position', 'count']
df_position = df_position.sort_values(by="count", ascending=False)
df_position.head(10)

输出:

positioncount
0SoftwareEngineerxx
1DataScientistxx
2SeniorSoftwareEngineerxx
3DataAnalystxx
4SeniorDataScientistxx
5SoftwareDevelopmentEngineerxx
6SoftwareDevelopmentEngineerIIxx
7Founderxx
8DataEngineerxx
9BusinessAnalystxx

然后进行网络图的绘制

g = nx.Graph()
g.add_node('myself') # 将自己放置在网络的中心

for _, row in df_position_reduced.iterrows():

    # 将岗位名和统计结果赋值给新的变量
    position = row['position']
    count = row['count']

    title = f"<b>{position}</b> – {count}"
    positions = set([x for x in df[position == df['position']]['position']])
    positions = ''.join('<li>{}</li>'.format(x) for x in positions)

    position_list = f"<ul>{positions}</ul>"
    hover_info = title + position_list

    g.add_node(position, size=count*2, title=hover_info, color='#3449eb')
    g.add_edge('root', position, color='grey')

# 生成网络图表
nt = net.Network(height='700px', width='700px', bgcolor="black", font_color='white')
nt.from_nx(g)
nt.hrepulsion()
nt.show('position_graph.html')

输出:

利用Python将社交网络进行可视化

到此这篇关于利用Python将社交网络进行可视化的文章就介绍到这了,更多相关 Python 可视化 内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://juejin.cn/post/7103725431727063053

延伸 · 阅读

精彩推荐
  • PythonPython单元测试的9个技巧

    Python单元测试的9个技巧

    这篇文章主要给大家分享的是Python单元测试常见的几个技巧,文章会讲解requests的一些细节实现以及pytest的使用等,感兴趣的小伙伴不妨和小编一起阅读下...

    肖恩6602022-01-13
  • Pythonpython实现随机漫步方法和原理

    python实现随机漫步方法和原理

    在本篇文章里小编给大家整理了关于python如何实现随机漫步的相关知识点内容,需要的朋友们学习下。...

    Python教程网5642021-07-03
  • PythonPython全栈之学习CSS(2)

    Python全栈之学习CSS(2)

    这篇文章主要为大家介绍了Python全栈之CSS,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助...

    熬夜泡枸杞5192022-09-01
  • Pythonpython简单线程和协程学习心得(分享)

    python简单线程和协程学习心得(分享)

    下面小编就为大家带来一篇python简单线程和协程学习心得(分享)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    Python教程网4402020-11-18
  • Pythonpython 缺失值处理的方法(Imputation)

    python 缺失值处理的方法(Imputation)

    这篇文章主要介绍了python 缺失值处理的方法(Imputation),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋...

    飞飞飞鸟不会飞12952021-07-28
  • PythonPython 随机生成中文验证码的实例代码

    Python 随机生成中文验证码的实例代码

    Python 随机生成中文验证码的实例代码,需要的朋友可以参考一下...

    Python教程网3332020-12-20
  • PythonDjango项目连接MongoDB的三种方法

    Django项目连接MongoDB的三种方法

    本文主要介绍了Django项目连接MongoDB的三种方法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    雪中鱼014582022-01-12
  • PythonPython中__init__.py文件的作用详解

    Python中__init__.py文件的作用详解

    __init__.py 文件的作用是将文件夹变为一个Python模块,Python 中的每个模块的包中,都有__init__.py 文件.这篇文章主要介绍了Python中__init__.py文件的作用详解,非常...

    Data&Truth24862020-09-08