Python爬虫自动化爬取b站实时弹幕实例方法_Python

Python爬虫自动化爬取b站实时弹幕实例方法

2021-08-29 10:33宋宋大人 Python

在本篇文章里小编给大家整理的是一篇关于Python爬虫自动化爬取b站实时弹幕实例方法，有兴趣的朋友们可以学习下。

最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱，b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站，那你知道如何爬取b站实时弹幕吗？本文以王冰冰视频弹幕为例，向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。

1、导入需要的库

				?

									import jieba # 分词

									from wordcloud import WordCloud # 词云

									from PIL import Image # 图片处理

									import numpy as np # 图片处理

									import matplotlib.pyplot as plt # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式，

分词代码

				?

									# 读取停用词库,注意编码应为‘utf8'

									f = open('小夜斗的停用词表.txt', encoding='utf8')

									stopwords = f.read().split('\n')

									print(stopwords) # 打印停用词

									f.close() # 关闭停用词文件

3、打印出的为一个停用词列表

				?

									with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:

									text = fp.read()

4、读取冰冰弹幕数据文件的操作，将其保存到text变量中

				?

									segs = jieba.cut(text) # 进行jieba分词

									mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件

									# 文本清洗

									for seg in segs: # 循环遍历每一个分词文本

									  # 如果该词不属于停用词表 并且非空 长度不为1

									  if seg not in stopwords and seg != "" and len(seg) != 1:

									    # 将该词语添加到mytext_list列表中

									    mytext_list.append(seg.replace(" ", ""))

									print(mytext_list) # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

				?

									cloud_text = ",".join(mytext_list) # 连接列表里面的词语

									print(cloud_text)

到此这篇关于Python爬虫自动化爬取b站实时弹幕实例方法的文章就介绍到这了,更多相关Python爬虫如何实现自动化爬取b站实时弹幕内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

原文链接：https://www.py.cn/spider/guide/23296.html

Python爬虫自动化爬取b站实时弹幕实例方法

延伸 · 阅读

Django自带的用户验证系统实现

Python实现敏感词过滤的4种方法

keras.layer.input()用法说明

python访问类中docstring注释的实现方法

分析并输出Python代码依赖的库的实现代码

python中使用smtplib和email模块发送邮件实例

Windows下Python的Django框架环境部署及应用编写入门

pandas将DataFrame的列变成行索引的方法

PyCharm设置SSH远程调试的方法

Python安装图文教程 Pycharm安装教程

python是什么意思？python有什么用？

使用Python抓取模板之家的CSS模板

Python 列表(List)操作方法详解