Python采集C站高校信息实战示例_Python

前言

大家好，我们今天来爬取c站的高校名单，把其高校名单，成员和内容数获取下来，不过，我们发现这个网站比我们平时多了一个验证，下面看看我是怎么解决的。

功能实现

话不多说，我们和平时一样，发送我们的请求，按照平时，我们看看代码怎么写。

				?

									url = 'https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37'

									headers = {  

									'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}  

									response = requests.get(url=url,headers=headers)

我们在这里使用 requests 库发送 GET 请求，并将 URL 和请求头作为参数传递给 get 方法。请求的 URL 是 https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37，表示查询社区根据标签分类的数据。请求头包含了 User-Agent 和 Accept 字段，分别表示客户端的 User-Agent 和 Accept 协议类型。

不过我们会发现，我们得不到数据，就说明我们被反爬了，我尝试了很多次，我们发现它做了一个验证。

				?

									headers = {  

									'accept': 'application/json, text/plain, */*',  

									'origin': 'https://bbs.csdn.net',  

									'referer': 'https://bbs.csdn.net/college?utm_source=csdn_bbs_toolbar&spm=1035.2022.3001.8850&category=37',  

									'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',  

									'x-ca-key': '203899271',  

									'x-ca-nonce': '13b10c23-6a9b-423e-92a7-b114bc2c7f48',  

									'x-ca-signature': 'Hhnf/RUARDM2jddNAkl2tJ6hpXfweWbY1U4/yh6FCZM=',  

									'x-ca-signature-headers': 'x-ca-key,x-ca-nonce',  

									}

我们这里科普一下，x-ca-signature 是对请求内容的签名，用于验证请求的完整性和可信性。签名通常是通过使用私钥和一种哈希算法（如 SHA256）对请求内容进行计算得到的。如果请求头中出现这三个参数，放心，是为了反爬用的，当然也可以用于限制请求频率，防止恶意攻击。

在解决该反爬问题时，第一步就是要找到他们的加密点。寻找 x-ca-key、x-ca-nonce、x-ca-signature 加密位置这一步主要看你对开发者工具的使用熟练程度了，寻找任意一个携带该请求头参数的请求，然后添加相应断点。通过请求地址中的部分关键字，即可添加 XHR 断点。再次刷新页面，可进入断点中，一般会停留在send()函数位置。下面的步骤就是比较枯燥的了，需要一点点的解密，例如在本函数头部找到headers，发现其参数 x-ca-key、x-ca-nonce、x-ca-signature 已经被赋值。

这里我们没有做多页爬虫，就没有去解密了，感兴趣的朋友自己去尝试。

内容获取

我们拿到了数据，接下来就可以提取内容了，我们看看代码怎么写，这里就很简单了。

									data =responses.json()['data']  

									for list in data:   

									    tagName = list['tagName']  

									    list_url= list['url']  

									    res = requests.get(list_url)  

									    num = re.findall('<div id="codetool">



	我们这里使用 responses.json()['data'] 读取 API 响应 JSON 数据，并在一个数组中提取数据。然后，它使用一个 for 循环遍历数组中的每个元素，提取 tagName 和 url 两个字段，并使用 requests.get() 发送 GET 请求获取数据。最后，它使用正则表达式从响应文本中提取 num 数据，并将其打印到控制台上。

	

	总结

	

	我们这样就获取到了内容，本文仅供学习，更多关于Python采集C站高校信息的资料请关注服务器之家其它相关文章！

	原文链接：https://juejin.cn/post/7228875876616962104

			
					    
			
			
			
				
			
		
		
			
				 
				Python
				
				采集
				
				高校
				
			
			
				
			
		
		
			
				延伸 · 阅读
			
			
				2023-05-06Python文件打开读取写入方法实用案例
2023-05-05Python游戏开发之精灵和精灵组
2023-05-05python 通过SMSActivateAPI 获取验证码的步骤
2023-05-05python-docx的简单使用示例教程
2023-05-05python轻量级性能工具-Locust详解
2023-05-05python实战教程之OCR文字识别方法汇总

			
		
		
		
		
			
				
			
		
		
			
				精彩推荐
			
		
		
			
				
					
				
				Python
				
					Python函数参数匹配模型通用规则keyword-only参数详解
					
						Python3对函数参数的排序规则更加通用化了，即Python3 keyword-only参数，该参数即为必须只按照关键字传递而不会有一个位置参数来填充的参数。这篇文章主要...
					
					
						若数4272021-07-03
					
				
				
Python
				
					python中while和for的区别总结
					
						在本篇内容里小编给大家分享的是关于python中while和for的区别以及相关知识点，需要的朋友们可以学习下。...
					
					
						(*-*)浩4372021-07-26
					
				
				
Python
				
					基于OpenCV4.2实现单目标跟踪
					
						这篇文章主要介绍了如何和何时使用OpenCV 4.2中可用的8种不同的跟踪器- BOOSTING, MIL, KCF, TLD, MEDIANFLOW, GOTURN, MOSSE和CSRT，并用他们实现单目标跟踪，需要的可以...
					
					
						求则得之，舍则失之8382022-10-26
					
				
				
Python
				
					python中response.text 和response.content的区别详解
					
						这篇文章主要介绍了python中response.text 和response.content的区别详解，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教...
					
					
						十八水8542021-11-04
					
				
				
Python
				
					Python的Scrapy爬虫框架简单学习笔记
					
						这篇文章主要介绍了Python的Scrapy爬虫框架简单学习笔记,从基本的创建项目到CrawlSpider的使用等都有涉及,需要的朋友可以参考下...
					
					
						明天以后4202020-08-09
					
				
				
Python
				
					python tensorflow学习之识别单张图片的实现的示例
					
						本篇文章主要介绍了python tensorflow学习之识别单张图片的实现的示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧...
					
					
						我拿buff12892021-01-14
					
				
				
Python
				
					python面向对象编程设计原则之单一职责原则详解
					
						这篇文章主要为大家详细介绍了python面向对象编程设计原则之单一职责原则，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以...
					
					
						dangfulin11832022-10-28
					
				
				
Python
				
					python文件读写操作与linux shell变量命令交互执行的方法
					
						这篇文章主要介绍了python文件读写操作与linux shell变量命令交互执行的方法,涉及对文件操作及Linux shell交互的技巧,需要的朋友可以参考下
...
					
					
						脚本之家4722020-05-18
					
				
				

			
		
	
	
最近更新
Python文件打开读取写入方法实用案例
Python采集C站高校信息实战示例
Python游戏开发之精灵和精灵组
python 通过SMSActivateAPI 获取验证码的步骤
python-docx的简单使用示例教程
编辑推荐
十个好用的Python开发工具（IDE）
 2PyCharm设置SSH远程调试的方法
2021-03-18
 3Python安装图文教程 Pycharm安装教程
2021-01-25
4python是什么意思？python有什么用？
2020-04-03
5使用Python抓取模板之家的CSS模板
2019-12-07
6Python 列表(List)操作方法详解
2019-11-22
阅读排行
1 2020最新pycharm汉化安装（python工程狮亲测有效
2 Pycharm 2020最新永久激活码（附最新激活码和插
3 分享PyCharm最新激活码(真永久激活方法)不用每
 4 python高手之路python处理excel文件(方法汇总)
5 Python sklearn中的.fit与.predict的用法说明
6 Python爬虫中Requests设置请求头Headers的方法
7 python保留小数位的三种实现方法
8 Python中读取图片的6种方式
9 教你如何将Python程序打包成Linux可执行文件
10 使用Python判断质数(素数)的简单方法讲解
热门标签
 2048 　  6006 　  6174 　  SLOTS 　  MELIAE 　  FEEDPARSER 　  暂存 　  持久性管理 　  pickle模块 　  THREADING 　  reduce 　  nignx 　  装饰器 　  函数式编程 　  兔子毒药 　  contextlib 　  监控文件 　  流量监控 　  Web框架 　  PIL库 　  高斯模糊 　  wxPython 　  精灵组 　  自定义模块 　  Python开发 　  元类 　  metaclass 　  魔术方法 　  DNSPod 　  动态解析域名 　 




© 2019-2023 脚本之家 | 服务器之家(www.tuohang.net)旗下站点 版权所有关于我们联系我们版权申明网站地图