服务器之家:专注于VPS、云服务器配置技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - 编程技术 - 如何替换URL中的Query字段?

如何替换URL中的Query字段?

2021-08-31 22:00未闻Codekingname 编程技术

由于ParseResult对象的.query属性是只读属性,不能覆盖,因此我们需要调用一个内部方法._replace把新的.query字段替换上去,生成新的 ParseResult对象。最后再把它转回网址。

 如何替换URL中的Query字段?

在我们写爬虫的时候,可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码:

  1. import re 
  2. current_url = 'https://www.kingname.info/archives/page/2/' 
  3. current_page = re.search('/(\d+)', current_url).group(1) 
  4. next_page = int(current_page) + 1 
  5. next_url = re.sub('\d+', str(next_page), current_url) 
  6. make_request(next_url) 

运行效果如下图所示:

如何替换URL中的Query字段?

但有时候,翻页参数不一定是数字。例如有些网站,访问一个URL:https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD

当你访问这个url的时候,它返回的是一个JSON字符串,并且这个JSON里面,有如下字段:

  1. ... 
  2. "paging": { 
  3.         "cursors": { 
  4.             "before""MTA3NDU0NDExNDEzNTgz"
  5.             "after""MTE4OTc5MjU0NDQ4NTkwMgZDZD" 
  6.         }, 
  7.          
  8.     } 
  9. ... 

这种情况多见于信息流网站。它只能无限下滑看下一页,不能直接通过页数跳页。每次请求的时候返回下一页的参数after。当要访问下一页的时候,用这个参数替换当前url中的after=后面的参数。

这样一来,替换url中的参数就并不是一件简单的事情了。因为网址可能有4种情况:

  • 第一页,没有after参数:https://xxx.com/articlelist?category=technology
  • 第一页,有after参数名但没有值:https://xxx.com/articlelist?category=technology&after=
  • 后续页面,after参数值后面没有内容: https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD
  • 后续页面,aster参数值后面有内容:https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc

大家可以试一试,如果用正则表达式,怎么覆盖这4种情况,生成下一页的网址。

实际上,我们不需要使用正则表达式。Python自带的urllib模块已经提供了解决这个问题的方案了。我们先来看一段代码:

  1. from urllib.parse import urlparse, urlunparse, parse_qs, urlencode 
  2.  
  3.  
  4. def replace_field(url, name, value): 
  5.     parse = urlparse(url) 
  6.     query = parse.query 
  7.     query_pair = parse_qs(query) 
  8.     query_pair[name] = value 
  9.     new_query = urlencode(query_pair, doseq=True
  10.     new_parse = parse._replace(query=new_query) 
  11.     next_page = urlunparse(new_parse) 
  12.     return next_page 
  13.  
  14. url_list = [ 
  15.     'https://xxx.com/articlelist?category=technology'
  16.     'https://xxx.com/articlelist?category=technology&after='
  17.     'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD'
  18.     'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc' 
  19.  
  20. for url in url_list: 
  21.     next_page = replace_field(url, 'after''0000000'
  22.     print(next_page) 

运行效果如下图所示:

如何替换URL中的Query字段?

从图中可以看到,这4种情况,都可以被我们成功添加下一页的参数after= 0000000。不用再去考虑正则表达式怎么适配所有情况。

其中urlparse 和urlunparse 是一对相反函数,前者把网址转成 ParseResult 对象,后者把ParseResult对象转回网址字符串。

如何替换URL中的Query字段?

ParseResult 对象的.query 属性,是一个字符串,也就是网址中,问号后面的内容,格式如下:

如何替换URL中的Query字段?

parse_qs与urlencode也是一对相反函数。其中前者把 .query输出的字符串转成字典,而后者把字段转成.query形式的字符串:

如何替换URL中的Query字段?

当使用parse_qs把 query转成字典以后,就可以修改参数的值,然后再重新转回去。

由于ParseResult对象的.query属性是只读属性,不能覆盖,因此我们需要调用一个内部方法._replace把新的.query字段替换上去,生成新的 ParseResult对象。最后再把它转回网址。

以上,就是今天我们介绍的,如何使用urllib自带的函数替换网址中的字段。

原文链接:https://mp.weixin.qq.com/s/ZwA9ZDBAuJopJXvCZIlxCw

延伸 · 阅读

精彩推荐
  • 编程技术从Context源码实现谈React性能优化

    从Context源码实现谈React性能优化

    这篇文章主要介绍Context的实现原理,源码层面掌握React组件的render时机,从而写出高性能的React组件,源码层面了解shouldComponentUpdate、React.memo、PureComponen...

    魔术师卡颂5312020-12-20
  • 编程技术简单、好懂的Svelte实现原理

    简单、好懂的Svelte实现原理

    本文会围绕一张流程图和两个Demo讲解,正确的食用方式是用电脑打开本文,跟着流程图、Demo一边看、一边敲、一边学...

    魔术师卡颂4822021-11-10
  • 编程技术Delphi - Indy idMessage和idSMTP实现邮件的发送

    Delphi - Indy idMessage和idSMTP实现邮件的发送

    这篇文章主要介绍了Delphi - Indy idMessage和idSMTP实现邮件的发送,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下...

    JJ_JeremyWu6592020-09-22
  • 编程技术让开发效率倍增的 VS Code 插件

    让开发效率倍增的 VS Code 插件

    今天来分享一些提升开发效率的实用 VS Code 插件!Better Comments 扩展可以帮助我们在代码中创建更人性化的注释,有不同形式和颜色的注释供我们选择。 ...

    前端充电宝7132022-04-21
  • 编程技术2021年值得关注的React PDF 库

    2021年值得关注的React PDF 库

    今天,许多网络应用程序为其用户提供内置的PDF浏览选项。然而,选择一个并不容易,因为它们的功能远远超过显示PDF。在这篇文章中,我将评估5个React的...

    TianTianUp5232021-06-21
  • 编程技术用户态 Tcpdump 如何实现抓到内核网络包的?

    用户态 Tcpdump 如何实现抓到内核网络包的?

    在网络包的发送和接收过程中,绝大部分的工作都是在内核态完成的。那么问题来了,我们常用的运行在用户态的程序 tcpdump 是那如何实现抓到内核态的包...

    开发内功修炼11612021-09-08
  • 编程技术真正聪明的程序员,总有办法不加班

    真正聪明的程序员,总有办法不加班

    工作效率提升了,就可以少加班了,聪明的程序员,总会有一堆可以提升编码效率的工具?当一种工具满足不了工作需求,就去探索新的,今天纬小创就给...

    今日头条12482021-03-04
  • 编程技术AIOps,SRE工程师手中的利器

    AIOps,SRE工程师手中的利器

    AIOps开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳...

    至顶网5972021-03-08