脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - Python爬虫必备之Xpath简介及实例讲解

Python爬虫必备之Xpath简介及实例讲解

2022-12-07 11:15梦然网络 Python

xpath是一种在XML文档中定位元素的语言,常用于xml、html文件解析,比css选择器使用方便,下面这篇文章主要给大家介绍了关于Python爬虫必备之Xpath简介及实例的相关资料,需要的朋友可以参考下

前言

网上已经有很多大佬发过Xpath,而且讲的都很好,我是因为刚开始学习网络爬虫,对这些基础重要知识不太了解,所以写一下来加深印象,本篇文章只是简单介绍一下Xpath及使用,总体来说比较基础。

 

一、Xpath简介

XPath(XML Path Language - XML路径语言),它是一种用来确定XML文档中某部分位置的语言。

Xpath以XML为基础,提供用户在数据结构树中寻找节点的能力,Xpath被很多开发者亲切的称为小型查询语言。

 

二、Xpath语法规则

xpath可以使用路径表达式在XML上选取节点,从而达到确认元素的目的,我们先来介绍以下语法规则。

语法规则

表达式 作用
nodename 选取此层级节点下的所有子节点
/ 代表从根节点进行选取
// 可以理解为匹配,就是在所有节点中选取此节点,直到匹配为止
. 选取当前节点
选取当前节点上一层(上一级目录)
@ 选取属性(也是匹配)

标签定位

方式 效果
/html/body/div 表示从根节点开始寻找,标签与标签之间/表示一个层级
/html//div 表示多个层级 作用于两个标签之间(也可以理解为在html下进行匹配寻找标签div)
//div 从任意节点开始寻找,也就是查找所有的div标签
./div 表示从当前的标签开始寻找div

属性定位

需求 格式
定位div中属性名为href,属性值为‘www.baidu.com’的div标签 @属性名=属性值
href为属性名 'www.baidu.com’为属性值 /html/body/div[href=‘www.baidu.com’]

索引定位

需求 格式
定位ul下第二个li标签(下图) //ul/li[2]
索引值开始位置为 1

取文本内容

方法 效果
/text() 获取标签下直系的标签内容
//text() 获取标签中所有的文本内容
string() 获取标签中所有的文本内容

在网页上获取Xpath其实很容易,直接找到标签后,右键复制就好了。

Python爬虫必备之Xpath简介及实例讲解

 

三、语法规则练习

接下来我们开始练习一下本地导入,加深一下理解,这个是一个比较简单的网页结构,我们先学会用法即可。

Python爬虫必备之Xpath简介及实例讲解

任务要求: 可以达到随心所欲的定位每一个元素

准备工作

#导入所需要的包
from lxml import etree
#采用本地源码获取方式并加载到etree内
tree = etree.parse('test.html')

1.获取百度、谷歌、搜狗文本内容

#引用xpath方法并进行标签定位
#''.join是取字符串内的内容
text = ' '.join(tree.xpath('/html/body/ul/li/a/text()'))
print(text)

Python爬虫必备之Xpath简介及实例讲解

2.获取单个谷歌

text1 = tree.xpath("//ul/li[2]/a/text()")[0]
print(text1)

Python爬虫必备之Xpath简介及实例讲解

3.获取北京、上海、天津的属性值

text2 = ' '.join(tree.xpath("//ol/li/a/@href"))
print(text2)

Python爬虫必备之Xpath简介及实例讲解

4.获取河南文本

#获取河南文本
text3 = tree.xpath("/html/body/div[2]/text()")[0]
print(text3)

Python爬虫必备之Xpath简介及实例讲解

5.获取谷歌属性值

text4 = tree.xpath("//ul/li[2]/a/@href")[0]
print(text4)

Python爬虫必备之Xpath简介及实例讲解

至此我们已经可以随心定位任意标签 完成任务 收工

 

总结

到此这篇关于Python爬虫必备之Xpath简介及实例的文章就介绍到这了,更多相关Python爬虫Xpath实例内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://blog.csdn.net/xiaobai729/article/details/124079260

延伸 · 阅读

精彩推荐
  • PythonPython面向对象编程之类的进阶

    Python面向对象编程之类的进阶

    这篇文章主要介绍了Python面向对象编程之类的引用,引用 Reference是对象的指针,引用是内存中真实对象的指针,表示为变量名或者内存地址、每个对象存在...

    一碗周5122022-02-22
  • Python对Python中DataFrame按照行遍历的方法

    对Python中DataFrame按照行遍历的方法

    下面小编就为大家分享一篇对Python中DataFrame按照行遍历的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    勿在浮沙筑高台LS14372021-01-28
  • PythonPyQt5 实现字体大小自适应分辨率的方法

    PyQt5 实现字体大小自适应分辨率的方法

    今天小编就为大家分享一篇PyQt5 实现字体大小自适应分辨率的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    qfxx_csdn11362021-07-14
  • Python利用Python实现自动化监控文件夹完成服务部署

    利用Python实现自动化监控文件夹完成服务部署

    本篇文章将为大家详细介绍如何利用Python语言实现监控文件夹,以此辅助完成服务的部署动作,文中的示例代码讲解详细,感兴趣的可以尝试一下...

    星安果6782022-07-04
  • PythonPython控制台输出俄罗斯方块的方法实例

    Python控制台输出俄罗斯方块的方法实例

    这篇文章主要给大家介绍了关于Python控制台输出俄罗斯方块的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值...

    to_upper9412021-10-14
  • PythonPython可视化Matplotlib介绍和简单图形的绘制

    Python可视化Matplotlib介绍和简单图形的绘制

    这篇文章主要介绍了Python可视化Matplotlib介绍和简单图形的绘制,文中附含详细示例代码,有需要的朋友可以借鉴参考下,希望能够有所帮助...

    Dragon少年9112022-01-12
  • Python使用pandas对两个dataframe进行join的实例

    使用pandas对两个dataframe进行join的实例

    今天小编就为大家分享一篇使用pandas对两个dataframe进行join的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    lsq_0087742021-03-02
  • PythonPytorch中的gather使用方法

    Pytorch中的gather使用方法

    这篇文章主要介绍了Pytorch中的gather使用方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教...

    SY_curry9702021-11-13