脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - Python实现采集网站ip代理并检测是否可用

Python实现采集网站ip代理并检测是否可用

2022-08-31 10:20松鼠爱吃饼干 Python

这篇文章主要介绍了如何利用Python爬虫实现采集网站ip代理,并检测IP代理是否可用。文中的示例代码讲解详细,感兴趣的可以试一试

开发环境

Python 3.8

Pycharm

模块使用

requests >>> pip install requests

parsel >>> pip install parsel

代理ip结构

?
1
2
3
4
proxies_dict = {
    "http": "http://" + ip:端口,
    "https": "http://" + ip:端口,
}

代码实现步骤

1. 导入模块

?
1
2
3
4
5
6
# 导入数据请求模块
import requests  # 数据请求模块 第三方模块 pip install requests
# 导入 正则表达式模块
import re  # 内置模块
# 导入数据解析模块
import parsel  # 数据解析模块 第三方模块 pip install parsel  >>> 这个是scrapy框架核心组件

2. 发送请求

对于目标网址发送请求 https://www.kuaidaili.com/free/

?
1
2
3
url = f'https://www.kuaidaili.com/free/inha/{page}/'  # 确定请求url地址
# 用requests模块里面get 方法 对于url地址发送请求, 最后用response变量接收返回数据
response = requests.get(url)

3. 获取数据

获取服务器返回响应数据(网页源代码)

?
1
print(response.text)

4. 解析数据

提取我们想要的数据内容

解析数据方式方法:

  • 正则: 可以直接提取字符串数据内容
  • xpath: 根据标签节点 提取数据内容
  • css选择器: 根据标签属性提取数据内容

哪一种方面用那种, 那是喜欢用那种

正则表达式提取数据内容

正则提取数据 re.findall() 调用模块里面的方法

正则 遇事不决 .*? 可以匹配任意字符(除了换行符\n以外) re.S

?
1
2
3
4
ip_list = re.findall('<td data-title="IP">(.*?)</td>', response.text, re.S)
port_list = re.findall('<td data-title="PORT">(.*?)</td>', response.text, re.S)
print(ip_list)
print(port_list)

css选择器

css选择器提取数据 需要把获取下来html字符串数据(response.text) 进行转换

?
1
2
3
4
5
6
7
# #list > table > tbody > tr > td:nth-child(1)
# //*[@id="list"]/table/tbody/tr/td[1]
selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
ip_list = selector.css('#list tbody tr td:nth-child(1)::text').getall()
port_list = selector.css('#list tbody tr td:nth-child(2)::text').getall()
print(ip_list)
print(port_list)

xpath 提取数据

?
1
2
3
selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
ip_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[1]/text()').getall()
port_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[2]/text()').getall()

提取ip

?
1
2
3
4
5
6
7
8
for ip, port in zip(ip_list, port_list):
    # print(ip, port)
    proxy = ip + ':' + port
    proxies_dict = {
        "http": "http://" + proxy,
        "https": "http://" + proxy,
    }
    print(proxies_dict)

Python实现采集网站ip代理并检测是否可用

5. 检测ip质量

?
1
2
3
4
5
6
7
8
9
10
11
12
try:
    response = requests.get(url=url, proxies=proxies_dict, timeout=1)
    if response.status_code == 200:
        print('当前代理IP: ', proxies_dict,  '可以使用')
        lis_1.append(proxies_dict)
except:
    print('当前代理IP: ', proxies_dict,  '请求超时, 检测不合格')
 
 
print('获取的代理IP数量: ', len(lis))
print('获取可用的IP代理数量: ', len(lis_1))
print('获取可用的IP代理: ', lis_1)

Python实现采集网站ip代理并检测是否可用

总共爬取了150个,最后测试出只有一个是能用的,所以还是付费的好

到此这篇关于Python实现采集网站ip代理并检测是否可用的文章就介绍到这了,更多相关Python采集网站ip代理内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://www.cnblogs.com/qshhl/p/15834836.html

延伸 · 阅读

精彩推荐
  • Python利用Python爬取微博数据生成词云图片实例代码

    利用Python爬取微博数据生成词云图片实例代码

    这篇文章主要给大家介绍了关于利用Python爬取微博数据生成词云图片的相关资料,文中通过示例代码介绍非常详细,对大家学习或者使用python具有一定的参...

    FOOFISH2702020-12-05
  • Pythonpython动态网页批量爬取

    python动态网页批量爬取

    这篇文章主要介绍了python动态网页批量爬取的方法,主要针对四六级成绩批量爬取,感兴趣的小伙伴们可以参考一下 ...

    Python教程网4872020-08-12
  • Pythonpython,Django实现的淘宝客登录功能示例

    python,Django实现的淘宝客登录功能示例

    这篇文章主要介绍了python,Django实现的淘宝客登录功能,结合实例形式分析了Django框架基于淘宝接口的登录功能相关操作技巧,需要的朋友可以参考下...

    轻舞肥羊6912021-07-11
  • PythonPython Pandas高级教程之时间处理

    Python Pandas高级教程之时间处理

    我们发现关于时间日期的简单计算很多功能都是datetime库提供的,那么pandas有没有提供跟日期时间有关的函数,通过下面文章来了解下,这篇文章主要给大家介...

    程序那些事10642022-01-22
  • Python如何搭建pytorch环境的方法步骤

    如何搭建pytorch环境的方法步骤

    这篇文章主要介绍了如何搭建pytorch环境的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下...

    王延凯的博客3792021-12-29
  • Python浅谈python和C语言混编的几种方式(推荐)

    浅谈python和C语言混编的几种方式(推荐)

    下面小编就为大家带来一篇浅谈python和C语言混编的几种方式(推荐)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    窗户2212020-12-10
  • Pythonpython 自动化将markdown文件转成html文件的方法

    python 自动化将markdown文件转成html文件的方法

    这篇文章主要介绍了python 自动化将markdown文件转成html文件的方法的相关资料,本文介绍的非常详细,具有参考借鉴价值,需要的朋友可以参考下...

    Ron Ngai6882020-09-09
  • Python一篇文章带你弄懂Python基础之列表相关操作和嵌套

    一篇文章带你弄懂Python基础之列表相关操作和嵌套

    本文详细的讲解了Python基础 ,介绍了常见的列表操作,以及在实际操作中会遇到的问题,提供了解决方案。最后通过一个小项目,使读者能够更好的理解...

    Go语言进阶学习6322021-06-23