脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - 利用python实现查看溧阳的摄影圈

利用python实现查看溧阳的摄影圈

2023-02-06 11:03梦想橡皮擦 Python

这篇文章主要介绍了利用python实现查看溧阳的摄影圈,文章基于BeautifulSoup的相关资料展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下

前言:

本篇博客继续学习BeautifulSoup,目标站点选取“溧阳摄影圈”,这一地方论坛。

目标站点分析

本次要采集的目标站点分页规则如下:

?
1
http://www.jsly001.com/thread-htm-fid-45-page-{页码}.html

代码采用多线程 threading 模块+requests 模块+BeautifulSoup 模块编写。

采取规则依据列表页 → 详情页:

利用python实现查看溧阳的摄影圈

溧阳摄影圈图片采集代码

本案例属于实操案例,先展示完整代码,然后基于注释与重点函数进行说明。

主要实现步骤如下所示:

  • 设置日志输出级别
  • 声明一个 LiYang 类,其继承自 threading.Thread
  • 实例化多线程对象
  • 每个线程都去获取全局资源
  • 调用html解析函数
  • 获取板块主题分割区域,主要为防止获取置顶的主题
  • 使用 lxml 进行解析
  • 解析出标题与数据
  • 解析图片地址
  • 保存图片
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
import random
import threading
import logging
from bs4 import BeautifulSoup
import requests
import lxml
logging.basicConfig(level=logging.NOTSET) # 设置日志输出级别
# 声明一个 LiYang 类,其继承自 threading.Thread
class LiYangThread(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self) # 实例化多线程对象
        self._headers = self._get_headers() # 随机获取 ua
        self._timeout = 5 # 设置超时时间
 
    # 每个线程都去获取全局资源
    def run(self):
        # while True: # 此处为多线程开启位置
        try:
            res = requests.get(url="http://www.jsly001.com/thread-htm-fid-45-page-1.html", headers=self._headers,
                               timeout=self._timeout) # 测试获取第一页数据
        except Exception as e:
            logging.error(e)
        if res is not None:
            html_text = res.text
            self._format_html(html_text) # 调用html解析函数
 
    def _format_html(self, html):
        # 使用 lxml 进行解析
        soup = BeautifulSoup(html, 'lxml')
 
        # 获取板块主题分割区域,主要为防止获取置顶的主题
        part_tr = soup.find(attrs={'class': 'bbs_tr4'})
 
        if part_tr is not None:
            items = part_tr.find_all_next(attrs={"name": "readlink"}) # 获取详情页地址
        else:
            items = soup.find_all(attrs={"name": "readlink"})
        # 解析出标题与数据
        data = [(item.text, f'http://www.jsly001.com/{item["href"]}') for item in items]
        # 进入标题内页
        for name, url in data:
            self._get_imgs(name, url)
 
    def _get_imgs(self, name, url):
        """解析图片地址"""
        try:
            res = requests.get(url=url, headers=self._headers, timeout=self._timeout)
        except Exception as e:
            logging.error(e)
        # 图片提取逻辑
        if res is not None:
            soup = BeautifulSoup(res.text, 'lxml')
            origin_div1 = soup.find(attrs={'class': 'tpc_content'})
            origin_div2 = soup.find(attrs={'class': 'imgList'})
            content = origin_div2 if origin_div2 else origin_div1
 
            if content is not None:
                imgs = content.find_all('img')
 
                # print([img.get("src") for img in imgs])
                self._save_img(name, imgs) # 保存图片
    def _save_img(self, name, imgs):
        """保存图片"""
        for img in imgs:
            url = img.get("src")
            if url.find('http') < 0:
                continue
            # 寻找父标签中的 id 属性
            id_ = img.find_parent('span').get("id")
 
            try:
                res = requests.get(url=url, headers=self._headers, timeout=self._timeout)
            except Exception as e:
                logging.error(e)
 
            if res is not None:
                name = name.replace("/", "_")
                with open(f'./imgs/{name}_{id_}.jpg', "wb+") as f: # 注意在 python 运行时目录提前创建 imgs 文件夹
                    f.write(res.content)
    def _get_headers(self):
        uas = [
            "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
        ]
        ua = random.choice(uas)
        headers = {
            "user-agent": ua
        }
        return headers
if __name__ == '__main__':
    my_thread = LiYangThread()
    my_thread.run()

本次案例采用中,BeautifulSoup 模块采用 lxml 解析器 对 HTML 数据进行解析,后续多采用此解析器,在使用前注意先导入 lxml 模块。

数据提取部分采用 soup.find() 与 soup.find_all() 两个函数进行,代码中还使用了 find_parent() 函数,用于采集父级标签中的 id 属性。

?
1
2
# 寻找父标签中的 id 属性
id_ = img.find_parent('span').get("id")

代码运行过程出现 DEBUG 信息,控制 logging 日志输出级别即可。![用python看溧阳摄影圈,里面照片非常真

到此这篇关于利用python实现查看溧阳的摄影圈的文章就介绍到这了,更多相关python查看摄影圈内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://juejin.cn/post/7079963621077286925

延伸 · 阅读

精彩推荐
  • Python深入理解PyTorch中的nn.Embedding的使用

    深入理解PyTorch中的nn.Embedding的使用

    本文主要介绍了PyTorch中的nn.Embedding的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小...

    aelum10882022-07-04
  • PythonPython中Pyenv virtualenv插件的使用

    Python中Pyenv virtualenv插件的使用

    pyenv是管理python版本的工具。安装pyenv后,可以管理各种python版本,并且各个版本的环境完全独立,互不干扰。今天通过本文给大家分享Python中Pyenv virtuale...

    风烟倦9472021-11-25
  • Python如何解决pycharm调试报错的问题

    如何解决pycharm调试报错的问题

    在本篇内容里小编给大家整理的是一篇关于如何解决pycharm调试报错的问题文章,需要的朋友们可以学习参考下。 ...

    FXL13422020-08-06
  • Pythonpython实现定时压缩指定文件夹发送邮件

    python实现定时压缩指定文件夹发送邮件

    这篇文章主要为大家详细介绍了python实现定时压缩指定文件夹发送邮件,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考...

    madaokuma8842021-06-22
  • PythonPython详解如何动态给对象增加属性和方法

    Python详解如何动态给对象增加属性和方法

    python是动态语⾔,动态编程语⾔是⾼级程序设计语⾔的⼀个类别,在计算机科学领域已被⼴泛应⽤。它是⼀类在 运⾏时可以改变其结构 的语⾔ :例如新的...

    Flyme awei5802022-07-21
  • PythonPython基础练习之用户登录实现代码分享

    Python基础练习之用户登录实现代码分享

    这篇文章主要介绍了Python基础练习之用户登录实现代码分享,还是比较不错的,这里分享给大家,供需要的朋友参考。...

    Bigberg5212020-12-16
  • Pythonmatplotlib 范围选区(SpanSelector)的使用

    matplotlib 范围选区(SpanSelector)的使用

    这篇文章主要介绍了matplotlib 范围选区(SpanSelector)的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友...

    mighty139252021-09-09
  • PythonPython实现猜拳与猜数字游戏的方法详解

    Python实现猜拳与猜数字游戏的方法详解

    本文将为大家介绍两个用Python语言实现的小案例:猜拳游戏与数字猜猜猜小游戏,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下...

    渴望力量的哈士奇7222022-11-23