脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - python 协程并发数控制

python 协程并发数控制

2023-01-28 14:04梦想橡皮擦 Python

这篇文章主要介绍了python 协程并发数控制,文章基于python的相关资料展开对主题烦人详细内容介绍,需要的小伙伴可以参考一下

前言:

本篇博客要采集的站点:【看历史,通天下-历史剧网】

目标数据是该站点下的热门历史事件,列表页分页规则如下所示:

?
1
2
3
http://www.lishiju.net/hotevents/p0
http://www.lishiju.net/hotevents/p1
http://www.lishiju.net/hotevents/p2

首先我们通过普通的多线程,对该数据进行采集,由于本文主要目的是学习如何控制并发数,所以每页仅输出历史事件的标题内容。

普通的多线程代码:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import threading
import time
import requests
from bs4 import BeautifulSoup
class MyThread(threading.Thread):
    def __init__(self, url):
        threading.Thread.__init__(self)
        self.__url = url
    def run(self):
        res = requests.get(url=self.__url)
        soup = BeautifulSoup(res.text, 'html.parser')
        title_tags = soup.find_all(attrs={'class': 'item-title'})
        event_names = [item.a.text for item in title_tags]
        print(event_names)
        print("")
if __name__ == "__main__":
    start_time = time.perf_counter()
    threads = []
    for i in range(111):  # 创建了110个线程。
        threads.append(MyThread(url="http://www.lishiju.net/hotevents/p{}".format(i)))
    for t in threads:
        t.start()  # 启动了110个线程。
    for t in threads:
        t.join()  # 等待线程结束
    print("累计耗时:", time.perf_counter() - start_time)
    # 累计耗时: 1.537718624

上述代码同时开启所有线程,累计耗时 1.5 秒,程序采集结束。

多线程之信号量

python 信号量(Semaphore)用来控制线程并发数,信号量管理一个内置的计数器。 信号量对象每次调用其 acquire()方法时,信号量计数器执行 -1 操作,调用 release()方法,计数器执行 +1 操作,当计数器等于 0 时,acquire()方法会阻塞线程,一直等到其它线程调用 release()后,计数器重新 +1,线程的阻塞才会解除。

使用 threading.Semaphore()创建一个信号量对象。

修改上述并发代码:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
import threading
import time
import requests
from bs4 import BeautifulSoup
class MyThread(threading.Thread):
    def __init__(self, url):
        threading.Thread.__init__(self)
        self.__url = url
    def run(self):
        if semaphore.acquire():  # 计数器 -1
            print("正在采集:", self.__url)
            res = requests.get(url=self.__url)
            soup = BeautifulSoup(res.text, 'html.parser')
            title_tags = soup.find_all(attrs={'class': 'item-title'})
            event_names = [item.a.text for item in title_tags]
            print(event_names)
            print("")
            semaphore.release()  # 计数器 +1
if __name__ == "__main__":
    semaphore = threading.Semaphore(5# 控制每次最多执行 5 个线程
    start_time = time.perf_counter()
    threads = []
    for i in range(111):  # 创建了110个线程。
        threads.append(MyThread(url="http://www.lishiju.net/hotevents/p{}".format(i)))
    for t in threads:
        t.start()  # 启动了110个线程。
    for t in threads:
        t.join()  # 等待线程结束
    print("累计耗时:", time.perf_counter() - start_time)
    # 累计耗时: 2.8005530640000003

当控制并发线程数量之后,累计耗时变多。

补充知识点之 GIL:

GIL是 python 里面的全局解释器锁(互斥锁),在同一进程,同一时间下,只能运行一个线程,这就导致了同一个进程下多个线程,只能实现并发而不能实现并行

需要注意 python 语言并没有全局解释锁,只是因为历史的原因,在 CPython解析器中,无法移除 GIL,所以使用 CPython解析器,是会受到互斥锁影响的。

还有一点是在编写爬虫程序时,多线程比单线程性能是有所提升的,因为遇到 I/O 阻塞会自动释放 GIL锁。

协程中使用信号量控制并发

下面将信号量管理并发数,应用到协程代码中,在正式编写前,使用协程写法重构上述代码。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import time
import asyncio
import aiohttp
from bs4 import BeautifulSoup
async def get_title(url):
    print("正在采集:", url)
    async with aiohttp.request('GET', url) as res:
        html = await res.text()
        soup = BeautifulSoup(html, 'html.parser')
        title_tags = soup.find_all(attrs={'class': 'item-title'})
        event_names = [item.a.text for item in title_tags]
        print(event_names)
async def main():
    tasks = [asyncio.ensure_future(get_title("http://www.lishiju.net/hotevents/p{}".format(i))) for i in range(111)]
    dones, pendings = await asyncio.wait(tasks)
    # for task in dones:
    #     print(len(task.result()))
if __name__ == '__main__':
    start_time = time.perf_counter()
    asyncio.run(main())
    print("代码运行时间为:", time.perf_counter() - start_time)
    # 代码运行时间为: 1.6422313430000002

代码一次性并发 110 个协程,耗时 1.6 秒执行完毕,接下来就对上述代码,增加信号量管理代码。

核心代码是 semaphore = asyncio.Semaphore(10),控制事件循环中并发的协程数量。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import time
import asyncio
import aiohttp
from bs4 import BeautifulSoup
async def get_title(semaphore, url):
    async with semaphore:
        print("正在采集:", url)
        async with aiohttp.request('GET', url) as res:
            html = await res.text()
            soup = BeautifulSoup(html, 'html.parser')
            title_tags = soup.find_all(attrs={'class': 'item-title'})
            event_names = [item.a.text for item in title_tags]
            print(event_names)
async def main():
    semaphore = asyncio.Semaphore(10# 控制每次最多执行 10 个线程
    tasks = [asyncio.ensure_future(get_title(semaphore, "http://www.lishiju.net/hotevents/p{}".format(i))) for i in
             range(111)]
    dones, pendings = await asyncio.wait(tasks)
    # for task in dones:
    #     print(len(task.result()))
if __name__ == '__main__':
    start_time = time.perf_counter()
    asyncio.run(main())
    print("代码运行时间为:", time.perf_counter() - start_time)
    # 代码运行时间为: 2.227831242

aiohttp 中 TCPConnector 连接池

既然上述代码已经用到了 aiohttp 模块,该模块下通过限制同时连接数,也可以控制线程并发数量,不过这个不是很好验证,所以从数据上进行验证,先设置控制并发数为 2,测试代码运行时间为 5.56 秒,然后修改并发数为 10,得到的时间为 1.4 秒,与协程信号量控制并发数得到的时间一致。所以使用 TCPConnector 连接池控制并发数也是有效的。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import time
import asyncio
import aiohttp
from bs4 import BeautifulSoup
async def get_title(session, url):
    async with session.get(url) as res:
        print("正在采集:", url)
        html = await res.text()
        soup = BeautifulSoup(html, 'html.parser')
        title_tags = soup.find_all(attrs={'class': 'item-title'})
        event_names = [item.a.text for item in title_tags]
        print(event_names)
async def main():
    connector = aiohttp.TCPConnector(limit=1# 限制同时连接数
    async with aiohttp.ClientSession(connector=connector) as session:
        tasks = [asyncio.ensure_future(get_title(session, "http://www.lishiju.net/hotevents/p{}".format(i))) for i in
                 range(111)]
        await asyncio.wait(tasks)
if __name__ == '__main__':
    start_time = time.perf_counter()
    asyncio.run(main())
    print("代码运行时间为:", time.perf_counter() - start_time)

到此这篇关于python 协程并发数控制的文章就介绍到这了,更多相关python 协程内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://juejin.cn/post/7068824518902906916

延伸 · 阅读

精彩推荐
  • Pythonpython基础之Numpy库中array用法总结

    python基础之Numpy库中array用法总结

    NumPy(Numerical Python的缩写)是一个开源的Python科学计算库,使用NumPy就可以很自然地使用数组和矩阵,这篇文章主要给大家介绍了关于python基础之Numpy库中arr...

    Lesley_驰骋沙场11172021-12-25
  • PythonPycharm新手使用教程(图文详解)

    Pycharm新手使用教程(图文详解)

    这篇文章主要介绍了Pycharm新手使用教程(图文详解),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下...

    泰斗贤若如32092020-09-17
  • PythonDjango自定义用户认证示例详解

    Django自定义用户认证示例详解

    这篇文章主要给大家介绍了关于Django自定义用户认证的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需...

    我的胡子有点扎10402021-01-22
  • PythonPython 数据的累加与统计的示例代码

    Python 数据的累加与统计的示例代码

    这篇文章主要介绍了Python 数据的累加与统计的示例代码,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下 ...

    David Beazley10892020-08-04
  • Pythonpython动态网站爬虫实战(requests+xpath+demjson+redis)

    python动态网站爬虫实战(requests+xpath+demjson+redis)

    本文主要介绍了python动态网站爬虫实战(requests+xpath+demjson+redis),文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    allworldg11042022-01-07
  • PythonPython简单操作sqlite3的方法示例

    Python简单操作sqlite3的方法示例

    这篇文章主要介绍了Python简单操作sqlite3的方法,结合实例形式分析了Python针对sqlite3数据库的读取、创建、增删改查等基本操作技巧,需要的朋友可以参考下...

    聪明的狐狸7612020-09-25
  • PythonPython Selenium参数配置方法解析

    Python Selenium参数配置方法解析

    这篇文章主要介绍了Python Selenium参数配置方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参...

    cknds4542020-04-12
  • PythonPython编程如何在递归函数中使用迭代器

    Python编程如何在递归函数中使用迭代器

    今天下午想要复现一下学长的recursion file,想模仿源码里的精髓:迭代器遇到了bug,花了一两个小时才解决。现总结如下,有需要的朋友也可借鉴参考下...

    frank_haha5222022-01-13