脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python爬虫实战项目之爬取pixiv图片

python爬虫实战项目之爬取pixiv图片

2022-07-07 17:11EastMage Python

最近决定写个P站的爬虫,实际操作起来确实遇到了些新问题,通过解决也有所收获,下面这篇文章主要给大家介绍了关于python爬虫实战项目之爬取pixiv图片的相关资料,需要的朋友可以参考下

自从接触python以后就想着爬pixiv,之前因为梯子有点问题就一直搁置,最近换了个梯子就迫不及待试了下。

爬虫无非request获取html页面然后用正则表达式或者beautifulsoup之类现成工具截取我们想要的页面,pixiv也不例外。

首先我们来实现模拟登陆,虽然大多数情况不需要我们实现模拟登录,但如果你是会员之类的,登录和不登录网页就有区别。思路是登录时抓包抓到post请求,看pixiv构建的post的数据表格是什么格式,我们根据这个格式构建form,然后调用post方法去请求,再保存到session中,之后访问相关页面用session替代requests即可。

可以看到pixiv登录的网址如下,直接复制:

python爬虫实战项目之爬取pixiv图片

 抓包找到提交数据的请求:

python爬虫实战项目之爬取pixiv图片

python爬虫实战项目之爬取pixiv图片

可以看到表单数据主要是这几个,经过几次尝试,我们在模拟的时候只需要构建password、pixiv_id、post_key再加上一个return_to(第二张)即可。pixiv_id就是我们的账号,password是密码,return_to照着填就行,但这个post_key却是随机的。

但我们也有办法,它是我们每次访问登录页面时动态生成的,这就好办了,再登录前先爬取一次登录前的页面,找到postkey。

看到下图红圈里面:

python爬虫实战项目之爬取pixiv图片

 那就可以直接正则爬取:

def get_postkey():
    login_url="https://accounts.pixiv.net/login?return_to=https%3A%2F%2Fwww.pixiv.net%2F&lang=zh&source=pc&view_type=page"
    response=requests.get(url=login_url,headers=headers,verify=False)
    html=response.text
    # print(html)
    postkey=re.findall(""pixivAccount.postKey":"(.*?)","pixivAccount.recaptchaEnterpriseCheckboxSiteKey"",html)
    return postkey[0]

 然后我们就可以构建数据包:

pixiv_id="账号" # 你的pixiv账号
password="xxxxx" # 你的pixiv密码
return_to="https://www.pixiv.net/"
post_key=get_postkey()

实例化一个session对象,然后post提交就能完成模拟登陆: 

session=requests.Session()
 
form_data={
    "pixiv_id":pixiv_id,
    "password":password,
    "return_to":return_to,
    "post_key":post_key
}
login_url1="https://accounts.pixiv.net/login?return_to=https%3A%2F%2Fwww.pixiv.net%2F&lang=zh&source=pc&view_type=page"
res=session.post(url=login_url1,headers=headers,data=form_data)
# 至此模拟登录成功

到此模拟登录就成功了,接下来就是爬我们想要的图片,以爬排行榜为例:

打开排行榜页面,鼠标悬停图片,右键检查,可以找到对应的代码位置:

python爬虫实战项目之爬取pixiv图片

找到每张图片的相似结构,我们可以用BeautifulSoup 找到节点,然后正则爬我们想要的网址:

python爬虫实战项目之爬取pixiv图片

先找到包含每张图片各种信息的节点,通过类名查找,然后对于每一个节点进行正则提取,提取出对应图片的下载链接,不过需要特别注意的是,pixiv直接显示的图片源是骗你的,真正的图片链接的形式应该是:

https://i.pximg.net/img-original/img/xxxx/xx/xx/xx/xx/xx/xxxxxxxx_p0.png

这样的,直接把这个网址复制网页栏访问会显示403,因为pixiv限制了必须从pixiv网页点进这个网址,所以我们首先必须headers构建refer-to,然后通过排行榜提取到信息后还需要自己手动构建正确的网址:

headers = {"Referer": "https://www.pixiv.net/",
       
           }
def get_accurate_url(url):
    urll="https://i.pximg.net/img-original/img/" + str(url) + "_p0.jpg"
    return urll

 这里的代码偷了个懒,全部当作jpg来处理,下载的时候再处理png的情况

下载的具体函数,我们对每一个网址的后续部分提取出来作名字,随机睡眠1到4秒防止pixiv认出我们是爬虫把我们ip给封了,之后就是对网址进行访问下载,这里如果访问返回的状态码是404说明它其实是个png格式的图片,所以对png格式的文件重新构建正确的网址即可:

def download(list,filename):
    i=1
    for url in list:
        pic_name=re.findall("https://i.pximg.net/img-original/img/(.*?)_p0.jpg",str(url))
        pic_name1=str(pic_name[0]).replace("/",".")
        r = random.randint(1, 4)
        time.sleep(r)
        response=requests.get(url=url,headers=headers,verify=False)
        if(response.status_code==404):
            the_url="https://i.pximg.net/img-original/img/" + str(pic_name[0]) + "_p0.png"
            response = requests.get(url=the_url, headers=headers, verify=False)
            with open(path + filename + "/" + str(pic_name1) + ".png", "wb") as f:
                f.write(response.content)
                print("第" + str(i) + "张图片已下载成功!!")
        else:
            with open(path + filename + "/" + str(pic_name1) + ".jpg", "wb") as f:
                f.write(response.content)
                print("第" + str(i) + "张图片已下载成功!!")
        i+=1

最后就是成功下载排行榜的图片:

python爬虫实战项目之爬取pixiv图片

另外我在爬的时候发现pixiv很多网页获取时会隐藏body部分的内容,包括但不限于各个tag的网页和单个id图片的网页,一开始以为是没有登录的原因,但是实现登录后发现依然如此,推测可能是body部分内容是子网页或者javsscript生成之类的,反正前端有一万种方法达成这个目的,这个之后再研究怎么爬。

总结

到此这篇关于python爬虫实战项目之爬取pixiv图片的文章就介绍到这了,更多相关python爬取pixiv图片内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文地址:https://blog.csdn.net/EastMage/article/details/122052006

延伸 · 阅读

精彩推荐
  • Pythonpython将list转为matrix的方法

    python将list转为matrix的方法

    今天小编就为大家分享一篇python将list转为matrix的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    故常无-欲以观其妙11972021-04-29
  • Pythonpython在一个范围内取随机数的简单实例

    python在一个范围内取随机数的简单实例

    在本篇内容里小编给大家分享了关于python在一个范围内取随机数的简单实例内容,有需要的朋友们可以学习下。 ...

    FXL22112020-08-16
  • Python在Python的列表中利用remove()方法删除元素的教程

    在Python的列表中利用remove()方法删除元素的教程

    这篇文章主要介绍了在Python的列表中利用remove()方法删除元素的教程,是Python入门中的基础知识,注意其和pop()方法的区别,需要的朋友可以参考下 ...

    脚本之家9772020-07-04
  • PythonPython File readlines() 使用方法

    Python File readlines() 使用方法

    readlines() 方法用于读取所有行(直到结束符 EOF)并返回列表,该列表可以由 Python 的 for... in ... 结构进行处理,如果碰到结束符 EOF 则返回空字符串,需要的朋...

    脚本之家17652021-01-23
  • Python浅析Python与Mongodb数据库之间的操作方法

    浅析Python与Mongodb数据库之间的操作方法

    这篇文章主要介绍了Python与Mongodb数据库之间的操作,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下...

    GYT03135642021-07-27
  • PythonPython实现仿真双径效应的方法

    Python实现仿真双径效应的方法

    双径模型是一种很好的近似,能够准确地反映信号的传播特性。这篇文章主要介绍了Python实现仿真双径效应的方法,感兴趣的小伙伴们可以参考一下...

    死线4492021-11-01
  • Pythonnumpy.sum()的使用详解

    numpy.sum()的使用详解

    这篇文章主要介绍了numpy.sum()的使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小...

    Leekingsen7242021-09-19
  • Pythonpython2.7安装图文教程

    python2.7安装图文教程

    这篇文章主要为大家详细介绍了python2.7安装图文教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    枫之星雨8642021-01-21