脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - 通过Python的fitz库提取pdf中的图片

通过Python的fitz库提取pdf中的图片

2023-06-24 11:43空空star Python

本篇给大家分享一下《通过Python的fitz库提取pdf中的图片》。Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。

前言

大家好,我是空空star,本篇给大家分享一下《通过Python的fitz库提取pdf中的图片》

一、fitz库是什么?

Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释。此外,Fitz库还提供了一些图像处理功能,如旋转、裁剪、缩放、调整亮度、对比度和色彩平衡等。这些功能使得Fitz库成为一个非常实用的图像处理工具。

二、安装fitz库

pip install fitz

三、查看fitz库版本

pip show fitz

Name: fitz

Version: 0.0.1.dev2

Summary: Fitz: Workflow Mangement for neuroimaging data.

Home-page: http://github.com/kastman/fitz

Author: Erik Kastman

Author-email: erik.kastman@gmail.com

License: BSD (3-clause)

Requires: configobj, configparser, httplib2, nibabel, nipype, numpy, pandas, pyxnat, scipy

Required-by:

四、pymupdf库是什么?

使用fitz,需要安装pymupdf库。

PyMuPDF 是一个基于 Python 的开源 PDF 处理库,提供了一系列的 PDF 文档处理功能,如读取、编辑、创建、转换等。它是 MuPDF 的 Python 绑定,MuPDF 是一款轻量级的开源 PDF 文档渲染引擎,支持多种平台和多种文件格式。

PyMuPDF 具有快速、高效、简单易用等特点,可以用于 PDF 文档的自动化处理和批量处理,比如提取文本、提取图片、添加或修改书签、添加或修改注释、合并 PDF 文件、切割 PDF 文件、提取 PDF 页面等。同时,它还支持 PDF 渲染成图片,方便快速预览和生成缩略图。

总之,PyMuPDF 是一个非常实用的 Python PDF 处理库,适用于多种场景,如数据处理、文档处理、自动化办公等。

五、安装pymupdf库

pip install pymupdf

六、查看pymupdf库版本

pip show pymupdf

Name: PyMuPDF

Version: 1.22.3

Summary: Python bindings for the PDF toolkit and renderer MuPDF

Home-page: https://github.com/pymupdf/PyMuPDF

Author: Artifex

Author-email: support@artifex.com

License: GNU AFFERO GPL 3.0

Requires:

Required-by:

七、fitz和pymupdf是什么关系?

fitz 是 Pymupdf 库的一个模块,它是 Pymupdf 的主要模块之一,也是最常用的模块。fitz 模块提供了对 PDF 文档的基本操作,如打开、读取、编辑、保存等。

八、提取pdf中的图片

1.引入库

import fitz

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

pdf_doc = fitz.open(local+'demo_pic.pdf')

4.遍历所有页面

for pg in range(pdf_doc.page_count):
    page = pdf_doc[pg]

5.获取页面上所有图像

    image_list = page.get_images()

6.遍历所有图像

    for img in image_list:

7.获取图像的XREF编号和图像数据

        xref = img[0]
        pix = fitz.Pixmap(pdf_doc, xref)

8.如果图像是RGB颜色空间,则保存为PNG文件

        if str(fitz.csRGB) == str(pix.colorspace):
            img_path = local + f'image{{C}pg+1}_{{C}xref}.png'
            pix.save(img_path)

总结

pdf

通过Python的fitz库提取pdf中的图片

提取图片效果

通过Python的fitz库提取pdf中的图片

到此这篇关于通过Python的fitz库提取pdf中的图片的文章就介绍到这了,更多相关Python请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文地址:https://blog.csdn.net/weixin_38093452/article/details/130950144

延伸 · 阅读

精彩推荐
  • PythonPython 获得命令行参数的方法(推荐)

    Python 获得命令行参数的方法(推荐)

    本篇将介绍python中sys, getopt模块处理命令行参数的方法,本文给大家介绍的非常详细,具有参考借鉴价值,需要的朋友参考下吧...

    寒寻5692021-01-08
  • Pythonpython中lambda匿名函数详解

    python中lambda匿名函数详解

    大家好,本篇文章主要讲的是python中lambda匿名函数详解,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下...

    _谦信_9002022-09-22
  • PythonPython中使用第三方库xlutils来追加写入Excel文件示例

    Python中使用第三方库xlutils来追加写入Excel文件示例

    这篇文章主要介绍了Python中使用第三方库xlutils来追加写入Excel文件示例,本文直接给出追加写入示例和追加效果,需要的朋友可以参考下 ...

    脚本之家6712020-05-30
  • Python基于Python编写简易的成语接龙游戏

    基于Python编写简易的成语接龙游戏

    成语接龙是中华民族传统的文字游戏。它历史悠久,是传统文字、文化、文明的一个缩影,也是老少皆宜的民间文化娱乐活动。本文将用Python制作一个简单...

    嗨!栗子同学5722022-10-21
  • Python不可错过的十本Python好书

    不可错过的十本Python好书

    不可错过的十本Python好书,分别适合入门、进阶到精深三个不同阶段的人来阅读,感兴趣的小伙伴们可以参考一下...

    Python教程网4902020-11-24
  • PythonPython GUI之tkinter详解

    Python GUI之tkinter详解

    今天带大家学习Python GUI之tkinter的相关知识,文中对如何使用tkinter作了非常详细的介绍及代码示例,对正在学习python的小伙伴们有很好的帮助,需要的朋友可以...

    繁星伴晚安6562022-01-22
  • Pythonpython解析含有重复key的json方法

    python解析含有重复key的json方法

    今天小编就为大家分享一篇python解析含有重复key的json方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    dahlwuyn7842021-05-20
  • PythonPython 中有 三个不可思议的返回功能

    Python 中有 三个不可思议的返回功能

    今天给大家分享 3 个比较冷门的知识。来看看是什么吧。...

    菜鸟学Python10882022-01-24