Python读取pdf文件
- 手机
- 2025-08-04 06:15:01

Python 实现读取pdf文件简单示例。
安装命令需要安装操作pdf的三方类库,命令如下:
pip install pdfminer3K安装过程如下:
引入类库需要引入很多的类库。
示例如下:
import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal, LAParams from pdfminer.pdfinterp import PDFTextExtractionNotAllowed读取pdf实现
实现步骤为:先通过二进制方式打开测试pdf文档,创建pdf文档解析测试文档内容,
最后读取文件内容,保存到另一个文件中。
示例如下:
import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal, LAParams from pdfminer.pdfinterp import PDFTextExtractionNotAllowed import os def read_pdf(path, toPath): # 以二进制方式打开pdf文件 f = open(path, 'rb') # 创建一个pdf文档分析器 parser = PDFParser(f) # 创建pdf文档 pdfFile = PDFDocument() # 链接分析器与文档对象 parser.set_document(pdfFile) pdfFile.set_parser(parser) # 提供初始化密码 pdfFile.initialize() # 检测文档是否提供txt转换 if not pdfFile.is_extractable: raise PDFTextExtractionNotAllowed else: # 解析数据 # 数据管理器 manager = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = PDFPageAggregator(manager, laparams=laparams) # 解释器对象 interpreter = PDFPageInterpreter(manager, device) for page in pdfFile.get_pages(): interpreter.process_page(page) layout = device.get_result() for x in layout: if isinstance(x, LTTextBoxHorizontal): with open(toPath, 'a', encoding='utf-8') as f: print(x.get_text()) f.write(x.get_text() + "\n") path = os.path.join(os.getcwd(), 'test_1.pdf') toPath = os.path.join(os.getcwd(), 'test_2.txt') read_pdf(path, toPath)注意:无法读取中文,貌似需要加载中文字体。还有就是在写入pdf文件,格式不对无法打开暂时没找到原因。
总结本篇只是使用Python 实现读取pdf文件简单示例,因为时间关系没有做深入的扩展,等之后有时间再做补充。
Python读取pdf文件由讯客互联手机栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“Python读取pdf文件”
下一篇
uniapp的配置和使用