基于Python实现PDF文件合并与目录提取

最新推荐文章于 2025-06-04 21:28:54 发布

原创

最新推荐文章于 2025-06-04 21:28:54 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#python #pdf #c#

介绍

本文将介绍如何使用Python实现PDF文件的合并与目录提取功能。通过本文，您将学习到如何将多个PDF文件合并为一个文件，并从中提取目录保存到Word文档中。这对于需要管理和整理大量PDF文档的用户来说非常有用。

环境配置

在开始之前，请确保您的Python环境中已安装以下库：

PyPDF2: 用于处理PDF文件。
pywin32: 用于与Word应用程序交互。
您可以通过以下命令安装这些库：

pip install PyPDF2 pywin32

项目分布

代码主要分为以下几个部分：

合并PDF文件：使用PyPDF2库中的PdfFileMerger类来合并PDF文件，并可以为合并后的PDF文件创建书签。
提取目录并保存到Word文档：首先使用PyPDF2库读取PDF文件并获取大纲，然后使用pywin32库创建一个新的Word文档，并将目录写入该文档。

详细代码

合并PDF文件

# -*- coding:utf-8 -*-
import os  # 导入系统功能模块
from win32com.client import Dispatch, DispatchEx  # 导入pywin32模块的client包下的函数
from win32com.client import constants  #  导入pywin32模块的client包下的保存COM常量的类
from win32com.client import gencache    #  导入pywin32模块的client包下的gencache函数
import re  # 导入正则表达式模块

import sys, codecs   # 导入标准模块
from PyPDF2 import PdfFileReader, PdfFileMerger   # 导入第三方模块PyPDF2

'''
   合并pdf文件，输出的pdf文件按输入的pdf文件名生成书签
'''
def mergefiles(path, output_filename, import_bookmarks=False):
    ''' 遍历目录下的所有pdf将其合并输出到一个pdf文件中， # 返回数字（将按该数字排序）输出的pdf文件默认带书签，
    书签名为之前的文件名。默认情况下原始文件的书签不会导入，使用import_bookmarks=True可以将原文件所带的书签也
    导入到输出的PDF文件中
    '''
    merger = PdfFileMerger() # 创建PDF合并对象
    filelist = getfilenames(filepath=path,filelist_out=[], file_ext='.pdf')  # 获取要合并的PDF文件
    if len(filelist) == 0:  # 判断是否存在要合并的文件
        print("当前目录及子目录下不存在pdf文件")
        sys.exit()  # 退出文件系统
    for filename in filelist:  # 遍历文件列表
        f = codecs.open(filename, 'rb') # 使用codecs的open()方法打开文件时，会自动转换为内部Unicode编码
        file_rd = PdfFileReader(f)
        short_filename = os.path.basename(os.path.splitext(filename)[0]) # 获取文件名称（不包括文件路径）
        if file_rd.isEncrypted == True:
            print('不支持的加密文件：%s'%(filename))
            continue
        merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)
        f.close()  # 关闭文件对象
    out_filename=os.path.join(os.path.abspath(path)<

最低0.47元/天解锁文章

200万优质内容无限畅学