【整理资料】批量拆分PDF文件并根据每个拆分后PDF文件中指定位置的内容进行重命名

簪花走马过长安

已于 2025-07-16 10:54:36 修改

阅读量296

点赞数 5

CC 4.0 BY-SA版权

文章标签： pdf 数据库前端机器学习深度学习 python

于 2025-01-19 22:27:29 首次发布

本文链接：https://blog.csdn.net/bbyn24955/article/details/145249144

在处理 PDF 文件时，我们常常会遇到需要将一个大的 PDF 文件拆分成多个小文件，并根据拆分后文件内特定位置的内容对其进行重命名的需求。这在文档管理、数据整理等场景中非常实用。接下来，我们将详细介绍如何使用 Python 实现这一功能。

1. 准备工作

我们需要安装两个重要的 Python 库：PyPDF2用于处理 PDF 文件，re用于正则表达式匹配。可以通过以下命令进行安装：

bash

pip install PyPDF2

2. 拆分 PDF 文件

首先，我们编写代码将一个 PDF 文件拆分成多个单独的 PDF 文件，每个文件包含原 PDF 的一页。

python

import PyPDF2


def split_pdf(input_pdf_path, output_folder):
    with open(input_pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)
        num_pages = len(pdf_reader.pages)
        for page_num in range(num_pages):
            pdf_writer = PyPDF2.PdfWriter()
            page = pdf_reader.pages[page_num]
            pdf_writer.add_page(page)
            output_pdf_path = f"{output_folder}/page_{page_num + 1}.pdf"
            with open(output_pdf_path, 'wb') as output_pdf_file:
                pdf_writer.write(output_pdf_file)

3. 根据指定位置内容重命名

接下来，我们需要从每个拆分后的 PDF 文件中提取特定位置的内容，并以此内容作为新的文件名进行重命名。假设我们要提取 PDF 文件第一页左上角位置的文本（这里只是示例，实际应用中需根据具体需求调整）。

python

import os
import re


def rename_pdfs(output_folder):
    for filename in os.listdir(output_folder):
        if filename.endswith('.pdf'):
            file_path = os.path.join(output_folder, filename)
            with open(file_path, 'rb') as pdf_file:
                pdf_reader = PyPDF2.PdfReader(pdf_file)
                if len(pdf_reader.pages) > 0:
                    page = pdf_reader.pages[0]
                    text = page.extract_text()
                    # 假设特定内容在文本开头，使用正则表达式提取，这里仅为示例，需根据实际情况调整
                    match = re.search(r'^(\w+)', text)
                    if match:
                        new_name = match.group(1) + '.pdf'
                        new_path = os.path.join(output_folder, new_name)
                        os.rename(file_path, new_path)

4. 完整代码与调用

将上述两个功能整合在一起，并进行调用。

python

import PyPDF2
import os
import re


def split_pdf(input_pdf_path, output_folder):
    with open(input_pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)
        num_pages = len(pdf_reader.pages)
        for page_num in range(num_pages):
            pdf_writer = PyPDF2.PdfWriter()
            page = pdf_reader.pages[page_num]
            pdf_writer.add_page(page)
            output_pdf_path = f"{output_folder}/page_{page_num + 1}.pdf"
            with open(output_pdf_path, 'wb') as output_pdf_file:
                pdf_writer.write(output_pdf_file)


def rename_pdfs(output_folder):
    for filename in os.listdir(output_folder):
        if filename.endswith('.pdf'):
            file_path = os.path.join(output_folder, filename)
            with open(file_path, 'rb') as pdf_file:
                pdf_reader = PyPDF2.PdfReader(pdf_file)
                if len(pdf_reader.pages) > 0:
                    page = pdf_reader.pages[0]
                    text = page.extract_text()
                    match = re.search(r'^(\w+)', text)
                    if match:
                        new_name = match.group(1) + '.pdf'
                        new_path = os.path.join(output_folder, new_name)
                        os.rename(file_path, new_path)


if __name__ == "__main__":
    input_pdf_path = 'input.pdf'
    output_folder = 'output'
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    split_pdf(input_pdf_path, output_folder)
    rename_pdfs(output_folder)