PDFParser实例_pdf-parse解析pdf资源-CSDN下载

共6个文件

jar：1个

java：1个

prefs：1个

4星 · 超过85%的资源需积分: 50 69 浏览量 2011-08-09 11:03:44 上传评论 2 收藏 3.04MB ZIP 举报

PDFParser实例是关于在Java环境下使用PDFBox库来解析PDF文件内容的一个具体应用。PDFBox是Apache软件基金会的一个开源项目，提供了丰富的API用于处理PDF文档，包括读取、写入、编辑以及签名等功能。在这个实例中，我们主要关注的是如何通过PDFParser来获取PDF文件中的文本内容。要使用PDFParser，你需要在你的项目中引入PDFBox的库。由于这个实例已经包含了最新版本的PDFBox.jar，你可以直接将这个JAR文件添加到你的项目类路径中。如果你使用Maven或Gradle构建系统，可以添加相应的依赖配置。在Java代码中，首先需要创建一个`PDDocument`对象来加载PDF文件。这可以通过`PDDocument.load()`方法实现，传入PDF文件的路径作为参数。例如： ```java File file = new File("path_to_your_pdf.pdf"); PDDocument document = PDDocument.load(file); ``` 接着，创建一个`PDFTextStripper`对象，它是PDFParser的核心部分，用于提取PDF中的文本。你可以通过构造函数初始化这个对象，并重写`startDocument()`和`endDocument()`方法来自定义解析过程。默认情况下，`PDFTextStripper`会按照行顺序提取所有文本。 ```java PDFTextStripper pdfStripper = new PDFTextStripper(); String text = pdfStripper.getText(document); ``` `getText()`方法会返回一个字符串，其中包含了PDF文件中的所有文本。如果你需要更细粒度的控制，比如按段落或者特定页面提取文本，可以使用`PDFTextStripper.writeText()`方法，传入一个Writer对象，然后在自定义的`writePage()`方法中处理每个页面的文本。在处理完PDF内容后，别忘了关闭`PDDocument`对象，以释放资源： ```java document.close(); ``` 除了基本的文本提取，PDFBox还提供了许多其他功能。例如，你可以获取PDF元数据，如作者、标题和创建日期，使用`PDDocumentInformation`对象。也可以通过`PDPage`和`PDPageContentStream`来操作页面内容，进行添加、删除或修改文本和图像等操作。在实际开发中，可能需要处理各种类型的PDF文件，有的可能包含加密、密码保护或者复杂的结构。PDFBox库提供了相应的API来处理这些情况，例如，`PDDocument.load()`方法支持传入密码参数来解密受保护的PDF。 PDFParser实例展示了如何利用Java和PDFBox库高效地解析PDF文件内容。通过深入学习PDFBox的API，开发者可以实现更多高级功能，如文本搜索、内容替换、页面旋转、表单处理等，以满足各种PDF处理需求。

资源推荐

资源详情

资源评论

收起资源包目录

PdfParser.zip （6个子文件）

PdfParser

.project 385B

bin

ParserPDF.class 3KB

.settings

org.eclipse.jdt.core.prefs 629B

src

ParserPDF.java 4KB

.classpath 354B

PDFBox-0.7.3.jar 3.17MB

/** * @Title: ParserPDF.java * @Package * @Description: TODO() * @author 柯伟 * @date 2011-8-9 上午10:43:05 * @version v1.1 */ /** @projectName 项目名称:PdfParser @crateTime 创建时间: 2011-8-9 上午10:43:05 @version 版本：1.0 @autor 作者：柯伟联系方式：E-main:[email protected] @projectDeclaration 项目声明:public class ParserPDF{ } @ClassDeclaration 类说明: */ import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStreamWriter; import java.io.Writer; import java.net.MalformedURLException; import java.net.URL; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.util.PDFTextStripper; public class ParserPDF { public ParserPDF(){ } public void readFdf(String file) throws Exception { /** * 是否排序 */ boolean sort = false; /** * pdf文件名 */ String pdfFile = file; /** * 输入文本文件名称 */ String textFile = null; /** * 编码方式 */ String encoding = "GB2312"; /** * 开始提取页数 */ int startPage = 1; /** * 结束提取页数 */ int endPage = Integer.MAX_VALUE; /** * 文件输入流，生成文本文件 */ Writer output = null; /** * 内存中存储的PDF Document */ PDDocument document = null; try { try { // 首先当作一个URL来装载文件，如果得到异常再从本地文件系统//去装载文件 URL url = new URL(pdfFile); // 注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); // 获取PDF的文件名 String fileName = url.getFile(); // 以原来PDF的名称来命名新产生的txt文件 if (fileName.length() > 4) { File outputFile = new File(fileName.substring(0, fileName.length() - 4)+ ".txt"); textFile = outputFile.getName(); } } catch (MalformedURLException e) { // 如果作为URL装载得到异常则从文件系统装载 //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); if (pdfFile.length() > 4) { textFile = pdfFile.substring(0, pdfFile.length() - 4)+ ".txt"; } } // 文件输入流，写入文件倒textFile output = new OutputStreamWriter(new FileOutputStream(textFile),encoding); // PDFTextStripper来提取文本 PDFTextStripper stripper = null; stripper = new PDFTextStripper(); // 设置是否排序 stripper.setSortByPosition(sort); // 设置起始页 stripper.setStartPage(startPage); // 设置结束页 System.out.print(stripper.getText(document)); stripper.setEndPage(endPage); // 调用PDFTextStripper的writeText提取并输出文本 stripper.writeText(document, output); } finally { if (output != null) { // 关闭输出流 output.close(); } if (document != null) { // 关闭PDF Document document.close(); } } } public void get(String pdfPath) throws Exception { InputStream input = null; File pdfFile = new File( pdfPath ); PDDocument document = null; try { input = new FileInputStream( pdfFile ); //加载 pdf 文档 PDFParser parser = new PDFParser(input); parser.parse(); document = parser.getPDDocument(); //获取内容信息 PDFTextStripper pts = new PDFTextStripper(); String content = ""; try { content = pts.getText( document ); } catch(Exception e) { throw e; } System.out.println(content); } catch(Exception e) { throw e; } finally { if( null != input ) input.close(); if( null != document ) document.close(); } } /** * @param args */ public static void main(String[] args) { ParserPDF pdfReader = new ParserPDF(); try { // 读取pdf文件 pdfReader.readFdf("d:\\2\\D.pdf"); } catch (Exception e) { e.printStackTrace(); } } }

评论收藏

内容反馈

xiaomage44

2012-11-01

缺少注释看得太累
指尖de柔情

2020-03-05

可用，还可以吧
30.003

2016-07-19

Exception in thread "main" java.lang.NoClassDefFoundError: org/fontbox/cmap/CMapParser 报错
LVXIANGAN

2012-07-19

用不了，里面的文件很乱
风的飘渺

2015-08-19

很好刚好用的到