软件开发培训班 >> 编程开发 >> ASPNET

使用pdfbox实现pdf文本提取和合并功能示例

　　本文标签：pdfbox,pdf文本提取

有时我们需要对PDF文件进行一些处理，提取文本、合并等。以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢?
现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:

复制代码代码如下:

PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll

新建一个项目,代码很简单:

复制代码代码如下:

public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}

获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:

复制代码代码如下:

public static void WriteToTextFile(string str,string txtpath)
{
if (string.IsNullOrEmpty(txtpath))
throw new ArgumentNullException("Output file path should not be Null");
using (var txtWriter = new StreamWriter(txtpath))
{
txtWriter.Write(str);
txtWriter.Close();
}
}

菜鸟进阶记风光摄影技巧分享	向前辈致敬：平板在iPad之前都长这样
网站排名不稳定原因及解决办法	5G时代手机拍照方式有何不同？一起来探索一下

其它的功能您可以自行发挥了. 这个类库目前支持:

PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF

技术文章快速查找

.NET Core Windows环境安装配置教程

ashx介绍以及ashx文件与aspx文件之间的区别

ASP.NET Core Api网关Ocelot的使用初探

asp.net中引用同一个项目中的类库避免goToDefinition时不能到达真正的定义类

asp.net core 3.0中使用swagger的方法与问题

VS2005 180天限制破解方法

Repeater对数据进行格式化处理

Visual studio 2017如何发布dotnet core到docker

相关下载

在线教程导航

软件应用
·Windows8	·Windows7	·Word
·Excel	·PPT	·WPS
Web开发
·ASP	·JavaScript	·DIV+CSS
·JSP	·VbScript	·XML
·PHP
开发语言
·VB	·VC	·ASP.NET
·Java	·C++	·Delphi
数据库开发
·MySQL	·MsSQL	·Access
·Oracle	·DB2
手机系统
·Android	·iOS	·WindowsPhone
网站设计
·Flash	·Dreamweaver	·Fireworks
平面设计
·Photoshop	·CorelDraw	·AutoCAD
·3DsMAX	·Illustrator
网络技术
·网站运营	·网络安全	·网络搭建