1.PDFBox的IKVM版本:据我所知,目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本,PDFBOX更多信息请访问http://www.pdbox.org,关于其应用实例,可以参考CodeProject上的:http://www.codeproject.com/csharp/pdf2text.asp;
2.使用Acrobat的SDK(这个价格可不便宜);
3.XPDF:如果条件允许可以考虑使用XPDF的PDFToText,XPDF是用C语言编写的PDF解析库,并提供多个工具,开放源代码(如果你熟悉C和dotnet,也许你可以在dotnet环境下编译为你所用),但是基于GUN协议,如果商业应用,需要money;更多信息访问:http://www.foolabs.com/xpdf
4.Ghostscript:另外一个可以考虑的是Ghostscript,官方网址是:www.cs.wisc.edu/~ghost/,抽取Text的方法,google下ps2txt;
5.其它一些相关资源:
http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm
Extract Text from PDF File:http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443
Code to extract plain text from a PDF file:http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947
顺便说下,很多朋友询问iTextSharp中抽取文本的方法,这里说下,就目前而言,iTextSharp还不支持这个功能,也无法抽取图片,当然我通过摸索也只能抽取最简单格式的图片(jpeg),其它的还在研究怎么处理。
.net环境下从PDF文档中抽取Text文本的一些方法汇总
转载举报文章
请选择举报类型
内容侵权
涉嫌营销
内容抄袭
违法信息
其他
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M
相关文章
-
在 .NET 下使用 Pdfium 渲染和打印 PDF
在 .NET 下使用 Pdfium 渲染和打印 PDF
github v8 .net -
[转].NET下读取PDF文本
本文转自:/blog..net/wangqiuyun/article/deta
.net 下载地址 动态链接库 解压缩 命名空间 -
ASP.NET 2.0 里输出文本格式流
但是,如果即将打开的页面文件的内容是在程序中动态生成,或者是从数据库的表里取出的,我们怎么把这些内容展示出来呢?我们最直接的想法是,把这些内容先保存成网页文件,再调用它。这种方法当然是可以的,但不是...
asp.net stream html buffer iframe -
c# .net 读取word文档文件,.txt、.doc、.docx、.xls、xlsx
目前市面上的方案如果有不全的,欢
解析doc文件 解析docx文件 解析txt文件 读取doc文件 microsoft -
Asp.Net(C#)生成PDF详解
Asp.Net(C#)生成PDF详解(支持中文、水印、页眉、页脚、表格等)
Asp Net PDF 休闲 详解
1622c9c14607 6 月前
a8a0c792c485 6 月前