如果我们想将服务端的PDF文档内容展示给客户端,往往会通过URL直接访问的方式。这样一来,PDF文档就会毫无保留的保存到客户端去,通过浏览器的PDF插件,客户端可以随意拷贝PDF的副本。(如下图) 本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制,只向客户端解析并展示PDF的内容而非PDF文件本身。 目前有许多PDF解析组件,国内比较常用的是iTextSharp,该控件早期从JAVA移植过来,完全支持.NET平台,在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心,只有少数复杂难用的类可以让我们读取PDF。故不适合本案。 PDFBox在此方面表现却非常突出,同样,它也是从java平台移植过来的, 常用来作为Lucene的PDF索引器。目前,它的开源项目中已经包含了通过IKVM.NET(IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.)封装,而支持.NET的组件。 PDFBox对PDF的读取解析非常简单,只用如下代码即可完成: 故我们选取PDFBox作为PDF解析器。 接下来,我们新建一个类库项目,在其中创建PDFHandler类,实现IHttpHandler接口,用来作为.pdf文件的handler。 主要完成的步骤如下: 1. 为类库和网站添加如下引用: 并将下面两个类库也复制到网站的Bin文件夹中: 2. 编写PDFHandler类: 部署HttpHandler 1. 编码完成后,我们编译Handler类库项目,并添加网站对该项目的引用。 2. 要使客户端对*.pdf文件的请求被handler处理,我们还需要在web.config中配置刚刚编写好的handler: 3. 这时,使用Visual Studio自带的ASP.NET Deployment Server已经可以成功运行程序了。然而,如果将网站部署到IIS中,我们还需要对IIS的应用程序配置做出修改,在程序映射中,使用aspnet_isapi.dll来处理.pdf文件: OK,接下来启动IIS,浏览“CardSpace.pdf”文件,我们就可以得到下面的效果: 下载PDFBox类库前言
PDF解析
{
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}编写HttpHandler
using System.Collections.Generic;
using System.Text;
using System.Web;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
using System.Web.UI.WebControls;
using System.Web.UI;
using System.IO;
namespace LanceZhang.HTTP
{
public class PDFHandler:IHttpHandler
{
#region IHttpHandler Members
public bool IsReusable
{
get { return true; }
}
public void ProcessRequest(HttpContext context)
{
//获取请求的文件路径,如C:\www\a.pdf
string path = context.Request.MapPath(context.Request.Path);
//创建PDF实体和文字解析器
PDDocument doc = PDDocument.load(path);
PDFTextStripper stripper = new PDFTextStripper();
//创建一个TextBox用来显示PDF内容
TextBox tb = new TextBox();
tb.Style.Add("width","100%");
tb.Style.Add("height", "100%");
tb.TextMode = TextBoxMode.MultiLine;
tb.Text=stripper.getText(doc);
//将TextBox render出来
context.Response.Write(RenderControlAsString(tb));
}
public string RenderControlAsString(Control ctl)
{
StringWriter sw = new StringWriter();
HtmlTextWriter writer = new HtmlTextWriter(sw);
ctl.RenderControl(writer);
return sw.ToString();
}
#endregion
}
}
<httpHandlers>
<add verb="*" path="*.pdf" type="LanceZhang.HTTP.PDFHandler,LanceZhang.HTTP"/>
</httpHandlers>
</system.web>
使用HttpHandler解析并展示PDF文档内容
原创lancezhang ©著作权
©著作权归作者所有:来自51CTO博客作者lancezhang的原创作品,请联系作者获取转载授权,否则将追究法律责任
private static string parseUsingPDFBox(string filename)
using System;
<system.web>
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Java 解析pdf文档内容实战案例
Java基于PdfBox 解析Pdf文档的详细案例
解析PDF PDFBOX Java 微信 apache -
java解析word文档内容
java解析word文档内容
apache xml ide -
java 解析 pdf 文档内容 java解析文件
Java读取xml的四种方法 Java code 在平时工作中,难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案,哪个最适合我们呢?在这篇文章中,我对这四种主流方案做一个不完全评测,仅仅针对遍历 XML 这块来测试,因为遍历 XML 是工作中使用最多的(至少我认为)。 预 备 测试环境: AMD 毒龙1.4G OC 1
java 解析 pdf 文档内容 Java 解析 XML 方法 读取 XML System Java