使用HttpHandler解析并展示PDF文档内容

原创

lancezhang 2010-12-10 10:30:04 ©著作权

文章标签 职场休闲 HttpHandler PDF 文章分类 .Net 后端开发

©著作权归作者所有：来自51CTO博客作者lancezhang的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

如果我们想将服务端的PDF文档内容展示给客户端，往往会通过URL直接访问的方式。这样一来，PDF文档就会毫无保留的保存到客户端去，通过浏览器的PDF插件，客户端可以随意拷贝PDF的副本。（如下图）

使用HttpHandler解析并展示PDF文档内容_HttpHandler

本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制，只向客户端解析并展示PDF的内容而非PDF文件本身。

PDF解析

目前有许多PDF解析组件，国内比较常用的是iTextSharp，该控件早期从JAVA移植过来，完全支持.NET平台，在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心，只有少数复杂难用的类可以让我们读取PDF。故不适合本案。

PDFBox在此方面表现却非常突出，同样，它也是从java平台移植过来的，常用来作为Lucene的PDF索引器。目前，它的开源项目中已经包含了通过IKVM.NET（IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.）封装，而支持.NET的组件。

PDFBox对PDF的读取解析非常简单，只用如下代码即可完成：

private static string parseUsingPDFBox(string filename)

{

    PDDocument doc = PDDocument.load(filename);

    PDFTextStripper stripper = new PDFTextStripper();

    return stripper.getText(doc);

}

故我们选取PDFBox作为PDF解析器。

编写HttpHandler

接下来，我们新建一个类库项目，在其中创建PDFHandler类，实现IHttpHandler接口，用来作为.pdf文件的handler。

主要完成的步骤如下：

1. 为类库和网站添加如下引用：

PDFBox-0.7.2.dll
IKVM.GNU.Classpath.dll

并将下面两个类库也复制到网站的Bin文件夹中：

FontBox-0.1.0-dev.dll
IKVM.Runtime.dll

2. 编写PDFHandler类：

using System;

using System.Collections.Generic;

using System.Text;

using System.Web;

using org.pdfbox.pdmodel;

using org.pdfbox.util;

using System.Web.UI.WebControls;

using System.Web.UI;

using System.IO;

namespace LanceZhang.HTTP

{

    public class PDFHandler:IHttpHandler

    {

        #region IHttpHandler Members

        public bool IsReusable

        {

            get { return true; }

        }

        public void ProcessRequest(HttpContext context)

        {

            //获取请求的文件路径，如C:\www\a.pdf

            string path = context.Request.MapPath(context.Request.Path);

            //创建PDF实体和文字解析器

            PDDocument doc = PDDocument.load(path);

            PDFTextStripper stripper = new PDFTextStripper();

            //创建一个TextBox用来显示PDF内容

            TextBox tb = new TextBox();

            tb.Style.Add("width","100%");

            tb.Style.Add("height", "100%");

            tb.TextMode = TextBoxMode.MultiLine;

            tb.Text=stripper.getText(doc);

            //将TextBox render出来

            context.Response.Write(RenderControlAsString(tb));

        }

        public string RenderControlAsString(Control ctl)

        {

            StringWriter sw = new StringWriter();

            HtmlTextWriter writer = new HtmlTextWriter(sw);

            ctl.RenderControl(writer);

            return sw.ToString();

        }

        #endregion

    }

}

部署HttpHandler

1. 编码完成后，我们编译Handler类库项目，并添加网站对该项目的引用。

2. 要使客户端对*.pdf文件的请求被handler处理，我们还需要在web.config中配置刚刚编写好的handler：

<system.web>

    <httpHandlers>

      <add verb="*" path="*.pdf" type="LanceZhang.HTTP.PDFHandler,LanceZhang.HTTP"/>

    </httpHandlers>

</system.web>