有时我们需要对PDF文件进行一些处理, 提取文本,合并等. 以前我们使用​​A-PDF Text Extractor​​免费工具,为什么不自己写一个呢?

现在我们可以使用​​PDFBox-0.7.3​​这个开源类库. 下载解包后引用:



1:          public static string ParseToTxtStringUsingPDFBox(string filename)
2:          {
3:              PDDocument doc = PDDocument.load(filename);
4:              PDFTextStripper stripper = new PDFTextStripper();
5:              return stripper.getText(doc);
6:          }

获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:

1:          public static void WriteToTextFile(string str,string txtpath)
2:          {
3:              if (string.IsNullOrEmpty(txtpath))
4:                  throw new ArgumentNullException("Output file path should not be Null");
6:              using (var txtWriter = new StreamWriter(txtpath))
7:              {
8:                  txtWriter.Write(str);
9:                  txtWriter.Close();
10:              }
11:          }

其它的功能您可以自行发挥了. 这个类库目前支持:

  • PDF to text extraction
  • Merge PDF Documents
  • PDF Document Encryption/Decryption
  • Lucene Search Engine Integration
  • Fill in form data FDF and XFDF
  • Create a PDF from a text file
  • Create images from PDF pages
  • Print a PDF
