Apache POI Word

1、什么是Apache POI?

Apache POI是一个流行的API,使用Java程序创建,修改和显示MS-Office文件。 它是由Apache Software Foundation开发和发布的一个开源库,用于使用Java程序设计或修改MS-Office文件。 它包含用于将用户输入数据或文件解码为MS-Office文档的类和方法。

2、Apache POI的组件

Apache POI包含用于MS-Office的所有OLE2复合文档的类和方法。 此API的组件列表如下:

POIFS:此组件是所有其他POI元素的基本因素。 它用于显式读取不同的文件。

HSSF:用于读取和写入.xls格式的MS-Excel文件。

XSSF(XML SpreadSheet格式):用于MS-Excel的.xlsx文件格式。

HPSF:用于提取MS-Office文件的属性集。

HWPF:用于读取和写入MS-Word的.doc扩展文件。

XWPF(XML字处理器格式):用于读取和写入MS-Word的扩展文件 .docx 

HSLF:用于阅读,创建和编辑PowerPoint演示文稿。

HDGF(Horrible DiaGram格式):它包含MS-Visio二进制文件的类和方法。

HPBF(Horrible PuBlisher格式):用于读取和写入MS-Publisher文件。

本文章将指导您完成使用Java处理MS-Word文件的过程。因此,仅限于HWPF和XWPF组件。

3、安装Apache POI库

从 http://poi.apache.org/download下载最新版本的Apache POI。并将其内容解压缩到一个文件夹,从中可以将所需的库链接到Java程序。导入jar如下:

 

 

 

4、Apache POI Word - 文件

以下简单程序用于创建空白MS-Word文档:

 

 

 

5、Apache POI Word - 段落

 

下面程序用于创建一个段落以及将其添加到文档中。段落是Word文件中页面的一部分。

首先创建一个文档,然后我们可以创建一个段落。使用Paragraph实例,您可以创建行,然后向文档中输入一些文本。例子如下:

 

在c盘根目录下创建word文档:

 

createparagraph.docx 文件如下所示

 

6、Apache POI Word - 表格

下面程序用于创建表格 并且设置表格的宽度,使用XWPFTable类创建表数据。 将每个行添加到表格中,并将单元格添加到行

 

 

 

 

 

 

7、Apache POI Word - 图片

下面程序用与在文档中创建数据表,并向文档中导入图片。

 

 

 

8、Apache POI Word - 文本提取

对于.docx文件,我们使用类org.apache.poi.xwpf.extractor.XPFFWordExtractor从Word文件中提取和返回简单数据,从Word文件中提取标题,脚注,表数据等。

下面显示如何从Word文件提取简单文本:

 

 

 

总结:关于使用HWPF和XWPF组件来处理word就介绍到这里了,更多的资料可以参考完整的API文档:https://poi.apache.org/apidocs/index.html?org/apache/poi/openxml4j/opc/internal/package-summary.html