一、.doc和.docx两种后缀的区别

    docx文件比doc文件所占用空间更bai小。

    docx格式的文件本质du上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可dao以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。

    docx 格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。它是保存在一个ZIP文件中,然后取扩展名为docx。将.docx 格式的文件后缀改为ZIP后解压, 可以看到解压出来的文件夹中有word这样一个文件夹,它包含了Word文档的大部分内容。而其中的document.xml文件则包含了文档的主要文本内容。

具体来讲可以分以下几个区别:

1、运行环境不同,docx格式的文件是Office2007及以上版本保存的新型文档,而doc是Word2003以及之前版本保存的文档,如果要转化它们还需要特殊的兼容系统。

2、它们所占用的内存空间不同,docx更加节省空间。

3、它们的响应速度有所不同,docx比doc的响应速度更加快捷,并且更加方便修改文件。

4、docx格式的文件本质上是一个ZIP文件,是docx文件的容器。而doc则容纳文字格式、脚本语言及复原等资讯的文件。

二、java对word文件的解析

2.1 引入所需要的jar包

<!--解析doc文档的HWPFDocument对象在这个包里-->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.1.2</version>
</dependency>
<!--解析docx文档的XWPFDocument对象在这个包里-->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>4.1.2</version>
</dependency>

2.2常用方法

HWPFDocument(文档类):
xd.characterLength(); //返回文档的字符长度。
xd.getMainTextboxRange(); //返回覆盖所有文本框的Range。
xd.getOverallRange(); //返回覆盖文件中所有文本的范围,包括主要文本,文本框,脚注,页眉和页脚,注释。
xd.getRange(); //返回覆盖整个文档的范围,但不包括任何文本框,页眉,页脚,脚注。
xd.getHeaderStoryRange(); //返回页眉,页脚,尾注分隔符和脚注分隔符。
xd.getStyleSheet();

Range(范围类):
range.getParagraph(int index); //获取索引处的段落。
range.numParagraphs(); //获得Range的段落数
range.text(); //获取此Range包含的文本。

Paragraph(段落类):
paragraph.getStyleIndex(); //返回适用于此段落的样式的索引。
paragraph.text(); //获得段落包含的文本。继承自Range类。

2.4解析doc文档 DocUtils 

相较于docx文档,doc文档在解析上比较容易一些。我这里就是取出文档中的字符串,并打印出来。

package com.xuexue.firstproject.utils;

import cn.hutool.core.collection.CollUtil;
import cn.hutool.core.util.ObjectUtil;
import cn.hutool.core.util.StrUtil;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.model.StyleDescription;
import org.apache.poi.hwpf.model.StyleSheet;
import org.apache.poi.hwpf.usermodel.*;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.xwpf.usermodel.*;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;

public class DocXUtils {

    public static void main(String[] args) {
        //String filePath = "F:\\work\\other\\测试docx文档解析.docx";
        String filePath = "F:\\work\\other\\测试doc文档解析.doc";
        String suffix = filePath.substring(filePath.lastIndexOf("."));
        if(".docx".equals(suffix)){
            System.out.println("文件类型是.docx");
        }
        if(".doc".equals(suffix)){
            System.out.println("文件类型是.doc");
            dealDocFile(filePath);
        }
    }

    public static void dealDocFile(String filePath){
        InputStream input = null;
        try {
            //实例化解析docx文档的对象
            input = new FileInputStream(filePath);
            HWPFDocument xd = new HWPFDocument(input);

            int length = xd.characterLength(); //返回文档的字符长度。
            System.out.println(length);
            //Range是HWPF对象模型的中心类
            Range range = xd.getMainTextboxRange(); //返回覆盖所有文本框的Range。
            for(int i = 0 ; i < range.numParagraphs(); i++){
                Paragraph paragraph = range.getParagraph(i);
                System.out.println(paragraph.text().trim());
            }

            Range range1 = xd.getOverallRange(); //返回覆盖文件中所有文本的范围,包括主要文本,文本框,脚注,页眉和页脚,注释
            for(int i = 0 ; i < range1.numParagraphs(); i++){
                Paragraph paragraph = range1.getParagraph(i);
                //得到段落类型名称
                int styleIndex = paragraph.getStyleIndex();
                StyleSheet style_sheet = xd.getStyleSheet();
                StyleDescription style = style_sheet.getStyleDescription(styleIndex);
                String styleName = style.getName();
                System.out.println("styleName:"+styleName);

                System.out.println(paragraph.text().trim());
            }
           Range range2 = xd.getRange(); //返回覆盖整个文档的范围,但不包括任何文本框,页眉,页脚,脚注。
            for(int i = 0 ; i < range2.numParagraphs(); i++){
                Paragraph paragraph = range2.getParagraph(i);
                System.out.println(paragraph.text().trim());
            }

            Range range3 = xd.getHeaderStoryRange(); //返回页眉,页脚,尾注分隔符和脚注分隔符。
            for(int i = 0 ; i < range3.numParagraphs(); i++){
                Paragraph paragraph = range3.getParagraph(i);
                System.out.println(paragraph.text().trim());
            }

        } catch (FileNotFoundException e) {
            e.printStackTrace();
            System.out.println("文件没有找到");
        } catch (IOException e) {
            e.printStackTrace();
            System.out.println("发生io异常");
        }
    }

}

对你有帮助就点个赞呗~~