项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现在将实现方式整理如下: 
一、使用Jacob转换Word,Excel为HTML 

“JACOB一个Java-COM中间件.通过这个组件你可以在Java应用程序中调用COM组件和Win32 libraries。”

首先下载Jacob包,JDK1.5以上需要使用Jacob1.9版本(JDK1.6尚未测试),与先前的Jacob1.7差别不大

1、将压缩包解压后,Jacob.jar添加到Libraries中;

2、将Jacob.dll放至“WINDOWS\SYSTEM32”下面。

需要注意的是: 
【使用IDE启动Web服务器时,系统读取不到Jacob.dll,例如用MyEclipse启动Tomcat,就需要将dll文件copy到MyEclipse安装目录的“jre\bin”下面。 
一般系统没有加载到Jacob.dll文件时,报错信息为:“java.lang.UnsatisfiedLinkError: no jacob in java.library.path”】 

新建类:


docx 转为html java java将docx转html_ico

1. public class
2. {  
3. public static final int WORD_HTML = 8;  
4.   
5. public static final int WORD_TXT = 7;  
6.   
7. public static final int EXCEL_HTML = 44;  
8.   
9. /**
10.      * WORD转HTML
11.      * @param docfile WORD文件全路径
12.      * @param htmlfile 转换后HTML存放路径
13.      */
14. public static void
15.     {  
16. new ActiveXComponent("Word.Application"); // 启动word
17. try
18.         {  
19. "Visible", new Variant(false));  
20. "Documents").toDispatch();  
21.             Dispatch doc = Dispatch.invoke(  
22.                     docs,  
23. "Open",  
24.                     Dispatch.Method,  
25. new Object[] { docfile, new Variant(false),  
26. new Variant(true) }, new int[1]).toDispatch();  
27. "SaveAs", Dispatch.Method, new
28. new Variant(WORD_HTML) }, new int[1]);  
29. new Variant(false);  
30. "Close", f);  
31.         }  
32. catch
33.         {  
34.             e.printStackTrace();  
35.         }  
36. finally
37.         {  
38. "Quit", new
39.         }  
40.     }  
41.   
42. /**
43.      * EXCEL转HTML
44.      * @param xlsfile EXCEL文件全路径
45.      * @param htmlfile 转换后HTML存放路径
46.      */
47. public static void
48.     {  
49. new ActiveXComponent("Excel.Application"); // 启动word
50. try
51.         {  
52. "Visible", new Variant(false));  
53. "Workbooks").toDispatch();  
54.             Dispatch excel = Dispatch.invoke(  
55.                     excels,  
56. "Open",  
57.                     Dispatch.Method,  
58. new Object[] { xlsfile, new Variant(false),  
59. new Variant(true) }, new int[1]).toDispatch();  
60. "SaveAs", Dispatch.Method, new
61. new Variant(EXCEL_HTML) }, new int[1]);  
62. new Variant(false);  
63. "Close", f);  
64.         }  
65. catch
66.         {  
67.             e.printStackTrace();  
68.         }  
69. finally
70.         {  
71. "Quit", new
72.         }  
73.     }  
74.   
75. }

当时我在找转换控件时,发现网易也转载了一偏关于Jacob使用帮助,但其中出现了比较严重的错误:String htmlfile = "C:\\AA";

只指定到了文件夹一级,正确写法是String htmlfile = "C:\\AA\\xxx.html";

 

到此WORD/EXCEL转换HTML就已经差不多了,相信大家应该很清楚了:)

 

二、使用XPDF将PDF转换为HTML

 

1、下载xpdf最新版本,地址:http://www.foolabs.com/xpdf/download.html

xpdf-3.02pl2-win32.zip

 

2、下载中文支持包

xpdf-chinese-simplified.tar.gz

 

3、下载pdftohtml支持包

地址:http://sourceforge.net/projects/pdftohtml/

pdftohtml-0.39-win32.tar.gz

 

4、解压调试

1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的exe文件可以删除,只保留pdftotext.exe,以此类推;

2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;

3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;

4) 目录结构:

 +---[X:\xpdf]

           |-------各种转换用到的exe文件

           |

           |-------xpdfrc

           |

           +------[X:\xpdf\xpdf-chinese-simplified]

                                      |

                                      |

                                      +-------很多转换时需要用到的字符文件

 

xpdfrc:此文件是用来声明转换字符集对应路径的文件

 

5) 修改xpdfrc文件(文件原名为sample-xpdfrc)

修改文件内容为:

1. #----- begin Chinese Simplified support package  
2. cidToUnicode    Adobe-GB1       xpdf-chinese-simplified\Adobe-GB1.cidToUnicode  
3. unicodeMap      ISO-2022-CN     xpdf-chinese-simplified\ISO-2022-CN.unicodeMap  
4. unicodeMap      EUC-CN          xpdf-chinese-simplified\EUC-CN.unicodeMap  
5. unicodeMap  GBK    xpdf-chinese-simplified\GBK.unicodeMap  
6. cMapDir         Adobe-GB1       xpdf-chinese-simplified\CMap  
7. toUnicodeDir                    xpdf-chinese-simplified\CMap  
8. fontDir  C:\WINDOWS\Fonts  
9. displayCIDFontTT Adobe-GB1 C:\WINDOWS\Fonts\simhei.ttf  
10. #----- end Chinese Simplified support package

 

6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)

内容为:

1. @echo off  
2. set folderPath=%1
3. set filePath=%2
4. cd /d %folderPath%  
5. pdftohtml -enc GBK %filePath%  
6. exit  
 
  
 7) 创建类
  
 
 
 
1. public class
2. {  
3. private static
4. private static
5.       
6. public static void
7.     {  
8.         INPUT_PATH = file;  
9.         PROJECT_PATH = project;  
10. if(checkContentType()==0)  
11.         {  
12.             toHtml();  
13.         }  
14.     }  
15.       
16. private static int
17.     {  
18. ".") + 1, INPUT_PATH.length())  
19.                 .toLowerCase();  
20. if (type.equals("pdf"))  
21. return 0;  
22. else
23. return 9;  
24.     }  
25.       
26. private static void
27.     {  
28. if(new
29.         {  
30. try
31.             {  
32. "cmd /c start X:\\pdftohtml.bat \"" + PROJECT_PATH + "\" \"" + INPUT_PATH + "\"";  
33.                 Runtime.getRuntime().exec(cmd);  
34.             }  
35. catch
36.             {  
37.                 e.printStackTrace();  
38.             }  
39.         }  
40.     }  
41.       
42. }  
 
 String cmd = "....";此处代码是调用创建的bat文件进行转换 
  
 8) 测试转换
  
  
 
 
 
1. public static void
2. {  
3. "C:\\test.pdf", "X:\\xpdf");  
4. }

以上就是整理的内容,后续还会添加视频转换为FLV格式,如果需要的话:)

说的不是很详细,碰到问题的朋友可以自己努力解决一下:)