html转成word java html转换成word_HTML

HTML文件到WORD文档双面打印三步曲

2000/04/14 软件世界

上网的同学常常会下载一些HTML文档,为了阅读的便于,有时需要将这种文件打印下来。如果文档较长或打印多个文档,为了节省纸张,就必须采取双面打印。如何将这种HTML 文档双面打印出来呢?大致应该以下三个步骤:

一、 将HTML 文档转换成文本文档

(一) 使用浏览器转换HTML文件

如果是在Netscape浏览器浏览网上文件过程中,可以在浏览器File 菜单中选取Save As ,在“存为类别”下拉框中选取“Plain Text (*.txt)”,可以将HTML 文件直接存为TXT文件。注意:如果“文件名”中不加入.TXT 后缀的话,Netscape 4.0以前的版本中将不会自动加*.TXT 后缀,也就是说下载后的文件并不标志为TXT文件。对于即将下载的文件,可以从浏览器的“File”菜单中选择“Open page”,打开硬盘上的HTML文件后,选择“FILE”菜单中的“SAVE AS”,将其另存为文本文件。用IE转换文件的过程与上相类似。缺点:不能进行批量转换,一次只能转化一个文件;由于对生成该HTML文档编辑器的兼容性问题,转换后的文档常常有许多地方不能正确转化,特别是容易发生换行错误,阅读出来十分难受:一是在不该折行的地方折了行,如一个单词占了一行;二是在该折行的地方不折行,形成一条需要用水平卷滚条往右拉动很长能够读完的行。

(二)用HTMASC进行HTML到TXT文件的转换

运行HTMASC(笔者使用的是HTMASC32,版本2.2),在 “FILE” 菜单中选取“Open”打开单个要转化的HTML文件,再选取“CONVERT”或在“FILE” 菜单中选择“Multiple Convert… …”,选定相应的目录和文件即可进行转化(用相应的界面选择亦可)。见图1、图2。

选项Options简单表明:Word Wrap:使单词自动换行;Show Lights:显示配置灯(灯绿表示选中该项 ); Configure Lights:对HTMASC 进行简单配置;Hints:是否随鼠标的移动而在鼠标下方显示界面的有关信息;Links: 是否在转化文件中储存链接信息;SD:是否将转化文件保存在原文件模式下;ST:显示标题;COMP:在转换文件中略去空行)。建议通常应用选中以上几项。也可以直接在Options菜单中选取More… …,指定Output directory(输出文件模式)及上述设定。见图3。

缺点:对中文的支持不够好,在转换中英文混排的HTML文档中,会出现错误,如图4。如果对同一个文件进行两次转换,甚至会出现同一位置的汉字的转换结果会不同的状况;对有些空格符识别不好,会出现像图5中一样的乱字符;编辑功能很差,没有替换功能。

html转成word java html转换成word_html打印word文档_02

优点:转换速度快;可以进行批量文件转换;对英文HTML文件的兼容性最好。

(三)使用WORD 97对HTML文档进行转换

大家知道,WORD 97可以编辑HTML文档,那么为什么不使用WORD97直接对HTML进行编辑、打印呢?使用WORD97在转化HTML文档时有下列几个缺点:一是转换速度很慢;二是不能进行批量转换;三是对生成该HTML文档编辑器的兼容性不好,对非Microsoft编辑器生成的HTML文档识别不好。如对一文件的转换:

HTMASC转换内容为:De(德 virtues)

WORD 97转换为:De(? virtues)

html转成word java html转换成word_HTML_03

由上可见,对HTML文件转换,以HTMASC 兼容性、适应性最好,且可推动批量转换,转换速率快,是首选HTML文件转换工具。在转换中英文混排HTML文件时,先用HTMASC 尝试一下,如果转换结果不理想,再采取可恰当观看该文件的浏览器进行转换。

二、用WORD 进行粗略编辑

为什么不用NOTEPAD 等对文本文件进行编辑?因为大多数文本编辑工具编辑功能更差,比如NOTEPAD甚至连字符串替换功能都没有,而且NOTEPAD 不能编辑大的文件。文本文件编辑器中UltraEdit—32,功能十分强悍。但由于我们的目的是将文档双面打印出来,而UltraEdit—32目前还不支持双面打印,所以我们没有选用它。使用WORD进行仔细编辑,其主要动机在于:(1)对照原文,检查转换过程中有无错误;(2)去掉无意义的乱字符;(3)去掉如“返回”、“上页”、“下页”、“BACK"、“HOME"等仅用于指示链接的文字;(4)按照自己需求对文档进行简洁排版(如对页面进行修改),以便打印。(5)如果必须原文中的照片,在文档的相应位置插入相应截图。

通常,我们为了节省纸张,对应打印的转化后的文档的页面修改与一般使用的模版Normal.dot中所设定的不一样,比如我们将页面边距设得小一些,选择小的字号。有两种方式,可以让我们不必每编辑一个文件都对文件的以上参数进行修改。

一种方法是运用WORD 模板,在“文件”菜单中选取“新建”,在之后出现选单中选取新建模板,新建一模板文件(与编辑一WORD 文档的过程相同),在页面设定中定义好相应参数,如在“字符数/行数”定义每页行数、字体种类和大小;在“纸张大小”中定义纸张;在“页边距”中定义文字距页边的距离。定义完后,以类似NORMAL1.DOT等的文件名保存后,退出WORD。将Normal.dot更名,如更名为Normal-dot.bak,再将NORMAL1.DOT 复制或更名为NORMAL.DOT,再开启WORD 后可以直接在一新DOC文件中“插入”要编辑的文本文件,即可获取所必须格式的DOC文档了。这种方式的特点:如果你用的机器是跟对方公用的,在使用完毕后,需要将文档模版改回。

html转成word java html转换成word_HTML_04

另一种方法是编辑一依照自己规定的空白文档,存为TEMP.DOC,要编辑文本文档时,先开启该文档,然后插入要排版的文本文件,另存为一文件名,如和文本文件名相同的WORD文档,关闭之。再从文件菜单底部所列的近期使用文件中找到TEMP.DOC ,再如上重复编辑另一文件就能。值得一提的是,笔者在用WORD直接编辑HTMASC转换的TXT文件的过程中,发现如图5中的乱字符(应转换为括号)在图标定义为粗体和斜体时可以在编辑中展现出来,而用粗体和仿宋体却直接呈现为空格。所以在上述的文件中或模板中插入文本文件后试卷格式word格式字体,可以用CTRL+A将所有文本选中,定义图标为仿宋体或斜体,可以省去对如图5中的乱字符的查找替换。

三、用WORD双面打印文档

要实现多页数的双面打印,打印机应支持连续进纸,否则一张张送纸,实在浪费时间。照上述方法编辑完后,从“文件”菜单中选取“打印”或用快捷键CTRL+P,调出打印对话窗口,右下角“打印”框中先选取“偶数页面”,打印完毕后,最好放置一段时间如10分钟左右,(目的是使纸张充分冷却下来,不然的话很容易夹纸。)然后将整叠打印的纸板(已打印面朝上)放回打印机,再打印奇数页,打印完后将整叠打印文件翻过来即为次序正确的文件。如果先打印奇数页,再打印偶数页,打印完毕将整叠纸张翻过来后,其排序为2/1,4/3,6/5… …,需要一张张调整页数的总之。

需要指出的是在模板或用作模板作用的TEMP文件的修改中一定要加上页码,这样在打印完毕整理时才能确保顺序不乱。一般状况下,首先打印偶数页的情况下,用激光打印机不会出什么疑问,打印完后,大体检查一下即可。打印另一面(通常是奇数页)的之后试卷格式word格式字体,由于纸张已从打印机中走过一遍,很容易变形造成卡纸或相粘导致将一页的内容打印到两页上,如果打印页数较少,打错了可以重来。如果打印页数较多,在打印过程中发生上述两种错误一定要及时关掉打印机电源,将打错的页数取出。然后WIN95“开始”菜单中选取“设置”选择“打印机”,右击你使用的打印机图标,选择“清除打印作业”。以上工作做完后,从WORD 中再次按前面步骤打印去除错误页之后的偶数页面,此时要在打印对话窗口中的“打印范围”中选取“页码范围”,并填入如“18-”,表示打印18页以后的内容,见图6。注意千万不要忘记在该对话窗口中右下角“打印”框中选中“偶数页面”!!!

通过以上三个步骤,一份符合自己心意的文档就打印下来了。