java easypoi 去掉title java去除bom头

转载

数据科学家 2024-08-17 12:45:08

文章标签 dom bom html ico xml 文章分类 Java 后端开发

Java处理带BOM的文本

说起BOM，这个问题还比较麻烦，因为BOM不可见，但用程序做不同编码文本处理时候却常常需要考虑到BOM的问题。在此之前，先对BOM做个简单认识。

先看看带BOM的文件：

源文件：

java easypoi 去掉title java去除bom头_ico

16进制打开：

java easypoi 去掉title java去除bom头_dom_02

下面举个例子，针对UTF-8的文件BOM做个处理：

new File(   "D:\\projects\\mailpost\\src\\a.xml"),   "UTF-8");  
  
                    byte[] b = xmla.getBytes(   "UTF-8");  
  
                 String xml =    new String(b,3,b.length-3,   "UTF-8");  
  
                 Document doc1 = DocumentHelper.parseText(xml);    
                 Element e1 = (Element)doc1.selectSingleNode(   "/ResponseData/Body/RetDesc");    
                 Element e2 = (Element)doc1.selectSingleNode(   "/ResponseData/Head/RespID");    
                 Element e3 = (Element)doc1.selectSingleNode(   "/ResponseData/Body/RetCode");    
                 Element e4 = (Element)doc1.selectSingleNode(   "/ResponseData/Body/RetDesc");

思路是：先按照UTF-8编码读取文件后，跳过前三个字符，重新构建一个新的字符串，然后用Dom4j解析处理，这样就不会报错了。

其他编码的方式处理思路类似，其实可以写一个通用的自动识别的BOM的工具，去掉BOM信息，返回字符串。

不过这个处理过程已经有牛人解决过了： http://koti.mbnet.fi/akini/java/unicodereader/

-------------------------------------------------一下引用了百科

什么是BOM

BOM（byte-order mark），即字节顺序标记，它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记，用来识别Unicode文件的编码类型。对于UTF-8来说，BOM并不是必须的，因为BOM用来标记多字节编码文件的编码类型和字节顺序（big-endian或little-endian）。

在绝大多数编辑器中都看不到BOM字符，因为它们能理解Unicode，去掉了读取器看不到的题头信息。若要查看某个Unicode文件是否以BOM开头，可以使用十六进制编辑器。下表列出了不同编码所对应的BOM。