\ufeff 这是个什么

原创

keyboard_sun 2024-06-25 10:45:55 ©著作权

文章标签 python windows 开发语言 List java 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者keyboard_sun的原创作品，请联系作者获取转载授权，否则将追究法律责任

在你的CSV文件中，可能包含了一个隐藏的字节序标记（Byte Order Mark，BOM），这是一个Unicode字符（\ufeff），通常出现在文件的开头，用于指示文件的编码方式。这个字符在文件中是不可见的，但会影响文件的处理，尤其是在读取文件的头部时。

BOM通常出现在UTF-8编码的文件中，具体是 \ufeff，这个字符可能会影响列名的读取，导致列名匹配失败。

解决方法：

去除BOM：在读取文件时，去除BOM字符。你可以在读取CSV文件时检查并去除BOM字符。
预处理文件：在上传之前，使用文本编辑器或者编程方式去除BOM字符。

以下是一些示例代码，展示如何在Java中去除BOM字符：

方法1：在读取文件时去除BOM

在 CsvFileUtil.readTop2List 方法中，检查并去除BOM字符。

public static List<List<String>> readTop2List(InputStream inputStream) {
    BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, StandardCharsets.UTF_8));
    List<List<String>> result = new ArrayList<>();
    try {
        String line;
        boolean isFirstLine = true;
        while ((line = reader.readLine()) != null && result.size() < 2) {
            if (isFirstLine) {
                line = removeBom(line);
                isFirstLine = false;
            }
            result.add(Arrays.asList(line.split(",")));
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
    return result;
}

private static String removeBom(String line) {
    if (line.startsWith("\ufeff")) {
        return line.substring(1);
    }
    return line;
}

方法2：上传之前去除BOM

如果你在本地处理文件，可以使用编程方式去除BOM字符，然后再上传。

import java.nio.file.Files;
import java.nio.file.Paths;
import java.nio.charset.StandardCharsets;

public class RemoveBom {
    public static void main(String[] args) throws Exception {
        byte[] bytes = Files.readAllBytes(Paths.get("path/to/your/file.csv"));
        String content = new String(bytes, StandardCharsets.UTF_8);
        if (content.startsWith("\ufeff")) {
            content = content.substring(1);
        }
        Files.write(Paths.get("path/to/your/file_without_bom.csv"), content.getBytes(StandardCharsets.UTF_8));
    }
}