java linux文件中文乱码的解决办法
1、下载jdk1.8的sun源码;
2、将Font的创建从物理字体改为逻辑字体;
3、重启服务即可。
如何解决java linux文件中文乱码问题?
Linux环境下Java中文乱码解决方案
相信很多朋友遇到过Java的乱码问题,最近我也在解决一个“使用文本生成图片过程中中文以及特殊字符乱码”的问题;花了我大量时间,Debug了sun.font、sun.awt下面的各种源码,终于搞懂了其机制,解决了目前次问题;现在把问题解决过程给写下来,做个记录,以免以后再次遇到。
遇到的问题
下面是我想要执行的代码(经过极度简化,但是意思没变):
public static void main(String[] args) throws IOException {
File file = new File("test.png");
Font font = new Font("宋体", Font.PLAIN, 10);
BufferedImage bi = new BufferedImage(400, 200, BufferedImage.TYPE_INT_ARGB);
Graphics2D g2 = (Graphics2D) bi.getGraphics();
g2.setBackground(Color.WHITE);
g2.clearRect(0, 0, 400, 200);
g2.setFont(font);
g2.setColor(Color.BLACK);
g2.setRenderingHint(RenderingHints.KEY_TEXT_ANTIALIASING, RenderingHints.VALUE_TEXT_ANTIALIAS_ON);
g2.drawString("为什么没有(ꐚꌒꑿꆺ)(ꐚꌒꑿꆺ)这名字特殊不?@¥¥¥ 为什么没有(ꐚꌒꑿꆺ)(ꐚꌒꑿꆺ)这名字特 ", 0, 10);
g2.dispose();
ImageIO.write(bi, PNG, file);
}
目标当然是想在打开test.png的时候看到如下场景:
在本地调试没问题之后,就放到了测试机(Linux)上面去执行了,执行结果简直扑街:
jdk1.8的sun源码下载
奉行程序员一贯作风:既然有问题,那就Debug!
坑爹的是现在的源码包已经不包含sun包的代码了!
幸好java官方确认OpenJDK的代码基本和JVM源码一致,可以直接从OpenJDK8u进行下载:jdk8u
至于如何使用源码debug,这个就不写了··· 这都不会基本也就别看这文章了
定位问题
直接下载好源码,远程断点,服务器执行,在debug中先发现了第一个产生本地和测试服务器不一致的代码:
原来JVM创建Font的时候会使用FontManagerFactory获取FontManager,而不同的系统使用的FontManager是不同的!Mac用的是CFontManager,而Linux用的是X11FontManager!
那么这两个FontManager的不同会导致什么不同呢?
CFontManager会创建CFont作为Font2D,这个CFont是JVM专门为mac创建的类,看类和方法的注释可以知道在mac环境下有时候物理字体会被CFont包装,而这是在native代码中完成的:
X11FontManager创建的Font2D是包含了逻辑字体和物理字体的集合。X11FontManager继承了FcFontManager,FcFontManager继承了SunFontManager;我们看一下X11FontManager的loadFonts()方法,直接使用了SunFontManager的loadFonts(),SunFontManager的loadFonts()方法加载了物理字体,SunFontManager实现了FontManager的preferLocaleFonts()方法,加载了逻辑字体:
逻辑字体与物理字体
代码debug到这边基本已经确认了是不同环境的字体加载问题,那么在debug linux环境的时候发现的逻辑字体和物理字体是什么东西呢?
物理字体
物理字体是实际的字体库,包含字形数据和表,这些数据和表使用字体技术(如 TrueType 或 PostScript Type 1)将字符序列映射到字形序列。Java Platform 的所有实现都支持 TrueType 字体;对其他字体技术的支持是与实现相关的。物理字体可以使用字体名称,如 Helvetica、Palatino、HonMincho 或任意数量的其他字体名称。通常,每种物理字体只支持有限的书写系统集合,例如,只支持拉丁文字符,或者只支持日文和基本拉丁文。可用的物理字体集合随配置的不同而有所不同。要求特定字体的应用程序可以使用 createFont 方法来捆绑这些字体,并对其进行实例化。
逻辑字体
逻辑字体是由必须受所有 Java 运行时环境支持的 Java 平台所定义的五种字体系列:Serif、SansSerif、Monospaced、Dialog 和 DialogInput。这些逻辑字体不是实际的字体库。此外,由 Java 运行时环境将逻辑字体名称映射到物理字体。映射关系与实现和通常语言环境相关,因此它们提供的外观和规格各不相同。通常,为了覆盖庞大的字符范围,每种逻辑字体名称都映射到几种物理字体。
问题解决
debug的源码很多,但是此次问题的关键点就在这里了,其它debug内容就不贴了。
既然已经确认了本地(mac环境)是native的代码帮我们做了物理字体的封装,转换成了CFont进行渲染,而Linux环境的X11FontManager只是帮我们加载了物理字体和逻辑字体,但是却需要我们自己进行选择,那么解决问题的第一步就显而易见了:将Font的创建从物理字体改为逻辑字体
1 // Serif、SansSerif、Monospaced、Dialog 和 DialogInput 随意选择
2 Font font = new Font("Serif", Font.PLAIN, 10);
改完以后执行代码,仍然是乱码!继续Debug,发现是Linux上逻辑字体Serif映射的物理字体没有中文字体和对应的特殊符号字体,这就很简单了,直接在Linux上安装中文字体(simsun.ttf),再安装特殊符号“ꐚꌒꑿꆺ”可显示的字体(mysi.ttf),将这两个字体也放到了jdk的fonts目录(JAVA_HOME/jre/lib/fonts)下。文章后面有Linux字体安装方法。